0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OCR终结了?旷视提出可以文档级OCR的多模态大模型框架Vary,支持中英文,已开源!

智能感知与物联网技术研究所 来源:未知 2023-12-24 21:40 次阅读

想将一份文档图片转换成 Markdown 格式?以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤——

这一次,只需一句话命令,多模态大模型 Vary 直接端到端输出结果:

无论是中英文的大段文字:

wKgaomWINeGAaauEAAxKvLvAgCc142.png

wKgaomWINeGAbodMAAWnaNFVZdU310.png

还是包含了公式的文档图片:

wKgaomWINeKAPlo4AAVxR6bKBYI081.png

又或是手机页面截图:

wKgaomWINeKAEyFZAAVVG-p7ANc741.png

甚至可以将图片中的表格转换成 Latex 格式:

wKgaomWINeKAKxFRAAOKXXcn73I239.png

当然,作为多模大模型,通用能力的保持也是必须的:

Vary 表现出了很大的潜力和极高的上限,OCR 可以不再需要冗长的 pipline,直接端到端输出,且可以按用户的 prompt 输出不同的格式如 Latex、Word、Markdown。通过 LLM 极强的语言先验,这种架构还可以避免 OCR 中的易错字,比如“杠杆”和“杜杆”等, 对于模糊文档,也有望在语言先验的帮助下实现更强的 OCR 效果。

项目一出,引发了不少网友的关注,有网友看后直呼 “kill the game!”

wKgaomWINeKAMNzeAABoNqdAVf4240.png

wKgaomWINeOAXJiuAACEMhqdQXs796.png

那么这样的效果,是如何做到的呢?

背后原理

目前的多模态大模型几乎都是用 CLIP 作为 Vision Encoder 或者说视觉词表。确实,在 400M 图像文本对训练的 CLIP 有很强的视觉文本对齐能力,可以覆盖多数日常任务下的图像编码。但是对于密集和细粒度感知任务,比如文档级别的 OCR、Chart 理解,特别是在非英文场景,CLIP 表现出了明显的编码低效和 out-of-vocabulary问题。

受语言的 LLMs 启发,纯 NLP 大模型(如 LLaMA)从英文到中文(外语)时因为原始词表编码中文效率低,必须要扩大 text 词表。那么对于现在基于 CLIP 视觉词表的多模大模型也是一样的,遇到 “foreign language image”,如一页论文密密麻麻的文字,很难高效地将图片 token 化,Vary 提出就是解决这一问题,在不 overwrite 原有词表前提下,高效扩充视觉词表。

wKgaomWINeOAO9tHAAKXZ72haLU845.png

不同于现有方法直接用现成的 CLIP 词表,Vary 分两个阶段:第一阶段先用一个很小的 Decoder-only 网络用自回归方式帮助产生一个强大的新视觉词表;然后在第二阶段融合新词表和 CLIP 词表,从而高效的训练多模大模型拥有新 feature。Vary 的训练方法和模型结构如下图:

wKgaomWINeOAHvnpAAUprQYQZIE046.png

通过在公开数据集以及渲染生成的文档图表等数据上训练,Vary 极大增强了细粒度的视觉感知能力。在保持 Vanilla 多模态能力的同时,激发出了端到端的中英文图片、公式截图和图表理解能力。

另外,原本可能需要几千 tokens 的页面内容,通过文档图片输入,信息被Vary压缩在了 256 个图像 tokens 中。这也为进一步的页面分析和总结提供了更多的想象空间。

目前,Vary 的代码和模型均已开源,还给出了供大家试玩的网页 demo。感兴趣的小伙伴可以去试试了~

项目主页:

https://varybase.github.io/

wKgaomWINeOACsCzAAAC0jQz1zo740.svg

参考链接

wKgaomWINeOACsCzAAAC0jQz1zo740.svg  

https://zhuanlan.zhihu.com/p/671420712

· ·


原文标题:OCR终结了?旷视提出可以文档级OCR的多模态大模型框架Vary,支持中英文,已开源!

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2869

    文章

    41622

    浏览量

    358374

原文标题:OCR终结了?旷视提出可以文档级OCR的多模态大模型框架Vary,支持中英文,已开源!

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    机器人基于开源的多模态语言视觉大模型

    ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作
    发表于 01-19 11:43 123次阅读
    机器人基于<b class='flag-5'>开源</b>的多<b class='flag-5'>模态</b>语言视觉大<b class='flag-5'>模型</b>

    基于OpenVINO+OpenCV的OCR处理流程化实现

    预处理主要是基于OpenCV、场景文字检测与识别基于OpenVINO框架 + PaddleOCR模型完成。直接按图索骥即可得到最终结果。 OpenCV预处理主要是完成偏斜矫正、背景矫正等操作,然后使用场景文字检测
    的头像 发表于 11-07 11:21 384次阅读
    基于OpenVINO+OpenCV的<b class='flag-5'>OCR</b>处理流程化实现

    OCR如何自动识别图片文字

    回复希望出一篇 OCR 相关的文章,今天尝试了一下 cnocr 和 tesseract 两个 Python 开源识别工具的效果,给大家分别讲讲两个工具的使用方法和对比效果。 1.准备 开始之前,你要确保
    的头像 发表于 10-31 16:45 434次阅读
    <b class='flag-5'>OCR</b>如何自动识别图片文字

    easyocr:超级简单且强大的OCR文本识别工具

    今天给大家介绍一个超级简单且强大的OCR文本识别工具: easyocr . 这个模块支持70多种语言的即用型OCR,包括中文,日文,韩文和泰文等。 下面是这个模块的实战教程。 1.准备 开始之前
    的头像 发表于 10-30 09:30 1454次阅读
    easyocr:超级简单且强大的<b class='flag-5'>OCR</b>文本识别工具

    labview界面中英文语言切换学习教程

    labview界面中英文切换,labview界面语言切换学习
    发表于 10-26 15:23 7次下载

    【KV260视觉入门套件试用体验】Vitis AI Library体验之OCR识别

    Vitis AI Runtime,Vitis AI Library 有很多已经封装好的神经网络接口,直接拿来用即可。 OCR识别基于Vitis AI Library 的ocr_pt模型OCR
    发表于 10-16 23:25

    proteus常用元件中英文对照表

    proteus常用元件中英文对照表_说明
    发表于 09-28 08:29

    【KV260视觉入门套件试用体验】七、VITis AI字符和文本检测(OCR&amp;Textmountain)

    视觉领域的重要问题,主要是识别和理解图像或视频中的文字信息。字符检测和识别(OCR)技术最早在1929年由德国科学家Tausheck提出,定义为将印刷体的字符从纸质文档中识别出来。随着OCR
    发表于 09-26 16:31

    在线研讨会 | 就在明天!NVIDIA TAO Toolkit 5.0 助力 OCR 视觉 AI 模型快速训练与优化

    光学字符识别(OCR)技术 是一种将纸质文档、PDF 文件或图像中的文本转换成机器可识别的格式的技术。它在许多领域都有广泛的应用,例如文档扫描、自动化数据输入、图书馆数字化等。然而,尽管 OC
    的头像 发表于 08-21 21:05 297次阅读
    在线研讨会 | 就在明天!NVIDIA TAO Toolkit 5.0 助力 <b class='flag-5'>OCR</b> 视觉 AI <b class='flag-5'>模型</b>快速训练与优化

    模型时代的OCR,“CPU” 的味道更重了

    文件、身份证、路标等识别,可以说统统都离不开它。 而随着近几年大模型的不断发展,OCR也迎来了它的 “新生机” —— 凭借自身可以将文本从图片、扫描
    的头像 发表于 07-08 14:25 303次阅读
    大<b class='flag-5'>模型</b>时代的<b class='flag-5'>OCR</b>,“CPU” 的味道更重了

    【原创分享】Mentor PADS 中英文版本切换

    PADS支持中英文切换,这样有利于我们更加方便的进行设计,对于新手可能使用中文版本的较多,但是目前很多设计师习惯于使用英文版本。 执行菜单栏命令【工具】→【自定义】,如图1所示。 图1 弹出“自定义
    的头像 发表于 06-28 07:35 2024次阅读

    Proteus教程:LCD12864中英文显示

    Proteus教程:LCD12864中英文显示
    的头像 发表于 06-14 11:24 1650次阅读
    Proteus教程:LCD12864<b class='flag-5'>中英文</b>显示

    PDF执行OCR使用指南(仅适用于万兴PDF专业版)

    然后单击“更改选择”按钮,从OCR语言列表中选择匹配PDF内容的正确语言(万兴PDF支持超过20种OCR语言)。您也可以点击“自定义页面”来选择单个页面或几个页面执行
    的头像 发表于 06-06 15:54 1393次阅读
    PDF执行<b class='flag-5'>OCR</b>使用指南(仅适用于万兴PDF专业版)

    模态GPT:国内发布一款可以在线使用的多模态聊天机器人!

    基于开源模态模型 OpenFlamingo,作者使用公开数据集创建了各种视觉指令数据,包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话。此外,还使用仅包含语言指令数据的语言
    的头像 发表于 05-12 09:55 885次阅读
    多<b class='flag-5'>模态</b>GPT:国内发布一款<b class='flag-5'>可以</b>在线使用的多<b class='flag-5'>模态</b>聊天机器人!

    在NGC容器中体验中英文混合语音识别方案

    PaddleSpeech 又带着新功能和大家见面了。本次更新,为开发者们带来了基于端到端语音识别模型 Conformer 的中英文混合语音识别方案,通过命令行和 Python 可以快速体验,也根据
    的头像 发表于 05-05 11:00 555次阅读
    在NGC容器中体验<b class='flag-5'>中英文</b>混合语音识别方案