0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OCR终结了?旷视提出可以文档级OCR的多模态大模型框架Vary,支持中英文,已开源!

智能感知与物联网技术研究所 来源:未知 2023-12-24 21:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

想将一份文档图片转换成 Markdown 格式?以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤——

这一次,只需一句话命令,多模态大模型 Vary 直接端到端输出结果:

无论是中英文的大段文字:

wKgaomWINeGAaauEAAxKvLvAgCc142.png

wKgaomWINeGAbodMAAWnaNFVZdU310.png

还是包含了公式的文档图片:

wKgaomWINeKAPlo4AAVxR6bKBYI081.png

又或是手机页面截图:

wKgaomWINeKAEyFZAAVVG-p7ANc741.png

甚至可以将图片中的表格转换成 Latex 格式:

wKgaomWINeKAKxFRAAOKXXcn73I239.png

当然,作为多模大模型,通用能力的保持也是必须的:

Vary 表现出了很大的潜力和极高的上限,OCR 可以不再需要冗长的 pipline,直接端到端输出,且可以按用户的 prompt 输出不同的格式如 Latex、Word、Markdown。通过 LLM 极强的语言先验,这种架构还可以避免 OCR 中的易错字,比如“杠杆”和“杜杆”等, 对于模糊文档,也有望在语言先验的帮助下实现更强的 OCR 效果。

项目一出,引发了不少网友的关注,有网友看后直呼 “kill the game!”

wKgaomWINeKAMNzeAABoNqdAVf4240.png

wKgaomWINeOAXJiuAACEMhqdQXs796.png

那么这样的效果,是如何做到的呢?

背后原理

目前的多模态大模型几乎都是用 CLIP 作为 Vision Encoder 或者说视觉词表。确实,在 400M 图像文本对训练的 CLIP 有很强的视觉文本对齐能力,可以覆盖多数日常任务下的图像编码。但是对于密集和细粒度感知任务,比如文档级别的 OCR、Chart 理解,特别是在非英文场景,CLIP 表现出了明显的编码低效和 out-of-vocabulary问题。

受语言的 LLMs 启发,纯 NLP 大模型(如 LLaMA)从英文到中文(外语)时因为原始词表编码中文效率低,必须要扩大 text 词表。那么对于现在基于 CLIP 视觉词表的多模大模型也是一样的,遇到 “foreign language image”,如一页论文密密麻麻的文字,很难高效地将图片 token 化,Vary 提出就是解决这一问题,在不 overwrite 原有词表前提下,高效扩充视觉词表。

wKgaomWINeOAO9tHAAKXZ72haLU845.png

不同于现有方法直接用现成的 CLIP 词表,Vary 分两个阶段:第一阶段先用一个很小的 Decoder-only 网络用自回归方式帮助产生一个强大的新视觉词表;然后在第二阶段融合新词表和 CLIP 词表,从而高效的训练多模大模型拥有新 feature。Vary 的训练方法和模型结构如下图:

wKgaomWINeOAHvnpAAUprQYQZIE046.png

通过在公开数据集以及渲染生成的文档图表等数据上训练,Vary 极大增强了细粒度的视觉感知能力。在保持 Vanilla 多模态能力的同时,激发出了端到端的中英文图片、公式截图和图表理解能力。

另外,原本可能需要几千 tokens 的页面内容,通过文档图片输入,信息被Vary压缩在了 256 个图像 tokens 中。这也为进一步的页面分析和总结提供了更多的想象空间。

目前,Vary 的代码和模型均已开源,还给出了供大家试玩的网页 demo。感兴趣的小伙伴可以去试试了~

项目主页:

https://varybase.github.io/

wKgaomWINeOACsCzAAAC0jQz1zo740.svg

参考链接

wKgaomWINeOACsCzAAAC0jQz1zo740.svg  

https://zhuanlan.zhihu.com/p/671420712

· ·


原文标题:OCR终结了?旷视提出可以文档级OCR的多模态大模型框架Vary,支持中英文,已开源!

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2939

    文章

    47317

    浏览量

    407852

原文标题:OCR终结了?旷视提出可以文档级OCR的多模态大模型框架Vary,支持中英文,已开源!

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态
    的头像 发表于 10-29 17:15 115次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入<b class='flag-5'>模型</b>

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    embedding 结合,启动模态推理;若不包含,则进行纯文本推理。组装输入结构体并传递给模型后,推理结果将实时打印输出。5. 退出与资源释放支持用户输入“exit”退出程序,此时
    发表于 09-05 17:25

    小语种OCR标注效率提升10+倍:PaddleOCR+ERNIE 4.5自动标注实战解析

    与一致性校验,实现高精度、低成本的小语种OCR训练数据生成。该方案将数据准备周期 从数周缩短至数小时 ,为小语种模型的快速迭代与冷启动提供了全新范式 一、引言:小语种OCR的“数据之困” 在跨境支付、多语言
    的头像 发表于 08-29 11:26 3272次阅读
    小语种<b class='flag-5'>OCR</b>标注效率提升10+倍:PaddleOCR+ERNIE 4.5自动标注实战解析

    【嘉楠堪智K230开发板试用体验】+OCR实现

    匹配等步骤,将扫描文档、照片或截图中的文字准确识别并数字化。OCR广泛应用于文档电子化、车牌识别、票据处理、历史档案保存等领域,极大地提升了信息处理的效率与准确性。随着深度学习的发展,现代OC
    发表于 08-23 18:53

    【EASY EAI Orin Nano开发板试用体验】PP-OCRV5文字识别实例搭建与移植

    文字类型方面,PP-OCRv5支持简体中文、中文拼音、繁体中文、英文、日文5大主流文字类型,在场景方面, PP-OCRv5升级了中英复杂手写体、竖排文本、生僻字等多种挑战性场景的识别能力。 在内部
    发表于 08-18 16:57

    端侧OCR文字识别实现 -- Core Vision Kit ##HarmonyOS SDK AI##

    ,使用场景中就包括了“通用文字识别”,即我们前文中所说的ocr功能。 其整体流程概括为: 首先通过各种方法得到一张图片,例如拍照、从相册中选择、甚至你也可以通过canvas画布生成的图片或者通过组件
    发表于 06-30 18:07

    OCR识别训练完成后给的是空压缩包,为什么?

    OCR识别 一共弄了26张图片,都标注好了,点击开始训练,显示训练成功了,也将压缩包发到邮箱了,下载下来后,压缩包里面是空的 OCR图片20几张图太少了。麻烦您添加点,参考我们的ocr
    发表于 05-28 06:46

    爱芯通元NPU适配Qwen2.5-VL-3B视觉模态模型

    熟悉爱芯通元NPU的网友很清楚,从去年开始我们在端侧模态模型适配上一直处于主动紧跟的节奏。先后适配了国内最早开源
    的头像 发表于 04-21 10:56 2591次阅读
    爱芯通元NPU适配Qwen2.5-VL-3B视觉<b class='flag-5'>多</b><b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>

    海康威发布模态模型AI融合巡检超脑

    基于海康观澜大模型技术体系,海康威推出新一代模态模型AI融合巡检超脑,全面升级人、车、行为、事件等算法,为行业带来全新的
    的头像 发表于 04-17 17:12 1334次阅读

    模型预标注和自动化标注在OCR标注场景的应用

    OCR,即光学字符识别,简单来说就是利用光学设备去捕获图像并识别文字,最终将图片中的文字转换为可编辑和可搜索的文本。在数字化时代,OCR(光学字符识别)技术作为处理图像中文字信息的关键手段,其标注
    的头像 发表于 04-15 15:18 716次阅读

    阶跃星辰开源模态模型,天数智芯迅速适配

    近日,头部大模型创业公司阶跃星辰在行业内引起了轩然大波,宣布正式开源两款Step系列模态模型——Step-Video-T2V视频生成
    的头像 发表于 02-19 14:30 819次阅读

    海康威发布模态模型文搜存储系列产品

    模态模型为安防行业带来重大技术革新,基于观澜大模型技术体系,海康威将大参数量、大样本量的图文
    的头像 发表于 02-18 10:33 1019次阅读

    字节跳动发布OmniHuman 模态框架

    2 月 6 日消息,字节跳动近日发布了一项重大成果 ——OmniHuman 模态框架,其优势在于其强大的视频生成能力。用户只需提供一张任意尺寸和人物占比的单张图片,再结合一段输入音频,就能生成
    的头像 发表于 02-07 17:50 1185次阅读

    商汤日日新模态模型权威评测第一

    刚刚,商汤科技日日新SenseNova模态模型,在权威综合评测权威平台OpenCompass的模态评测中取得榜单第一。
    的头像 发表于 12-20 10:39 1496次阅读