0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OCR终结了?旷视提出可以文档级OCR的多模态大模型框架Vary,支持中英文,已开源!

智能感知与物联网技术研究所 来源:未知 2023-12-24 21:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

想将一份文档图片转换成 Markdown 格式?以往这一任务需要文本识别、布局检测和排序、公式表格处理、文本清洗等多个步骤——

这一次,只需一句话命令,多模态大模型 Vary 直接端到端输出结果:

无论是中英文的大段文字:

wKgaomWINeGAaauEAAxKvLvAgCc142.png

wKgaomWINeGAbodMAAWnaNFVZdU310.png

还是包含了公式的文档图片:

wKgaomWINeKAPlo4AAVxR6bKBYI081.png

又或是手机页面截图:

wKgaomWINeKAEyFZAAVVG-p7ANc741.png

甚至可以将图片中的表格转换成 Latex 格式:

wKgaomWINeKAKxFRAAOKXXcn73I239.png

当然,作为多模大模型,通用能力的保持也是必须的:

Vary 表现出了很大的潜力和极高的上限,OCR 可以不再需要冗长的 pipline,直接端到端输出,且可以按用户的 prompt 输出不同的格式如 Latex、Word、Markdown。通过 LLM 极强的语言先验,这种架构还可以避免 OCR 中的易错字,比如“杠杆”和“杜杆”等, 对于模糊文档,也有望在语言先验的帮助下实现更强的 OCR 效果。

项目一出,引发了不少网友的关注,有网友看后直呼 “kill the game!”

wKgaomWINeKAMNzeAABoNqdAVf4240.png

wKgaomWINeOAXJiuAACEMhqdQXs796.png

那么这样的效果,是如何做到的呢?

背后原理

目前的多模态大模型几乎都是用 CLIP 作为 Vision Encoder 或者说视觉词表。确实,在 400M 图像文本对训练的 CLIP 有很强的视觉文本对齐能力,可以覆盖多数日常任务下的图像编码。但是对于密集和细粒度感知任务,比如文档级别的 OCR、Chart 理解,特别是在非英文场景,CLIP 表现出了明显的编码低效和 out-of-vocabulary问题。

受语言的 LLMs 启发,纯 NLP 大模型(如 LLaMA)从英文到中文(外语)时因为原始词表编码中文效率低,必须要扩大 text 词表。那么对于现在基于 CLIP 视觉词表的多模大模型也是一样的,遇到 “foreign language image”,如一页论文密密麻麻的文字,很难高效地将图片 token 化,Vary 提出就是解决这一问题,在不 overwrite 原有词表前提下,高效扩充视觉词表。

wKgaomWINeOAO9tHAAKXZ72haLU845.png

不同于现有方法直接用现成的 CLIP 词表,Vary 分两个阶段:第一阶段先用一个很小的 Decoder-only 网络用自回归方式帮助产生一个强大的新视觉词表;然后在第二阶段融合新词表和 CLIP 词表,从而高效的训练多模大模型拥有新 feature。Vary 的训练方法和模型结构如下图:

wKgaomWINeOAHvnpAAUprQYQZIE046.png

通过在公开数据集以及渲染生成的文档图表等数据上训练,Vary 极大增强了细粒度的视觉感知能力。在保持 Vanilla 多模态能力的同时,激发出了端到端的中英文图片、公式截图和图表理解能力。

另外,原本可能需要几千 tokens 的页面内容,通过文档图片输入,信息被Vary压缩在了 256 个图像 tokens 中。这也为进一步的页面分析和总结提供了更多的想象空间。

目前,Vary 的代码和模型均已开源,还给出了供大家试玩的网页 demo。感兴趣的小伙伴可以去试试了~

项目主页:

https://varybase.github.io/

wKgaomWINeOACsCzAAAC0jQz1zo740.svg

参考链接

wKgaomWINeOACsCzAAAC0jQz1zo740.svg  

https://zhuanlan.zhihu.com/p/671420712

· ·


原文标题:OCR终结了?旷视提出可以文档级OCR的多模态大模型框架Vary,支持中英文,已开源!

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2950

    文章

    48127

    浏览量

    418501

原文标题:OCR终结了?旷视提出可以文档级OCR的多模态大模型框架Vary,支持中英文,已开源!

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    云知声Unisound U1-OCR系列模型架构升级

    2026年2月26日,我们正式发布首个工业级文档智能基础大模型 Unisound U1-OCR,以“性能SOTA、可信可验、开箱即用、高效部署、强适配”五大核心优势,重塑传统文档处理边
    的头像 发表于 04-23 10:40 225次阅读
    云知声Unisound U1-<b class='flag-5'>OCR</b>系列<b class='flag-5'>模型</b>架构升级

    百度文心衍生模型PaddleOCR登顶GitHub Star OCR全球第一

    3月30日,百度文心衍生模型PaddleOCR在GitHub上的Star数突破73.3K,超越谷歌Tesseract OCR,成为全球Star数最高的OCR项目。
    的头像 发表于 03-31 11:40 448次阅读

    云知声正式推出Unisound U1-OCR文档智能基础大模型

    就在刚刚,云知声正式推出 Unisound U1-OCR 文档智能基础大模型。作为首个工业级文档智能基座,该模型凭借 “性能 SOTA、可信
    的头像 发表于 02-26 17:28 903次阅读
    云知声正式推出Unisound U1-<b class='flag-5'>OCR</b><b class='flag-5'>文档</b>智能基础大<b class='flag-5'>模型</b>

    智能显示模块可以实现中英文界面显示吗?

    智能显示模块可以实现中英文界面显示吗?
    发表于 02-26 10:22

    工业级OCR手持终端怎么选?国产OCR智能识别pda实测

    工业环境专用OCR智能PDA怎么选?鸟鸟科技N70Socr具备IP67防尘防水+1.5米抗跌落,5000mAh可拆卸电池支持24小时轮班作业。专业OCR扫描头+斑马/霍尼二维码引擎双模组,285g人体工学设计,让高强度数据采集更
    的头像 发表于 02-07 17:45 498次阅读
    工业级<b class='flag-5'>OCR</b>手持终端怎么选?国产<b class='flag-5'>OCR</b>智能识别pda实测

    系统寄存器的应用?如何实现中英文模式下的不同屏保页功能?定时功能?背光等级查看?

    系统寄存器的应用?如何实现中英文模式下的不同屏保页功能?定时功能?背光等级查看?
    发表于 02-03 14:20

    沐曦曦云C500/C550 GPU产品适配智谱GLM-OCR模型

    今天,智谱AI正式发布并开源GLM-OCR,以 “小尺寸、高精度” 实现文档解析能力新标杆。沐曦股份曦云C500/C550 GPU充分发挥高生态兼容性、软硬协同能力优势,高效完成与智谱GLM-
    的头像 发表于 02-03 11:36 933次阅读
    沐曦曦云C500/C550 GPU产品适配智谱GLM-<b class='flag-5'>OCR</b><b class='flag-5'>模型</b>

    百度正式发布并开源新一代文档解析模型PaddleOCR-VL-1.5

    1 月 29 日,百度正式发布并开源新一代文档解析模型 PaddleOCR-VL-1.5。该模型以仅 0.9B 参数的轻量架构,在全球权威文档
    的头像 发表于 01-30 10:03 815次阅读
    百度正式发布并<b class='flag-5'>开源</b>新一代<b class='flag-5'>文档</b>解析<b class='flag-5'>模型</b>PaddleOCR-VL-1.5

    DeepX OCR:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 与 x86 平台交付可规模化的高性能 OCR 能力

    一、行业背景与核心挑战:OCR 规模化应用的关键瓶颈 **随着文档识别技术的不断成熟,OCR 技术已从实验性阶段逐步走向实际业务场景,在政务、金融、制造、物流等多个行业中得到广泛应用。然而,在规模化
    的头像 发表于 01-22 21:02 335次阅读
    DeepX <b class='flag-5'>OCR</b>:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 与 x86 平台交付可规模化的高性能 <b class='flag-5'>OCR</b> 能力

    商汤科技正式发布并开源全新模态模型架构NEO

    商汤科技正式发布并开源了与南洋理工大学S-Lab合作研发的全新模态模型架构 —— NEO,为日日新SenseNova
    的头像 发表于 12-08 11:19 1157次阅读
    商汤科技正式发布并<b class='flag-5'>开源</b>全新<b class='flag-5'>多</b><b class='flag-5'>模态</b><b class='flag-5'>模型</b>架构NEO

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态
    的头像 发表于 10-29 17:15 372次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入<b class='flag-5'>模型</b>

    小语种OCR标注效率提升10+倍:PaddleOCR+ERNIE 4.5自动标注实战解析

    与一致性校验,实现高精度、低成本的小语种OCR训练数据生成。该方案将数据准备周期 从数周缩短至数小时 ,为小语种模型的快速迭代与冷启动提供了全新范式 一、引言:小语种OCR的“数据之困” 在跨境支付、多语言
    的头像 发表于 08-29 11:26 3879次阅读
    小语种<b class='flag-5'>OCR</b>标注效率提升10+倍:PaddleOCR+ERNIE 4.5自动标注实战解析

    【嘉楠堪智K230开发板试用体验】+OCR实现

    匹配等步骤,将扫描文档、照片或截图中的文字准确识别并数字化。OCR广泛应用于文档电子化、车牌识别、票据处理、历史档案保存等领域,极大地提升了信息处理的效率与准确性。随着深度学习的发展,现代OC
    发表于 08-23 18:53

    端侧OCR文字识别实现 -- Core Vision Kit ##HarmonyOS SDK AI##

    ,使用场景中就包括了“通用文字识别”,即我们前文中所说的ocr功能。 其整体流程概括为: 首先通过各种方法得到一张图片,例如拍照、从相册中选择、甚至你也可以通过canvas画布生成的图片或者通过组件
    发表于 06-30 18:07

    OCR识别训练完成后给的是空压缩包,为什么?

    OCR识别 一共弄了26张图片,都标注好了,点击开始训练,显示训练成功了,也将压缩包发到邮箱了,下载下来后,压缩包里面是空的 OCR图片20几张图太少了。麻烦您添加点,参考我们的ocr
    发表于 05-28 06:46