0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

中科大&字节提出UniDoc:统一的面向文字场景的多模态大模型

CVer 来源:CVer 2023-08-31 15:29 次阅读

这篇文章是由中科大和字节跳动合作,在2023年8月23日上传到arXiv上的文章。这篇文章提出UniDoc,一个统一的多模态大模型(LMM)。UniDoc主要聚焦于包含文字的图像的多模态理解任务。相比于以往的多模态大模型,UniDoc具备它们所不具备的文字检测、识别、spotting(端到端OCR)的能力。此外,文章中实验表明,这些能力的学习能够彼此促进。

方法框架

7fd66038-47c5-11ee-97a6-92fbcf53809c.png

如上图所示,UniDoc基于预训练的视觉大模型及大语言模型,将文字的检测、识别、spotting(图中未画出)、多模态理解等四个任务,通过多模态指令微调的方式,统一到一个框架中。具体地,输入一张图像以及一条指令(可以是检测、识别、spotting、语义理解),UniDoc提取图像中的视觉信息和文字信息,结合自然语言指令以及大语言模型的世界知识,做出相应回答。

训练数据采集

7ff0ca86-47c5-11ee-97a6-92fbcf53809c.png

作者团队收集了大量的PPT图像,并提取其中文字实例和对应的bbox。在此基础上构建多任务的指令微调数据集。文章认为,PPT图片中文字具有各种各样的大小、字体、颜色、风格等,且PPT中视觉元素丰富多样,适合用于构建涉及文字图像的多模态任务的训练。以spotting任务为例,其指令如下图所示。其中的 term 表示”imgae“,”photo“等随机名词,以增加指令多样性。

8092f2c0-47c5-11ee-97a6-92fbcf53809c.png

实验结果

多模态理解

80ab866e-47c5-11ee-97a6-92fbcf53809c.png

80c91328-47c5-11ee-97a6-92fbcf53809c.png

从上述六个例子可以看到,UniDoc不仅可以有效提取图像中的视觉信息、文字信息,更可以结合其丰富的世界知识进行合理地回答。

80effd58-47c5-11ee-97a6-92fbcf53809c.png

对于无文字的图像,UniDoc同样可以准确地进行问答

81128e04-47c5-11ee-97a6-92fbcf53809c.png

在多个多模态问答基准数据集上,UniDoc实现了优越的性能。

文字检测、识别、spotting

81326094-47c5-11ee-97a6-92fbcf53809c.png

上图中,第一行的四个case来自于WordArt数据集,第二行的四个case来自于TotalText数据集。可以看到,虽然这些行级别的文字图像呈现不同的字体以及不规则的文字分布,UniDoc仍然能够进行准确地识别。

815f6df0-47c5-11ee-97a6-92fbcf53809c.png

上图中六个case中,文字存在部分的缺失,UniDoc仍然能够进行准确地识别。

81779934-47c5-11ee-97a6-92fbcf53809c.png

上图中四个case展示了UniDoc在TotalText数据集上的检测效果。

818baf5a-47c5-11ee-97a6-92fbcf53809c.png

在多个文字识别基准数据集上,UniDoc实现了优越的性能。

消融实验

81a99e2a-47c5-11ee-97a6-92fbcf53809c.png

有趣的消融实验:对于同一张输入图像,spotting指令(右)规避了识别指令(左)的识别遗漏现象。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    435

    浏览量

    10051
  • 数据集
    +关注

    关注

    4

    文章

    1179

    浏览量

    24356
  • 大模型
    +关注

    关注

    2

    文章

    1532

    浏览量

    1130

原文标题:中科大&字节提出UniDoc:统一的面向文字场景的多模态大模型

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    中科大人口模型讲义

    中科大人口模型讲义[hide] [/hide]
    发表于 09-15 12:01

    微机原理与接口技术 中科大教材

    微机原理与接口技术 中科大教材[/hide]
    发表于 12-07 11:15

    中科大发的论文《新代TSC2046触摸屏控制器》

    中科大发的论文《新代TSC2046触摸屏控制器》
    发表于 08-03 08:12

    51单片机C语言编程入门(中科大)

    51单片机C语言编程入门(中科大)
    发表于 08-06 12:20

    中科大嵌入式课件全集

    本帖最后由 eehome 于 2013-1-5 09:46 编辑 中科大嵌入式课件全集
    发表于 08-14 21:52

    溷沌数字通信(中科大出版的)

    溷沌数字通信(中科大出版的)
    发表于 08-16 16:49

    光电信号处理!!!(何兆湘 华中科大)

    光电信号处理!!!(何兆湘 华中科大)
    发表于 08-16 19:47

    51单片机C语言编程入门(中科大)

    51单片机C语言编程入门(中科大)
    发表于 08-17 16:02

    51单片机资料(中科大

    51单片机资料(中科大),超高新扫描版,上传给初学者{:7:}
    发表于 06-23 12:51

    中科院中科大2003年量子力学考研试题答案

    中科院—中科大2003年量子力学考研试题答案
    发表于 11-25 16:05 0次下载
    <b class='flag-5'>中科院中科大</b>2003年量子力学考研试题答案

    人口模型讲义 (中科大课程)

    人口模型课件 (中科大课程讲义)
    发表于 09-15 11:59 24次下载

    中科大自主研发出世界上最聪明的机器人

    中科大自主研发出世界上最聪明的机器人 在“2009中国机器人大赛暨RoboCup公开赛-服务机器人比赛”中,中科大自主研发的明星机器人“可佳”大放异彩、备受关注,它
    发表于 12-15 11:30 1031次阅读

    在医疗AI领域砥砺前行的中科大学子

    作为国字号的科研基石,中科大依靠学术层面的踏实耕耘,很大程度上影响了中国的医疗科技风向。 谈论一所大学撑起一个城市的代表,中科大和合肥的CP组合,一定榜上有名。 在合肥的“大湖名城 创新高
    的头像 发表于 05-10 09:36 4377次阅读

    《51单片机C语言编程入门》(中科大编著)

    《51单片机C语言编程入门》(中科大编著)
    发表于 01-04 17:54 0次下载

    北大&amp;amp;华为提出:多模态基础大模型的高效微调

    深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和多模态领域展示出杰出的生成和推理能力。然而大模型巨大的参数量有两个明显缺点
    的头像 发表于 11-08 16:20 317次阅读
    北大&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;华为<b class='flag-5'>提出</b>:多<b class='flag-5'>模态</b>基础大<b class='flag-5'>模型</b>的高效微调