0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

StrucTexTv2:端到端文档图像理解预训练框架

CVer 来源:CSIG文档图像分析与识别专 2023-04-10 11:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文简要介绍ICLR 2023录用论文“StrucTexTv2: Masked Visual-Textual Prediction for Document Image Pre-training”的主要工作。针对当前主流多模态文档理解预训练模型需要同时输入文档图像和OCR结果,导致欠缺端到端的表达能力且推理效率偏低等问题,论文提出了一种全新的端到端文档图像多模态表征学习预训练框架StrucTexTv2。该框架设计了一种基于词粒度图像区域掩码、多模态自监督预训练任务(MIM+MLM),仅需要图像单模态输入,使得编码器网络能在大规模无标注文档图像上充分学习视觉和语言联合特征表达,并在多个下游任务的公开基准上取得SOTA效果。

一、研究背景

视觉富文档理解技术例如文档分类、版式分析、表单理解、OCR以及信息提取,逐渐成为文档智能领域一个热门研究课题。为了有效处理这些任务,前沿的方法大多利用视觉和文本线索,将图像、文本、布局等信息输入到参数网络,并基于大规模数据上的自监督预训练挖掘出文档的多模态特征。由于视觉和语言之间的模态差异较大,如图1所示,主流的文档理解预训练方法大致可分为两类:a)掩码语言建模(Masked Language Modeling)[9],对输入的掩码文本Token进行语言建模,运行时文本的获取依赖于OCR引擎,整个系统的性能提升需要对OCR引擎和文档理解模型两个部件进行同步优化;b)掩码图像建模(Masked Image Modeling)[10],对输入的掩码图像块区进行像素重建,此类方法倾向应用于图像分类和版式分析等任务上,对文档强语义理解能力欠佳。针对上述两种预训练方案呈现的瓶颈,本文提出了StrucTexTv2:c)统一图像重建与语言建模方式,在大规模文档图像上学习视觉和语言联合特征表达。

b763a806-d6f2-11ed-bfe3-dac502259ad0.png

图1 主流文档图像理解预训练框架比较

二、方法原理简述

b78e650a-d6f2-11ed-bfe3-dac502259ad0.png

图2 整体框架图

图2描绘了StrucTexTv2的整体框架,主要包含编码器网络和预训练任务分支两部分。编码器网络,主要通过FPN结构串联CNN组件和Transformer组件构成;预训练分支则包含了掩码语言建模(MLM)和掩码图像建模(MIM)双预训练任务头。

2.1 编码器网络

StrucTexTv2采用CNN和Transformer的串联编码器来提取文档图像的视觉和语义特征。文档图像首先经过ResNet网络以获取1/4到1/32的四个不同尺度的特征图。随后采用一个标准的Transformer网络接收最小尺度的特征图并加上1D位置编码向量,提取出包含全局上下文的语义特征。该特征被重新转化为2D形态后,与CNN的其余三个尺度特征图通过FPN[6]融合成4倍下采样的特征图,作为整图的多模态特征表示。

2.2 预训练策略

为了统一建模MLM和MIM两种模态预训练方式,论文提出了一种基于词粒度图像区域掩码预测方式来学习视觉和语言联合特征表达。首先,随机筛选30%的词粒度OCR预测结果(仅在预训练阶段使用),根据OCR的位置信息直接在原图对应位置像素进行掩码操作(比如填充0值)。接着,掩码后的文档图像直接送入编码器网络去获得整图的多模态特征表示。最后,再次根据选中的OCR位置信息,采用ROIAlign[11]操作去获得每个掩码区域的多模态ROI特征。

掩码语言建模:借鉴于BERT[9]构建的掩码语言模型思路,语言建模分支使用一个2层的MLP将词区域的ROI特征映射到预定义的词表类别上,使用Cross Entropy Loss监督。同时为了避免使用词表对文本序列进行标记化时单个词组被拆分成多个子词导致的一对多匹配问题,论文使用分词后每个单词的首个子词作为分类标签。此设计带来的优势是:StrucTexTv2的语言建模无需文本作为输入。

掩码图像建模:考虑到基于图像Patch的掩码重建在文档预训练中展现出一定的潜力,但Patch粒度的特征表示难以恢复文本细节。因此,论文将词粒度掩码同时用作图像重建,即预测被掩码区域的原始像素值。词区域的ROI特征首先通过一个全局池化操作被压缩成特征向量。其次,为了提升图像重建的视觉效果,论文将通过语言建模后的概率特征与池化特征进行拼接,为图像建模引入“Content”信息,使得图像预训练专注于复原文本区域的“Style”部分。图像建模分支由3个全卷积 Block构成。每个Block包含一个Kernel=2×2,Stride=4的反卷积层,一个Kernel=1×1,以及两个Kernel=3×1卷积层。最后,每个单词的池化向量被映射成一个大小为64×64×3的图像,并逐像素与原本的图像区域做MSE Loss。

论文提供了Small和Large两种参数规格的模型,并在IIT-CDIP数据集上使用百度通用高精OCR的文字识别结果预训练编码网络。

三、实验结果

论文在四个基准数据集上测试模型对文档理解的能力,在五个下游任务上使用不同的Head进行Fine-tune并给出实验结论。表1给出模型在RVL-CDIP[13]验证文档图像分类的效果。同比基于图像单模态输入的方法DiT[4],StrucTexTv2以更少的参数量取得了更优的分类精度。

表1 RVL-CDIP数据集上文档图像分类的实验结果

b7a649f4-d6f2-11ed-bfe3-dac502259ad0.png

如表2和表3所示,论文结合预训练模型和Cascade R-CNN[1]框架fine-tune去检测文档中的版式元素以及表格结构,在PubLaynet[8]以及WWW[12]数据集上取得了当前的最好性能。

表2 PubLaynet数据集上版式分析的检测结果

b7c91768-d6f2-11ed-bfe3-dac502259ad0.png

表3 WWW数据集上表格结构识别的性能对比

b7dc946e-d6f2-11ed-bfe3-dac502259ad0.png

在表4中,论文同时在FUNSD[3]数据集上进行了端到端OCR和信息提取两项实验,在基准测试中都取得了同期最优的效果。对比如StrucTexTv1[5]和LayoutLMv3[2]等OCR+文档理解的两阶段方法,证明了提出方法端到端优化的优越性。

表4 FUNSD数据集上端到端OCR以及信息抽取实验

b7f781de-d6f2-11ed-bfe3-dac502259ad0.png

接下来,论文对比了SwinTransformer[7]、ViT[10]以及StrucTexTv2的编码网络。从表5对比结果来看,论文提出CNN+Transformer的串联结构更有效地支持预训练任务。同时,论文给出了不同预训练配置的模型在文档图像分类和版式分析的性能增益,对两种模态预训练进行了有效性验证。

表5 预训练任务以及编码器结构的消融实验

b805550c-d6f2-11ed-bfe3-dac502259ad0.png

同时,论文中评估了模型在预测时的耗时和显存开销。表6中给出了两种OCR引擎带来的开销以及并与现阶段最优的多模态方法LayoutLMv3进行了比较。

表6 与两阶段的方法LayoutLMv3的资源开销对比

b822d208-d6f2-11ed-bfe3-dac502259ad0.png

最后,论文评估了表7所示在图像重建预训练中使用不同的掩码方式对下游任务的影响。在RVL-CDIP和PubLaynet两个数据集上,基于词粒度掩码的策略可以获取到更有效的视觉语义特征,确保更好的性能。

表7 预训练任务以及编码器结构的消融实验

b834a3e8-d6f2-11ed-bfe3-dac502259ad0.png

总结及讨论

论文出的StructTexTv2模型用于端到端学习文档图像的视觉和语言联合特征表达,图像单模态输入条件下即可实现高效的文档理解。论文提出的预训练方法基于词粒度的图像掩码,能同时预测相应的视觉和文本内容,此外,所提出的编码器网络能够更有效地挖掘大规模文档图像信息。实验表明,StructTexTv2在模型大小和推理效率方面对比之前的方法都有显著提高。更多的方法原理介绍和实验细节请参考论文原文。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1096

    浏览量

    42167
  • OCR
    OCR
    +关注

    关注

    0

    文章

    171

    浏览量

    17054

原文标题:ICLR 2023 | StrucTexTv2:端到端文档图像理解预训练框架

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何训练好自动驾驶模型?

    [首发于智驾最前沿微信公众号]最近有位小伙伴在后台留言提问:算法是怎样训练的?是模仿学习、强化学习和离线强化学习这三类吗?其实
    的头像 发表于 12-08 16:31 971次阅读
    如何<b class='flag-5'>训练</b>好自动驾驶<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型?

    智驾模拟软件推荐——为什么选择Keymotek的aiSim?

    随着自动驾驶技术的快速发展,车企和科技公司对于模拟测试平台的需求越来越强。从L2/ADASL4/L5等级的自动驾驶,虚拟模拟已经成为其中的关键一环。特别是对于「」智驾(
    的头像 发表于 11-18 11:35 565次阅读

    Nullmax轨迹规划论文入选AAAI 2026

    11月8日,全球人工智能顶会 AAAI 2026 公布论文录用结果,Nullmax 研发团队的轨迹规划论文成功入选。该论文创新提出一种由粗精的轨迹预测
    的头像 发表于 11-12 10:53 551次阅读

    自动驾驶中仿真与基于规则的仿真有什么区别?

    在自动驾驶领域,“仿真”指的是将感知控制的整个决策链条视为一个整体,从而进行训练和验证的思路。
    的头像 发表于 11-02 11:33 1443次阅读

    自动驾驶中“一段式”和“二段式”有什么区别?

    摄像头、毫米波雷达、激光雷达等信号,便可以直接输出转向、油门、刹车或者轨迹指令。一段式就是用一个整体模型完成这个任务,从传感器控制,中间不拆成多个模块,
    的头像 发表于 10-24 09:03 642次阅读
    自动驾驶中“一段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”和“二段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”有什么区别?

    自动驾驶中常提的一段式(单段)是个啥?

    自动驾驶技术的发展,催生出技术的应用,一段式(end-to-end single-s
    的头像 发表于 10-18 10:16 1397次阅读

    黑芝麻智能全栈式辅助驾驶系统的应用场景

    黑芝麻智能推出的全新一代全栈辅助驾驶系统,以武当C1200系列高算力芯片为基石,深度融合自研感知算法,实现从场景感知车辆控制的完全闭环优化——让辅助驾驶系统学会
    的头像 发表于 09-09 17:19 2139次阅读

    Nullmax自动驾驶最新研究成果入选ICCV 2025

    近日,国际计算机视觉大会 ICCV 2025 正式公布论文录用结果,Nullmax 感知团队在自动驾驶方向的最新研究成果《HiP-AD: Hierarchical
    的头像 发表于 07-05 15:40 1572次阅读
    Nullmax<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自动驾驶最新研究成果入选ICCV 2025

    一文带你厘清自动驾驶架构差异

    [首发于智驾最前沿微信公众号]随着自动驾驶技术飞速发展,智能驾驶系统的设计思路也经历了从传统模块化架构大模型转变。传统模块化架构将感知、预测、规划和控制等子任务拆分开,分别由不
    的头像 发表于 05-08 09:07 794次阅读
    一文带你厘清自动驾驶<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架构差异

    小米汽车智驾技术介绍

    后起之秀,小米在宣布造车前被非常多的人质疑,但在“真香”定律下,小米创下了很多友商所不能及的成就。作为科技企业,小米也在智能驾驶领域也不断研发及突破,并推送了自动驾驶系统。 小米
    的头像 发表于 03-31 18:17 4794次阅读
    小米汽车<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>智驾技术介绍

    动量感知规划的自动驾驶框架MomAD解析

    自动驾驶框架实现了感知与规划的无缝集成,但通常依赖于一次性轨迹预测,这可能导致控制不稳定,并且对单顿感知中的遮挡问题较为敏感。为解决这一问题,我们提出了动量感知驾驶
    的头像 发表于 03-18 09:31 1479次阅读
    动量感知规划的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自动驾驶<b class='flag-5'>框架</b>MomAD解析

    国产万兆以太网通信芯片提供的车载网络解决方案

    国产万兆以太网通信芯片提供的车载网络解决方案
    的头像 发表于 02-28 10:01 964次阅读
    国产万兆以太网通信芯片提供<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的车载网络解决方案

    详解RAD强化学习后训练范式

    受限于算力和数据,大语言模型训练的 scalinglaw 已经趋近于极限。DeepSeekR1/OpenAl01通过强化学习后训练涌现了强大的推理能力,掀起新一轮技术革新。
    的头像 发表于 02-25 14:06 1030次阅读
    详解RAD<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>强化学习后<b class='flag-5'>训练</b>范式

    自动驾驶技术研究与分析

    编者语:「智驾最前沿」微信公众号后台回复:C-0450,获取本文参考报告:《自动驾驶行业研究报告》pdf下载方式。 自动驾驶进入2024年,
    的头像 发表于 12-19 13:07 1527次阅读

    在自动泊车的应用

    要做到15Hz以上。这样就对存储和算力需求降低很多。 上海交通大学的五位学生发表了一篇自动泊车的论文:《ParkingE2E: Camera-based End-to-end P
    的头像 发表于 12-18 11:38 1501次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>在自动泊车的应用