0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DocumentAI的模型、任务和基准数据集

深度学习自然语言处理 来源:夕小瑶的卖萌屋 作者:夕小瑶的卖萌屋 2022-08-22 09:55 次阅读

随着最近几年多模态大火的,越来越多的任务都被推陈出新为多模态版本。譬如,传统对话任务,推出了考虑视觉信息的多模态数据集;事件抽取,也推出视频形式的多模态版本;就连 grammar induction(语法归纳),也有了多模态版的(详见 NAACL'2021 best paper)。

然而,多模态大火虽是最近的事情,但它并不是近两年才有的什么新技术如果是想要对这一领域有比较深的研究,甚至想要做出工作、有所创新,那仅仅了解多模态最近两年几个大火的多模态模型显然是不足够的

事实上,有些任务已经天生就是多模态很多年了。早在多模态成为焦点之前,就已经默默被研究二十来年了。比如,智能文档(Document AI)技术。所谓智能文档技术,也就是自动理解、分析业务文档技术文档内容可包含文字、图片、视频等多种形式。由于理解多模态形式的多模态形式文的需求其实广泛长期存在,所以智能文档技术很多年来都是几个大厂的研究重点之一。近年来,深度学习技术的普及也更好地推动了例如文档布局分析、可视化信息提取、文档可视化问答、文档图像分类等智能文档算法的发展。近期,微软亚研院发表了一篇综述,简要回顾了一些有代表性的DocumentAI的模型、任务和基准数据集。小编认为这篇概述的总结体系非常扎实,是值得细细阅读的多模态相关综述,故与各位分享。

Document AI 发展历程

作者概述智能文档的发展大致经历了以下三个阶段:

第一阶段: 启发式阶段

20世纪90年代初,研究人员主要使用基于规则的启发式(Heuristic rule-based document layout analysis)来理解和分析文档,通过手动观察文档的布局信息,从而总结出一些启发式规则。启发式规则方法主要使用固定的布局信息来处理文档.方法较为固定,定制的规则可扩展性较差,通用性较差。

基于启发式规则的文档的布局分析大致分为三种方式:
(1)自顶向下:文档图像逐步划分到不同的区域,递归执行切割直到该区域被划分为预定义的标准,通常是块或列。例如projection profile,采用X-Y cut算法对文档进行剪切,通常用于文本区域和行距固定的结构化文本,对特定格式的文档进行更快、更有效的分析.但其对边界噪声敏感,对倾斜文本的处理效果不佳。
(2)自底向上:使用像素或组件作为基本单元,将其分组并合并成一个更大的同质区域,自底向上方法虽然需要更多的计算资源,但更通用,可以覆盖更多具有不同布局类型的文档。
(3)混合策略:将自上而下和自下而上相结合,例如Okamoto & Takahashi使用分隔符和空格来切割块,并将内部组件进一步合并到每个块中的文本行中,进而解析文档的布局。

第二阶段:机器学习阶段

直到从2000年来 随着机器学习技术的发展,以机器学习模型逐渐成为文档处理的主流方法。研究者设计功能模板以了解不同功能的权重,进而理解和分析文档的内容和布局。

基于机器学习的文档分析过程通常分为两个阶段:
1)对文档图像进行分割,获得多个候选区域;
2)对文档区域进行分类和区分,如文本块和图像。

尽管带注释的数据被用于监督学习,并且以前的方法可以带来一定程度的性能改进,但是由于缺乏定制规则和训练样本数量,通用性仍然不令人满意。此外,不同类型文档的迁移和适应成本相对较高,这使得以前的方法不适合广泛的商业应用。

第三阶段:深度学习阶段

随着深度学习的发展和大量未标注电子文档的积累,可以通过工具HTML/XML提取、PDF解析器、OCR等提取不同类型的文档中的内容,其文本内容、布局信息和基本图像信息等基本组织良好,然后对大规模深度神经网络进行预训练和微调,以完成各种下游文档AI任务.包括文档布局分析、视觉信息提取、文档视觉问答和文档图像分类等。现有的基于深度学习的智能文档模型主要分为两大类:

针对特定任务的深度学习模型

支持各种下游任务的通用预训练模型

DocumentAI的主要任务

Document AI在我们现实的应用场景主要有以下四类任务:

904ff5dc-20d9-11ed-ba43-dac502259ad0.png

Document Layout Analysis

该任务主要是对文档布局中的图像、文本、表格、图等位置关系进行自动分析、识别、理解的过程.主要分为两个主任务:Visual analysis 与Semantic analysis.Visual analysis为视觉元素的分析,主要目的是检测文档的结构,确定相似区域的边界,而Semantic analysis为语义分析检测区域识别特定的文档元素,例如标题、段落、表格等。

Visual Information Extraction

该任务从文档中的大量非结构化内容中提取实体及关系.对于视觉丰富的文档建模为计算机视觉问题,通过语义分割或文本框检测来进行信息提取,将文档图像视为像素网格,将文本特征添加到视觉特征图中。根据文本信息的粒度,该任务从字符级发展到单词级,再发展到上下文级。

Document Visual Question Answering

该任务为通过判断识别文本的内部逻辑来回答关于文档的自然语言问题。文档VQA中的文本信息在任务中起着至关重要的作用,现有的有代表性的方法都是以文档图像的OCR获取的文本作为输入。获得文档文本后,将VQA任务建模为不同的问题.主流方法将其建模为机器阅读理解(MRC)问题,根据问题从给定文档中提取文本片段作为相应的答案。

9076d6a2-20d9-11ed-ba43-dac502259ad0.png

Document Image Classification

该任务是对文档图像进行分析和识别,并将其划分为不同类别的过程,如科学论文、简历、发票、收据等。最早文档图像分类问题的方法与自然图像分类方法基本一样,例如基于CNN的文档图像分类方法使用经过ImageNet训练的Alexnet作为初始化对文档图像进行模型适配。

下图为作者整理的四大Task的Benchmark:

90a2ff70-20d9-11ed-ba43-dac502259ad0.png

Document AI 主流模型

Documents layout analysis with convolutional neural networks

文档布局分析可以看作是对文档图像进行目标检测的任务。将文档中的标题、段落、表格、图表等基本单元是需要检测和识别的对象。Yang等人将文档布局分析作为像素级的分割任务,利用卷积神经网络进行像素分类,取得了较好的效果.

90dc093c-20d9-11ed-ba43-dac502259ad0.png

Visual information extraction with graph networks

对于视觉信息丰富的文档的结构不仅仅由文本内容的结构决定,与布局、排版、格式、表/图结构等视觉元素同样相关.例如收据、证书、保险文件等.Liu等人提出的利用图卷积神经网络建模视觉元素丰富的文档,首先通过OCR系统获得一组Text Blocks,每一个Text Block包含其在图像中与文本内容的坐标信息,将其构成一个完全连通的有向图,即每个Text Blocks构成一个节点,通过Bi-LSTM获取节点的初始特征,边的初始特征是相邻文本块与当前文本块之间的相对距离以及这两个文本块的长宽比。对“节点-边缘-节点”三元特征集进行卷积,实验表明,视觉信息发挥了主要作用,增加了文本识别相似语义的能力,对视觉信息也起到一定的辅助作用。

910f4464-20d9-11ed-ba43-dac502259ad0.png

General-purpose multimodal pre-training with the transformer

文本块的空间关系通常包含丰富的语义信息。例如,在表格中本块通常以网格布局排列,标题通常出现在第一列或第一行。不同文档类型之间的布局不变性是通用预训练的一个关键属性。通过预训练与文本自然对齐的位置信息可以为下游任务提供更丰富的语义信息。对于视觉信息丰富的文档,其视觉信息如字体类型、大小、样式等明显的视觉差异,其可以通过视觉编码器提取出来,结合到预训练阶段,从而有效地改善下游任务。为了利用布局和视觉信息,2020年Xu提出通用文档预训练模型LayoutLM,在已有预训练模型的基础上,增加了2-Dposition embedding 和image embedding.首先根据OCR得到的文本边界框得到文本在文档中的坐标。将对应的坐标转换为虚坐标后,模型计算出x、y、w、h四个embedding sublayers对应的坐标表示,最终的二维位置嵌入是四个子层的embedding之和。在imageembedding 中,模型将每个文本对应的边框作为Faster R-CNN,提取相应的局部特征。特别是,由于[CLS]符号用于表示整个文档的语义,因此模型还使用整个文档的image作为image embedding以保持多模态对齐,Layout模型在三个下游任务,表单理解,票据理解,文档图像分类,都取得了显著的准确率提升。

LayoutLM的两个自监督预训练任务Masked Visual-Language :随机mask除了2D postionembedding,以及其他文本的text embdedding,让模型预测mask的 token.Task2:Multi-Label Document Classification:在给定一组扫描文档的情况下,利用文档标签对训练前的过程进行监督,使模型能够对来自不同领域的知识进行聚类,生成更好的文档级表示.该模型的相关实验表明,利用布局和视觉信息的预训练可以有效地转移到下游任务中。

9135e70e-20d9-11ed-ba43-dac502259ad0.png

小结

除了这篇文章介绍的之外LayoutLM等经典模型,最近DocumentAI的研究工作中几个后起之秀也非常值得关注。例如LayouLM后出现的LayoutLMv2以及LayoutXML,将跨模态对齐的思路贯彻在模型训练的过程中。不仅仅利用文本和布局信息,将图像信息也融合到文档多模态的框架内。除此之外,跨模态文档理解模型ERINE-Layout,提出阅读顺序预测和细粒度图文匹配两个与训练任务,除了跨模态予以对齐能力外,增加了布局理解能力。我们可以看到,在预训练时代下,DocumentAI正在逐渐向“多模态文档理解”方向前进,从模态之间的对齐到预测,DocumentAI将会怎样找寻可以建模的更多元素,挖掘视觉与文本、布局之间的精细关系,变得更加值得期待了。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2695

    浏览量

    47643
  • 机器学习
    +关注

    关注

    66

    文章

    8088

    浏览量

    130509
  • 数据集
    +关注

    关注

    4

    文章

    1176

    浏览量

    24316

原文标题:MSRA-万字综述 直击多模态文档理解

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    老生常谈---一种裸奔多任务模型

    一种裸奔多任务模型一个网友的总结:stateMachine + timerTick + queue。在RTOS环境下的多任务模型任务通常阻塞在一个OS调用上(比如从消息队列取数据)。
    发表于 12-08 10:13

    建立开发和测试(总结)

    ,则需要获取更多的开发集数据。(ii) 如果开发与测试数据分布和实际数据分布不同,则需要获取新的开发
    发表于 12-14 10:56

    PTB数据建立语言模型

    《实战Google深度学习框架》之RNN学习笔记2 LSTM对PTB数据的建模
    发表于 09-26 16:21

    有限模型预测控制策略综述

    有限模型预测控制的综述
    发表于 11-20 11:27

    自动驾驶系统要完成哪些计算机视觉任务

    Geiger 的研究主要集中在用于自动驾驶系统的三维视觉理解、分割、重建、材质与动作估计等方面。他主导了自动驾驶领域著名数据 KITTI 及多项自动驾驶计算机视觉任务基准体系建设,
    发表于 07-30 06:49

    高阶API构建模型数据使用

    了TensorFlow2.0Beta版本,同pytorch一样支持动态执行(TensorFlow2.0默认eager模式,无需启动会话执行计算图),同时删除了杂乱低阶API,使用高阶API简单地构建复杂神经网络模型,本文主要分享用高阶API构建模型
    发表于 11-04 07:49

    什么是有限模型预测控制

    有限模型预测控制(finitecontrol set-model predictive control,FCS-MPC)作为一种具有运算量大的特点的控制算法,随着数字信号处理器处理能力的提高也被
    发表于 08-27 06:05

    几大主流公开遥感数据

    By 超神经内容提要:利用遥感影像进行土地类别分型,最常用的方法是语义分割。本文继上期土地分类模型训练教程之后,又整理了几大主流公开遥感数据。关键词:遥感数据
    发表于 08-31 07:01

    裸奔环境下的多任务模型

    对于简单的嵌入式应用多数裸奔就能解决,但写出来的裸奔代码质量也由好坏之分。在网上看到了这样一篇文字:上面说到了裸奔环境下的多任务模型 - stateMachine + timerTick
    发表于 01-21 07:41

    一个benchmark实现大规模数据上的OOD检测

    的样本类别,所以在训练模型过程中,需要完成对于OOD样本的检测。然而,现有的解决方案主要是由小型、低分辨率的数据驱动的,如CIFAR和MNIST。像自动驾驶汽车这样的部署系统通常对分辨率更高的图像进行
    发表于 08-31 15:11

    一种基于角色和任务的访问控制模型

    在基于角色的访问控制模型的基础上引入了任务(task)和任务实例(task instance)的概念,建立了基于角色和任务的访问控制模型(R
    发表于 08-05 16:30 8次下载

    基于SytemC动态可重构系统硬件任务管理模型

    文中利用SystemC搭建了一种动态可重构系统的硬件任务管理模型,该模型可根据不同的管理策略和重构资源进行调整。仿真实验结果表明,通过模型仿真获得硬件
    发表于 12-07 14:13 16次下载
    基于SytemC动态可重构系统硬件<b class='flag-5'>任务</b>管理<b class='flag-5'>模型</b>

    一个深度学习模型能完成几项NLP任务

    对于机器翻译、文本摘要、Q&A、文本分类等自然语言处理任务来说,深度学习的出现一遍遍刷新了state-of-the-art的模型性能记录,给研究带来诸多惊喜。但这些任务一般都有各自的度量基准
    的头像 发表于 06-26 15:19 4263次阅读

    基于层次注意力机制的多任务疾病进展模型

    临床特征,对阿尔茨海默症进行自动诊断,并预测潜在的预后风险,进而提岀了一饣基于层次注意力机制的多任务疾病进展模型。该模型将疾病自动诊断任务作为主任务
    发表于 05-07 14:47 7次下载

    workflow的任务模型

    主要就是想介绍下workflow的任务模型,其他的框架一般只能处理普通的网络通信,而workflow却特别适用于通信与计算关系很复杂的应用。其实我最感兴趣的是它的内存管理机制,下面也会详细介绍。
    的头像 发表于 02-21 14:05 536次阅读
    workflow的<b class='flag-5'>任务模型</b>