0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

面向中文搜索的开放域文档视觉问答任务解决方案

深度学习自然语言处理 来源:哈工大SCIR 作者:齐乐 2022-07-08 11:19 次阅读

摘要

开放域问答在现实生活中有着广泛的应用,例如搜索引擎、企业问答、医疗问答等等。然而,现有开放域问答系统通常需要消耗大量成本针对不同格式的异构文档(如PDF、网页、扫描文档等)设计特定的内容抽取算法,预先从文档中抽取文本内容作为系统的信息来源。这不仅限制了现有系统的可扩展能力,还损失了文档中的布局和视觉信息。为此,本文提出了一个全新的开放域文档视觉问答任务,直接以异构文档图像集合为信息来源回答用户提问,并提出了中文开放域文档视觉问答数据集DuReadervis。DuReadervis共包含158K文档图像和15K对问答对,主要挑战包括:1)长文档理解;2)噪声干扰;和3)多片段答案抽取。

1. 背景

现有开放域问答系统主要以文本集合作为信息来源回答用户提问,如图1所示,现有系统通常需要花费大量成本根据不同的文档格式设计特定的内容抽取算法,预先从异构文档中抽取文本内容。这无疑限制了开放域问答系统的可扩展(scalable)能力。一个可扩展的问答系统应能同时处理各种格式文档,还可以轻松地迁移到尚未见过的文档格式中。此外,现有系统由于只抽取了文本内容,因此会损失原始文档中极有价值的布局特征(如字体大小、列表格式或表格格式等)和视觉特征(如文本颜色、图像等)。

图1 开放域问答系统通用流程,需要根据文档格式和来源设计不同的内容抽取器抽取文本内容

2. 开放域文档视觉问答

为了提升开放域问答系统的可扩展能力,同时充分利用异构文档中的布局和视觉信息,本文提出了一个全新的问答任务,即开放域文档视觉问答(Open-domain Document Visual Question Answering,Open-domain DocVQA)。该任务从视觉角度描述异构文档,直接以从异构文档转换得到的文档图像集合为信息来源来回答用户提问。如图2所示,该任务通过通用抽取器(如OCR)抽取文档图像中的文本内容和布局结构,然后将这些信息连同文档图像的视觉特征应用于后续流程中。

图2 开放域文档视觉问答通用流程,将不同格式文档视为文档图像,只需类似于OCR的通用抽取器抽取其中的文本内容和布局特征

与开放域问答类似,该任务也包含两个阶段:

文档视觉检索(Document Visual Retrieval,DocVRE):从原始的文档图像集合中检索和问题相关的小规模候选文档图像集合

文档视觉问答(Document Visual Question Answering,DocVQA):根据检索结果抽取单个或多个文本片段作为问题答案

3. DuReadervis

为了推动开放域文档视觉问答的发展,本文从百度搜索日志中收集用户向搜索引擎提出的真实问题和相关网页并进行了问答对的标注,提出中文开放域文档视觉问答数据集DuReadervis。相比于现有的文档视觉问答数据集,DuReadervis的问题面向真实用户提问,可以满足开放域的信息搜索需求。此外,DuReadervis中的文档图像均来自于互联网网页,包含丰富的文本内容和视觉特征以及复杂多样的布局结构,而且DuReadervis需要抽取格式复杂的长答案,如多片段文本型答案、列表型答案和表格型答案。表1对比了DuReadervis和现有文档视觉问答数据集。

表1 DuReadervis与其他文档视觉问答数据集的对比

3.1 数据集统计分析

DuReadervis共包含158K文档图像和15K问答对,其中训练集包括11K问答对;开发集包括1.5K问答对;测试集包括2.5K问答对。

文档图像

DuReadervis中的文本内容的平均长度和文档图像的平均大小要远超于其他数据集,表明DuReadervis中的文档图像包含更丰富的文本内容和视觉特征。此外,DuReadervis中的文档图像来自于17000多个随机网站,文档主题和布局结构多样性高。另一方面,通常情况下网页中会包含大量的噪声信息,会对模型理解文档产生干扰。

问题和答案

现有文档视觉问答数据集中的问题主要为事实类问题。而在DuReadervis中,问题类型同时包含事实类和非事实类问题。本文随机筛选了200条问题人工进行分类,发现43%的问题是非事实类问题。DuReadervis中的答案平均长度也要远长于其他数据集中的答案平均长度。此外,DuReadervis的答案格式复杂,包含约40%的文本型答案、25%的列表型答案和35%的表格型答案。在列表型和表格型答案中,很多答案都是不连续的,需要抽取多片段答案。

表2 数据集统计特征

3.2 数据集挑战

总体而言,DuReadervis的主要挑战包括以下三点:

长文档理解:DuReadervis中的文档图像均转换自互联网页面,包含更长的文本内容、更丰富的视觉特征和复杂的布局结构;

噪声干扰:来自于网页的文档图像中会包含大量噪声信息,例如广告、相关推荐等,增大了文档图像的理解难度;

多片段答案抽取:DuReadervis中的答案格式更加复杂,包含文本、列表和表格型答案,需要模型抽取多片段长答案。

3.3 数据集样例

传统的开放域问答系统可以通过设计特殊的内容抽取算法可以很好地去除表格外的噪声干扰,但提取的文本内容很难保留表格的布局结构,系统很难得知不同单元格文本内容间的语义关联。相比之下,开放域文档视觉问答系统则可以通过表格的布局特征更轻松地建模单元格文本内容间的语义关联,通过“站点”这一列标题找到问题的答案。

4. 基线方法

本文为DuReadervis提出了一个基线方法。该方法包括三部分:

基于PaddleOCR的通用内容抽取:利用PaddleOCR技术从文档图像中抽取文本内容和布局结构作为系统输入;

基于BM25的文档视觉检索:根据抽取出的文本内容构建检索库,再利用BM25算法检索相关文档图像;

基于层次化LayoutXLM的文档视觉问答:为了从候选文档图像中抽取问题答案,本文提出了层次化LayoutXLM模型。如图4所示,该模型利用层次化建模的方式建模DuReadervis中的长文本内容,并通过基于CRF的序列标注算法抽取多片段答案。其中,LayoutXLM[4]是以文本、布局和视觉特征为输入的面向多语言跨模态文档的预训练模型。

图4 层次化LayoutXLM模型架构

5. 实验

5.1 实验设置

为了验证所提方法的有效性,本文在文档视觉问答和开放域文档视觉问答任务上进行了实验,将层次化LayoutXLM与基于纯文本预训练模型的层次化RobertaXLM[5]以及层次化BERT[6]进行对比。其中,在开放域文档视觉问答实验中,本文使用BM25算法检索回与问题最相关的文档图像进行答案抽取。两个任务的评价指标均为F1和Rouge-L。

5.2 实验结果

如表3和表4所示,相比于基于纯文本预训练模型的方法,层次化LayoutXLM的性能有明显提高,然而其整体性能仍与人类表现有一定差距。这表明,一方面布局结构和视觉特征有助于模型理解文档图像,另一方面无论是文档视觉问答亦或是开放域文档视觉问答均有着较大的提升空间。

6. 结论

本文为了提高开放域问答系统的可扩展能力,使其可以用较低的成本以不同格式的异构文档作为其信息来源,提出了一个全新的开放域文档视觉问答任务,直接以从异构文档转换得到的文档图像集合来回答用户提问。为了推动该任务的发展,本文提出了中文开放域文档视觉问答数据集DuReadervis,包含158K文档图像和15K问答对。DuReadervis包含三个挑战:1)长文档理解;2)噪声干扰;3)多片段答案抽取。同时,本文提出了一个基线系统并进行了实验,实验结果表明现有基线系统和人类表现仍有一定差距,开放域文档视觉问答任务仍有较大的提升空间。除研究目的外,开放域文档视觉问答的相关技术已初步应用于诸如汽车、电子、银行等行业的问答系统中,并在飞桨AI Studio上开放。

审核编辑:郭婷


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 汽车电子
    +关注

    关注

    2998

    文章

    7441

    浏览量

    161559
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24347

原文标题:ACL2022 | 面向中文真实搜索场景的开放域文档视觉问答数据集

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    解决方案 | 3D视觉引导车门内板上料

    在现代汽车制造工业中,车门内板的上料过程对生产效率与产品质量至关重要。为了提高生产线的自动化水平,减少人工干预,同时确保上料的精准性和高效性,我们提出了视觉引导车门内板上料的解决方案
    的头像 发表于 03-28 17:15 143次阅读
    <b class='flag-5'>解决方案</b> | 3D<b class='flag-5'>视觉</b>引导车门内板上料

    开放式高实时高性能PLC控制器解决方案-基于米尔电子STM32MP135

    实时高性能需求尤其突出。面对以上挑战,合作伙伴翌控科技基于米尔STM32MP135开发板发布开放式高实时高性能PLC控制器解决方案,将高精准数据采集、预处理、存储、通信与高实时控制融为一体,为控制系统
    发表于 03-07 20:06

    面向服务器应用的兆芯KH-40000解决方案集发布

    面向由新兴技术兴起驱动的数据量爆发性增长、算力需求增加等市场需求,兆芯汇集多家生态伙伴之力,发布了面向服务器应用的《兆芯KH-40000解决方案集》,融合兆芯处理器平台卓越的性能、完善的生态优势以及众家合作伙伴丰富的应用经验,提
    的头像 发表于 02-28 18:16 893次阅读

    凌华科技面向制造业的AOI解决方案

    凌华科技自动光学检测 (AOI) 解决方案采用Intel CPU、GPU,以及经过OpenVINO toolkit优化的AI模型,提供高精度的大规模视觉推理,减少制造过程中有关质量保证的 间接成本。
    的头像 发表于 12-26 11:27 424次阅读
    凌华科技<b class='flag-5'>面向</b>制造业的AOI<b class='flag-5'>解决方案</b>

    低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型

    下图展示了Monkey的卓越性能,在 18 个不同的数据集上进行测试的结果表明,Monkey能够很好地胜任图像描述生成、场景问答、以场景文本为中心的视觉问答面向
    的头像 发表于 12-04 15:33 834次阅读
    低成本扩大输入分辨率!华科大提出Monkey:新的多模态大模型

    全志科技V系列解决方案:“视觉+AI”深度融合,为智慧视觉赋能

    代替人眼可以在多种场景下实现多种功能。 为了更好地实现‘视觉+AI’的融合,全志科技多年前便布局智慧视觉领域,打造了V系列解决方案,为人们的工作和生活提供专业视觉算力。 同时,全志全新
    的头像 发表于 11-28 18:15 328次阅读

    宽VIN DC/DC电源解决方案 面向工业、汽车和通信应用

    电子发烧友网站提供《宽VIN DC/DC电源解决方案 面向工业、汽车和通信应用.pdf》资料免费下载
    发表于 11-16 11:31 0次下载
    宽VIN DC/DC电源<b class='flag-5'>解决方案</b> <b class='flag-5'>面向</b>工业、汽车和通信应用

    面向工业设计的负载点(POL)电源解决方案

    电子发烧友网站提供《面向工业设计的负载点(POL)电源解决方案.pdf》资料免费下载
    发表于 11-16 10:07 0次下载
    <b class='flag-5'>面向</b>工业设计的负载点(POL)电源<b class='flag-5'>解决方案</b>

    远程监护解决方案中文

    电子发烧友网站提供《远程监护解决方案中文).pdf》资料免费下载
    发表于 11-09 09:30 0次下载
    远程监护<b class='flag-5'>解决方案</b>(<b class='flag-5'>中文</b>)

    基于BERT算法搭建一个问答搜索引擎

    学习的新手发现BERT模型并不好搭建,上手难度很高,普通人可能要研究几天才能勉强搭建出一个模型。 没关系,今天我们介绍的这个模块,能让你在3分钟内基于BERT算法搭建一个问答搜索引擎。它就是 bert-as-service 项目。这个开源项目,能够让你基于多GPU机器快速
    的头像 发表于 10-30 11:46 336次阅读
    基于BERT算法搭建一个<b class='flag-5'>问答</b><b class='flag-5'>搜索</b>引擎

    FPGA加速视觉搜索引擎解决方案

    电子发烧友网站提供《FPGA加速视觉搜索引擎解决方案.pdf》资料免费下载
    发表于 09-13 10:32 1次下载
    FPGA加速<b class='flag-5'>视觉</b><b class='flag-5'>搜索</b>引擎<b class='flag-5'>解决方案</b>

    面向边缘的集成AI训练和推断解决方案

    电子发烧友网站提供《面向边缘的集成AI训练和推断解决方案.pdf》资料免费下载
    发表于 09-13 10:25 0次下载
    <b class='flag-5'>面向</b>边缘的集成AI训练和推断<b class='flag-5'>解决方案</b>

    STSAFE-V110面向车载Qi V1.3无线充电器的身份验证解决方案

    面向汽车Qi充电器的整体式安全解决方案,符合Qi WPC 1.3规范。它内嵌在Qi充电器中,鉴别真正获得Qi认证的充电器,从而确保用户安全并保护设备免受任何由非认证无线充电器造成的损害。STSAFE-V110是高度安全的身份验证解决方
    发表于 09-08 07:01

    面向TI TDA4VM处理器的恩智浦PMIC解决方案

    电子发烧友网站提供《面向TI TDA4VM处理器的恩智浦PMIC解决方案.pdf》资料免费下载
    发表于 08-17 10:58 0次下载
    <b class='flag-5'>面向</b>TI TDA4VM处理器的恩智浦PMIC<b class='flag-5'>解决方案</b>

    问答对话文本数据:解锁智能问答的未来

    对话文本数据是指在问答对话过程中产生的文本记录。这些数据包含了用户提出的问题以及智能问答系统返回的答案或解决方案。通过收集、整理和分析这些问答对话文本数据,我们可以构建强大的知识库和智
    的头像 发表于 07-13 14:19 308次阅读