0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

抽取式摘要方法中如何合理设置抽取单元?

深度学习自然语言处理 来源:哈工大讯飞联合实验室 作者:赵峻瑶 2021-05-03 18:23 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本期导读:文本摘要技术(Text Summarization)是信息爆炸时代,提升人们获取有效信息效率的关键技术之一,如何从冗余、非结构化的长文本中提炼出关键信息,构成精简通顺的摘要,是文本摘要的核心问题。抽取式摘要则是文本摘要技术中效果稳定,实现简单的一类方法,本文结合COLING 2020中抽取式摘要相关的两篇最新工作,对抽取式摘要方法中如何合理设置抽取单元展开介绍。

引言

在自动文本摘要任务中,抽取式摘要方法是从原文中抽取预先设置好的抽取单元,抽取单元一般为句子、短语或词,目前大多数方法还是以句子为抽取单元,虽然句子级的抽取式摘要方法能够实现一个较好的摘要效果,但依然存在以下问题:

冗余性,抽取出的句子存在冗余。

不必要性,抽取出的句子包含了一些不关键的信息。

存在抽取出的句子之间衔接生硬,不够自然。

现有工作通常使用tri-block后处理策略,即跳过和已选择句子存在tri-gram重叠的句子来减少冗余。还有一些工作在抽取的摘要基础上结合生成式摘要方法进行改写和优化,减少不相关的信息,同时提升衔接流畅度。本期介绍的两篇工作从设计一个比句子更细粒度的抽取单元出发,希望通过细粒度的抽取单元,分割出整句中的关键信息和不关键信息,避开冗余的和不必要的内容来解决前两点问题。

At Which Level Should We Extract An Empirical Analysis on Extractive Document Summarization

腾讯的Qingyu Zhou等人发表于COLING 2020会议上的一篇文章,论文主要针对抽取整句摘要方法存在的冗余性和不必要性问题,提出一种以子句作为抽取单元的抽取式摘要方法。本文的主要贡献包括两点:(1)提出了一种子句作为抽取单元的设置方式,介于短语和整句之间。(2)设计了基于BERT的子句摘要抽取模型,性能相比抽取整句有所提升。

子句的定义

02f24ccc-958d-11eb-8b86-12bb97331649.png

图 1 PTB句法成分解析树

本文通过Penn Treebank(PTB)[1]方法对句子进行句法成分分析,对每一个从句节点S和SBAR都视为子句单元。为了保留更完整的语义信息,如果一个从句节点被包括在更高层的从句节点中,则选择最高层的子句节点(除去根节点)作为抽取的子句单元。例如图1中,红色实线圈中的从句节点是最终选定的子句单元,如果一个句子解析后不存在从句节点,则直接选用整句作为抽取单元。

模型概述

02fdad4c-958d-11eb-8b86-12bb97331649.png

图2 基于BERT的子句抽取模型SSE(Sub-Sentential Extraction )

抽取模型参考了BERTSUM[2],这里对子句范围内的token做平均池化得到子句单元的表示,收集到所有子句单元的表示后再经过一层Transformer层混合上下句之间的信息,经过一层全连接层进行二分类预测当前子句单元是需要抽取。训练时学习每个子句是否需要抽取,预测时选择分数最高的top-N个子句拼接后输出。

实验评价

实验数据集使用经典的文本摘要数据集CNN/DailyMail。

表1 CNN/DM数据集中对参考摘要,句子级抽取的标准摘要,子句级抽取的标准摘要的统计

03090868-958d-11eb-8b86-12bb97331649.png

表1中Ora表示抽取式摘要方法中对目标抽取单元的Oracle构造方法,一般以贪心思想依次选择ROUGE增量分数最高的抽取单元加入,选择N个或没有可使ROUGE分数增加的选择时停止。可以看到,以子句作为抽取单元,Ora-ss抽取方法的ROUGE P分数更高,说明以子句为抽取单元能够避免抽取到不必要信息。从n-gram Overlap指标可以看出,Ora-ss抽取的内容重复度更低,冗余性相对抽取整句Ora-sent方法更低。

表2 CNN/DM测试集上的ROUGE F1评测结果

036ee7be-958d-11eb-8b86-12bb97331649.png

实验结果如表2所示,SSE模型不依赖后处理策略,在ROUGE-2和ROUGE-L上都超越了基线方法,且对比BERT-SENT(作者复现的BERTSUMEXT)提升显著。

表3 人工评估结果

0390387e-958d-11eb-8b86-12bb97331649.png

人工评估结果如表3,随机采样了50条样本,经过人工打分对比两个模型之间的优劣,各指标均是越低表示模型表现越优秀。可以看到SSE模型牺牲了一定的可读性,带来了整体上性能的提升,减少了冗余性和不必要性。

结论

以句法成分解析树中从句节点作为抽取式摘要的抽取单元,能够有效降低抽取摘要的冗余性和不必要性,牺牲一定的可读性,提升整体摘要性能,可读性受句法解析器准确率,以及子句片段自身相对于整个句子的不完备性影响,但整体上SSE达到相比抽取句子更优的性能。

Fact-level Extractive Summarization with Hierarchical Graph Mask on BERT

浙江大学Hanlu Wu等人在COLING 2020会议上发表的一篇文章,本文主要贡献包括两点:(1)基于依存分析方法设计了一种子句单元,命名为事实(Fact)。(2)设计了层次化的事实抽取摘要模型,通过改变注意力Mask对BERT直接引入了结构化信息。

事实的定义

03aa48ae-958d-11eb-8b86-12bb97331649.png

图3 依存分析树中对整句拆分出事实片段的例子

本文提出了一种经验性的事实拆分算法,流程如下:

用依存分析方法(Stanford CoreNLP)对候选句子进行解析,每个句子用标点符号、连接词和从句的节点进行拆分,包括PU(标点), CC(连词), IP(从句)。

为了获得完整的语义单元,我们对一些特殊的关系连边两端的子句进行合并,包括acl:relcl,advcl(状语从句修饰词),appos(同位词),ccomp(从句补充)。

判断conj(连接关系)连接的2个元素是从句还是词语,如果2个元素距离低于一个阈值,则视为连接2个词语进行合并,否则视为2个子句。

预先定义了一个最小事实长度和最大事实长度,在执行上述合并过程中,如果某个子句长度超过最大长度,则视为独立的子句,不参与合并。一切合并操作执行完成后,若存在小于最小长度的子句,和前置的子句进行合并,最后所有的子句作为事实。

表4 CNN/DM数据训练集原文切分结果的统计

03b5e92a-958d-11eb-8b86-12bb97331649.png

表4统计了CNN/DM数据中训练集的文章按句子切分和按事实切分后的数量和长度,平均1个句子包含1.6个事实,存在一部分句子独立作为单个事实,其他情况下通常一个句子被拆分为2到3个事实。

模型概述

03bdd61c-958d-11eb-8b86-12bb97331649.png

图4 层次化的事实级摘要抽取模型框架

模型如图4所示,在BERT的注意力层加入了一个Mask矩阵来加入层次化的结构信息,主要构造了2种连边:

同粒度下当前token和其他token之间的双向连边,图4中同色token之间都存在双向连边。

细粒度token指向粗粒度token的单向连边,例如图4中蓝色token指向自己所在事实token [cls_f]的连边,以及事实指向句子,句子指向文档的连边。

在输出层用全连接来对每个事实做分类,结合了文档的表示和所在句子的表示:

||表示连接,在输出时使用文档和对应句子的表示一同判断当前事实是否抽取。

训练时只学习事实的loss,预测时预测top-4的事实,加上tri-block去冗余策略。

实验评价

本文实验数据采用CNN/DM数据集。

表5 CNN/DM测试集上不同粒度的Oracle摘要对比

04441286-958d-11eb-8b86-12bb97331649.png

首先展示了基于事实用Oracle方法抽取摘要的效果,如表5所示,基于事实的Oracle方法提高了抽取方法的理论上界,能够生产更精确的抽取标签

表6 CNN/DM测试集评测结果

045a8a34-958d-11eb-8b86-12bb97331649.png

表6显示加入事实后,相对于作者复现的BERTSUM都有一定的提升,其中结合句子级的表示效果最佳,而额外使用文档级的信息没有带来提升,说明句子级的信息能够有助于判断句子内的事实是否应该抽取,而全文的文档级信息过于粗粒度,对判断事实是否抽取没有帮助。

表7 在CNN/DM测试集上的消融实验结果

0488f6c6-958d-11eb-8b86-12bb97331649.png

消融实验中对比了减去片段编码和位置编码的模型结果,表7下半部分是两种基线方法去除位置编码的结果,可以看出本文的方法去除位置信息后效果下降相对较小,说明层次化的结构信息有助于更好地帮助模型理解语义信息而不会过度依赖位置信息。

总结

两篇工作都是以设计粒度介于词和句子之间的抽取单元为主要思想,对比来看,第一篇的子句抽取单元粒度更细,有着更高的理论上界,但存在一些可读性上的问题。第二篇定义的事实作为抽取单元,在划分事实的算法中加入经验性的处理,保证了事实拆分的准确度和语义完整度。从模型优化上来看,第二篇提供了一种从修改掩码角度来对预训练模型引入结构化信息的思路,但实验中个人认为缺少了对应的消融验证实验,应当对比结构化掩码和全连接掩码的实验结果。

抽取式摘要是文本摘要中的一类重要方法,除了本期两篇工作关注的冗余性问题和不必要性问题,还存在例如抽取句子之间语义不连贯,衔接生硬等问题,以及如何对抽取式摘要进行准确评价也是值得探究的一个问题。在实际应用中设计方法时我们更应该关注问题本身,使得方法具有更好地满足真实需要。

原文标题:【摘要抽取】抽取式摘要最新研究进展

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 信息抽取
    +关注

    关注

    0

    文章

    6

    浏览量

    6609

原文标题:【摘要抽取】抽取式摘要最新研究进展

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    高效部署磁盘阵列:选对硬盘抽取盒,省心又强力

    挑战:散热压力、安装维护的便捷性,以及宝贵的机箱空间。此时,一款设计出色的硬盘抽取盒就能成为关键助力。ICYDOCK的ToughArmor系列——MB998SP-
    的头像 发表于 11-07 16:34 907次阅读
    高效部署磁盘阵列:选对硬盘<b class='flag-5'>抽取</b>盒,省心又强力

    创新企业级NVMe存储拓展方案 艾西达克前置M.2硬盘抽取盒测评

    在企业级存储架构,M.2NVMe硬盘凭借其出色的读写性能,已成为系统的常用组件。然而,传统的把M.2SSD直装主板M.2插槽的部署方式,也带来了诸多运维挑战:拆装不便、状态难以实时监测,加之密闭
    的头像 发表于 11-07 16:07 483次阅读
    创新企业级NVMe存储拓展方案 艾西达克前置M.2硬盘<b class='flag-5'>抽取</b>盒测评

    多块 M.2 硬盘拆到崩溃?M.2 硬盘抽取盒才是救星!

    新硬盘,而是让机箱内每块硬盘“活”起来的方案——一款设计精良的具有可抽取功能M.2硬盘盒,能彻底改变你与数据的交互方式。极速连接,释放完整性能一款优秀的M.2硬盘盒
    的头像 发表于 10-11 15:15 494次阅读
    多块 M.2 硬盘拆到崩溃?M.2 硬盘<b class='flag-5'>抽取</b>盒才是救星!

    工业相机数据爆炸?ICY DOCK硬盘抽取盒极速存 + 0宕机!

    工业相机在高速图像采集与毫秒级数据处理面临3个核心痛点:TB级数据流迫切需要超高速传输接口;严苛的工厂环境(震动、粉尘、电磁干扰、温差)威胁设备稳定运行;系统停机维护成本高昂,迫切需要快速故障定位
    的头像 发表于 09-05 16:02 299次阅读
    工业相机数据爆炸?ICY DOCK硬盘<b class='flag-5'>抽取</b>盒极速存 + 0宕机!

    突破影音录播设备存储瓶颈!ICY DOCK 高密度硬盘抽取盒提升制作效率

    都在考验存储设备的极限性能。ICYDOCK针对这些核心问题,推出MB873MP-BV2与MB998SK-B工业级硬盘抽取盒解决方案。MB873MP-BV2是一款突破
    的头像 发表于 08-14 17:23 789次阅读
    突破影音录播设备存储瓶颈!ICY DOCK 高密度硬盘<b class='flag-5'>抽取</b>盒提升制作效率

    【ICY DOCK新品】4盘位2.5英寸U.2/U.3 NVMe SSD硬盘抽取

    企业级免工具硬盘托盘设计搭配PCIe4.0极致速度ICYDOCKExpressCageMB324V4P-B是一款具备高性能的硬盘抽取盒,它可在单个标准的5.25英寸光驱位容纳多达4个
    的头像 发表于 08-08 14:39 1008次阅读
    【ICY DOCK新品】4盘位2.5英寸U.2/U.3 NVMe SSD硬盘<b class='flag-5'>抽取</b>盒

    最新PCIe5.0 U.2硬盘抽取盒— ICY DOCK MB491V5K-B 开箱测评

    ——ICYDOCKToughArmorMB491V5K-B,正是专为高安全、高性能、高强度环境打造的U.2/U.3NVMeSSD抽取盒,不仅支持PCIe5.0,还拥有军规
    的头像 发表于 08-01 14:48 1043次阅读
    最新PCIe5.0 U.2硬盘<b class='flag-5'>抽取</b>盒— ICY DOCK MB491V5K-B 开箱测评

    【硬盘抽取盒民主实验】你的真话,决定产品命运!敢说就送!

    这不是一场营销,而是一次硬盘抽取盒民主实验。ICYDOCK诚邀敢说真话的你!你的每一条真实反馈,都可能被采纳,直接塑造CP138产品的命运!你的声音,至关重要!CP138核心亮点速览CP138是专为
    的头像 发表于 07-18 16:32 267次阅读
    【硬盘<b class='flag-5'>抽取</b>盒民主实验】你的真话,决定产品命运!敢说就送!

    【ICY DOCK 新品 MB601V5K-B】2.5英寸 U.2/U.3 NVMe PCIe 5.0转3.5英寸硬盘抽取盒(1 x MCIO 4i SFF-TA-1016)

    ToughArmor MB601V5K-B是专为高速U.2/U.3 NVMe硬盘设计的PCIe 5.0硬盘抽取盒。这款硬盘抽取盒配备最新的MCIO 4i(SFF-TA-1016)接口,支持高达
    的头像 发表于 05-21 16:55 877次阅读
    【ICY DOCK 新品 MB601V5K-B】2.5英寸 U.2/U.3 NVMe PCIe 5.0转3.5英寸硬盘<b class='flag-5'>抽取</b>盒(1 x MCIO 4i SFF-TA-1016)

    ICY DOCK PCIe可拆卸扩展插槽硬盘抽取盒或转接器,革新存储解决方案

    在快节奏的云计算时代,对快速高效的数据存储解决方案的需求至关重要。从笨重的3.5英寸SATA硬盘过渡到灵活、基于PCIe的高速NVMeSSD,ICYDOCKExpressSlot系列可拆卸PCIe
    的头像 发表于 04-18 14:42 694次阅读
    ICY DOCK PCIe可拆卸<b class='flag-5'>式</b>扩展插槽硬盘<b class='flag-5'>抽取</b>盒或转接器,革新存储解决方案

    【极速存储新选择】PCIe5.0 M.2硬盘盒 免工具安装全金属抽取

    ICYDOCKMB840M5P-B可在PCIex4/x8/x16扩展插槽空间安装1个M.2NVMeSSD,并且无需打开机箱即可轻松快速更换硬盘。全新可抽取M.2NVMeSSD硬盘盒
    的头像 发表于 04-17 16:44 1839次阅读
    【极速存储新选择】PCIe5.0 M.2硬盘盒 免工具安装全金属<b class='flag-5'>抽取</b>盒

    【概念产品CP149】可拆卸 2盘位 M.2 NVMe SSD(硬盘)转 PCIe 5.0 x16 插槽全金属硬盘抽取

    产品介绍ICYDOCKCP149是一款可拆卸的2盘位M.2NVMe硬盘转PCIe5.0x16插槽全金属硬盘抽取盒,专为使用x8/x8或x8/x4/x4PCIe拆分设置的英特尔主板而设计。与需要x4
    的头像 发表于 03-20 17:24 872次阅读
    【概念产品CP149】可拆卸<b class='flag-5'>式</b> 2盘位 M.2 NVMe SSD(硬盘)转 PCIe 5.0 x16 插槽全金属硬盘<b class='flag-5'>抽取</b>盒

    AMC1210对AMC1305进行数字抽取滤波,输出后的数据是否需要用处理器进行一次平均和移位处理?

    我使用的AMC1210对AMC1305进行抽取滤波。AMC1210配置为SIN3,256倍抽取。积分器为128倍积分。AMC1210配置为中断方式SPI接口32bit输出。输出后的数据,是否需要用
    发表于 01-14 08:21

    使用AMC1210为AMC1305L25做3阶的256抽1的sinc抽取滤波器,请问是否可以呢?

    我使用AMC1305L25做1200V高压 高边电流隔离采集。想使用AMC1210为AMC1305L25做3阶的256抽1的sinc抽取滤波器,请问是否可以呢?(备注:AMC1305L25与AMC1210之间加入了LVDS转LVTTL电平的转换芯片。)
    发表于 12-27 07:37

    请问AMC1203文档的OSC过采样率和sinc3滤波器抽取率是不是同一个概念?

    1、请问AMC1203文档的OSC过采样率和sinc3滤波器抽取率是不是同一个概念?同为256? 2、抽取率是不是MCLK时钟的分频因子? 3、Combining the
    发表于 12-16 06:42