0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

抽取式摘要方法中如何合理设置抽取单元?

深度学习自然语言处理 来源:哈工大讯飞联合实验室 作者:赵峻瑶 2021-05-03 18:23 次阅读

本期导读:文本摘要技术(Text Summarization)是信息爆炸时代,提升人们获取有效信息效率的关键技术之一,如何从冗余、非结构化的长文本中提炼出关键信息,构成精简通顺的摘要,是文本摘要的核心问题。抽取式摘要则是文本摘要技术中效果稳定,实现简单的一类方法,本文结合COLING 2020中抽取式摘要相关的两篇最新工作,对抽取式摘要方法中如何合理设置抽取单元展开介绍。

引言

在自动文本摘要任务中,抽取式摘要方法是从原文中抽取预先设置好的抽取单元,抽取单元一般为句子、短语或词,目前大多数方法还是以句子为抽取单元,虽然句子级的抽取式摘要方法能够实现一个较好的摘要效果,但依然存在以下问题:

冗余性,抽取出的句子存在冗余。

不必要性,抽取出的句子包含了一些不关键的信息。

存在抽取出的句子之间衔接生硬,不够自然。

现有工作通常使用tri-block后处理策略,即跳过和已选择句子存在tri-gram重叠的句子来减少冗余。还有一些工作在抽取的摘要基础上结合生成式摘要方法进行改写和优化,减少不相关的信息,同时提升衔接流畅度。本期介绍的两篇工作从设计一个比句子更细粒度的抽取单元出发,希望通过细粒度的抽取单元,分割出整句中的关键信息和不关键信息,避开冗余的和不必要的内容来解决前两点问题。

At Which Level Should We Extract An Empirical Analysis on Extractive Document Summarization

腾讯的Qingyu Zhou等人发表于COLING 2020会议上的一篇文章,论文主要针对抽取整句摘要方法存在的冗余性和不必要性问题,提出一种以子句作为抽取单元的抽取式摘要方法。本文的主要贡献包括两点:(1)提出了一种子句作为抽取单元的设置方式,介于短语和整句之间。(2)设计了基于BERT的子句摘要抽取模型,性能相比抽取整句有所提升。

子句的定义

02f24ccc-958d-11eb-8b86-12bb97331649.png

图 1 PTB句法成分解析树

本文通过Penn Treebank(PTB)[1]方法对句子进行句法成分分析,对每一个从句节点S和SBAR都视为子句单元。为了保留更完整的语义信息,如果一个从句节点被包括在更高层的从句节点中,则选择最高层的子句节点(除去根节点)作为抽取的子句单元。例如图1中,红色实线圈中的从句节点是最终选定的子句单元,如果一个句子解析后不存在从句节点,则直接选用整句作为抽取单元。

模型概述

02fdad4c-958d-11eb-8b86-12bb97331649.png

图2 基于BERT的子句抽取模型SSE(Sub-Sentential Extraction )

抽取模型参考了BERTSUM[2],这里对子句范围内的token做平均池化得到子句单元的表示,收集到所有子句单元的表示后再经过一层Transformer层混合上下句之间的信息,经过一层全连接层进行二分类预测当前子句单元是需要抽取。训练时学习每个子句是否需要抽取,预测时选择分数最高的top-N个子句拼接后输出。

实验评价

实验数据集使用经典的文本摘要数据集CNN/DailyMail。

表1 CNN/DM数据集中对参考摘要,句子级抽取的标准摘要,子句级抽取的标准摘要的统计

03090868-958d-11eb-8b86-12bb97331649.png

表1中Ora表示抽取式摘要方法中对目标抽取单元的Oracle构造方法,一般以贪心思想依次选择ROUGE增量分数最高的抽取单元加入,选择N个或没有可使ROUGE分数增加的选择时停止。可以看到,以子句作为抽取单元,Ora-ss抽取方法的ROUGE P分数更高,说明以子句为抽取单元能够避免抽取到不必要信息。从n-gram Overlap指标可以看出,Ora-ss抽取的内容重复度更低,冗余性相对抽取整句Ora-sent方法更低。

表2 CNN/DM测试集上的ROUGE F1评测结果

036ee7be-958d-11eb-8b86-12bb97331649.png

实验结果如表2所示,SSE模型不依赖后处理策略,在ROUGE-2和ROUGE-L上都超越了基线方法,且对比BERT-SENT(作者复现的BERTSUMEXT)提升显著。

表3 人工评估结果

0390387e-958d-11eb-8b86-12bb97331649.png

人工评估结果如表3,随机采样了50条样本,经过人工打分对比两个模型之间的优劣,各指标均是越低表示模型表现越优秀。可以看到SSE模型牺牲了一定的可读性,带来了整体上性能的提升,减少了冗余性和不必要性。

结论

以句法成分解析树中从句节点作为抽取式摘要的抽取单元,能够有效降低抽取摘要的冗余性和不必要性,牺牲一定的可读性,提升整体摘要性能,可读性受句法解析器准确率,以及子句片段自身相对于整个句子的不完备性影响,但整体上SSE达到相比抽取句子更优的性能。

Fact-level Extractive Summarization with Hierarchical Graph Mask on BERT

浙江大学Hanlu Wu等人在COLING 2020会议上发表的一篇文章,本文主要贡献包括两点:(1)基于依存分析方法设计了一种子句单元,命名为事实(Fact)。(2)设计了层次化的事实抽取摘要模型,通过改变注意力Mask对BERT直接引入了结构化信息。

事实的定义

03aa48ae-958d-11eb-8b86-12bb97331649.png

图3 依存分析树中对整句拆分出事实片段的例子

本文提出了一种经验性的事实拆分算法,流程如下:

用依存分析方法(Stanford CoreNLP)对候选句子进行解析,每个句子用标点符号、连接词和从句的节点进行拆分,包括PU(标点), CC(连词), IP(从句)。

为了获得完整的语义单元,我们对一些特殊的关系连边两端的子句进行合并,包括acl:relcl,advcl(状语从句修饰词),appos(同位词),ccomp(从句补充)。

判断conj(连接关系)连接的2个元素是从句还是词语,如果2个元素距离低于一个阈值,则视为连接2个词语进行合并,否则视为2个子句。

预先定义了一个最小事实长度和最大事实长度,在执行上述合并过程中,如果某个子句长度超过最大长度,则视为独立的子句,不参与合并。一切合并操作执行完成后,若存在小于最小长度的子句,和前置的子句进行合并,最后所有的子句作为事实。

表4 CNN/DM数据训练集原文切分结果的统计

03b5e92a-958d-11eb-8b86-12bb97331649.png

表4统计了CNN/DM数据中训练集的文章按句子切分和按事实切分后的数量和长度,平均1个句子包含1.6个事实,存在一部分句子独立作为单个事实,其他情况下通常一个句子被拆分为2到3个事实。

模型概述

03bdd61c-958d-11eb-8b86-12bb97331649.png

图4 层次化的事实级摘要抽取模型框架

模型如图4所示,在BERT的注意力层加入了一个Mask矩阵来加入层次化的结构信息,主要构造了2种连边:

同粒度下当前token和其他token之间的双向连边,图4中同色token之间都存在双向连边。

细粒度token指向粗粒度token的单向连边,例如图4中蓝色token指向自己所在事实token [cls_f]的连边,以及事实指向句子,句子指向文档的连边。

在输出层用全连接来对每个事实做分类,结合了文档的表示和所在句子的表示:

||表示连接,在输出时使用文档和对应句子的表示一同判断当前事实是否抽取。

训练时只学习事实的loss,预测时预测top-4的事实,加上tri-block去冗余策略。

实验评价

本文实验数据采用CNN/DM数据集。

表5 CNN/DM测试集上不同粒度的Oracle摘要对比

04441286-958d-11eb-8b86-12bb97331649.png

首先展示了基于事实用Oracle方法抽取摘要的效果,如表5所示,基于事实的Oracle方法提高了抽取方法的理论上界,能够生产更精确的抽取标签

表6 CNN/DM测试集评测结果

045a8a34-958d-11eb-8b86-12bb97331649.png

表6显示加入事实后,相对于作者复现的BERTSUM都有一定的提升,其中结合句子级的表示效果最佳,而额外使用文档级的信息没有带来提升,说明句子级的信息能够有助于判断句子内的事实是否应该抽取,而全文的文档级信息过于粗粒度,对判断事实是否抽取没有帮助。

表7 在CNN/DM测试集上的消融实验结果

0488f6c6-958d-11eb-8b86-12bb97331649.png

消融实验中对比了减去片段编码和位置编码的模型结果,表7下半部分是两种基线方法去除位置编码的结果,可以看出本文的方法去除位置信息后效果下降相对较小,说明层次化的结构信息有助于更好地帮助模型理解语义信息而不会过度依赖位置信息。

总结

两篇工作都是以设计粒度介于词和句子之间的抽取单元为主要思想,对比来看,第一篇的子句抽取单元粒度更细,有着更高的理论上界,但存在一些可读性上的问题。第二篇定义的事实作为抽取单元,在划分事实的算法中加入经验性的处理,保证了事实拆分的准确度和语义完整度。从模型优化上来看,第二篇提供了一种从修改掩码角度来对预训练模型引入结构化信息的思路,但实验中个人认为缺少了对应的消融验证实验,应当对比结构化掩码和全连接掩码的实验结果。

抽取式摘要是文本摘要中的一类重要方法,除了本期两篇工作关注的冗余性问题和不必要性问题,还存在例如抽取句子之间语义不连贯,衔接生硬等问题,以及如何对抽取式摘要进行准确评价也是值得探究的一个问题。在实际应用中设计方法时我们更应该关注问题本身,使得方法具有更好地满足真实需要。

原文标题:【摘要抽取】抽取式摘要最新研究进展

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 信息抽取
    +关注

    关注

    0

    文章

    6

    浏览量

    6416

原文标题:【摘要抽取】抽取式摘要最新研究进展

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    这款热插拔U.2硬盘抽取盒的散热效果太棒了,实测ICY DOCK MB105VP-B靠谱吗

    题。今天将为大家介绍一款既能热插拔便捷使用U.2硬盘,又能完美解决U.2散热的硬盘抽取盒,它就是ICYDOCK推出的推MB105VP-B硬盘抽取盒。ICYDOCK的
    的头像 发表于 03-22 14:46 140次阅读
    这款热插拔U.2硬盘<b class='flag-5'>抽取</b>盒的散热效果太棒了,实测ICY DOCK MB105VP-B靠谱吗

    【概念产品 CP133-1】2 盘位 EDSFF E1.S NVMe SSD 硬盘抽取

    产品介绍CP133-1EDSFFE1.SSSD硬盘抽取盒用于安装标准的内置3.5英寸装置空间,支持两个高度为9.5mm或15mm的硬盘,CP133-1EDSFFE1.SSSD移动机架设计用于安装标准
    的头像 发表于 02-07 10:57 130次阅读
    【概念产品 CP133-1】2 盘位 EDSFF E1.S NVMe SSD 硬盘<b class='flag-5'>抽取</b>盒

    在线节目制播嵌入式设备的ICY DOCK硬盘抽取盒应用

    ICY DOCK专注于专业硬盘及数位存储周边硬体解决方案,提供企业及专业用户高硬盘密度,易维护,省系统空间及高稳定度的内外接硬盘盒。ICY DOCK的硬盘抽取盒,设计理念就是在有限的机箱物理空间
    的头像 发表于 12-15 17:30 174次阅读
    在线节目制播嵌入式设备的ICY DOCK硬盘<b class='flag-5'>抽取</b>盒应用

    在线节目制播嵌入式设备的ICY DOCK硬盘抽取盒应用

    ICY DOCK专注于专业硬盘及数位存储周边硬体解决方案,提供企业及专业用户高硬盘密度,易维护,省系统空间及高稳定度的内外接硬盘盒。ICY DOCK的硬盘抽取盒,设计理念就是在有限的机箱物理空间
    的头像 发表于 12-11 18:11 169次阅读
    在线节目制播嵌入式设备的ICY DOCK硬盘<b class='flag-5'>抽取</b>盒应用

    AD9689芯片DDC抽取滤波器进行多芯片同步时使用什么信号进行复位同步?

    AD9689芯片 DDC抽取滤波器进行多芯片同步时使用什么信号进行复位同步?是sysref信号还是什么?datasheet没有提供说明。
    发表于 12-07 06:43

    AD9680频f0=930MHz,采样率fs=720MHz,做8倍抽取应该如何配置寄存器?

    AD9680 中频f0=930MHz,采样率fs=720MHz,做8倍抽取应该如何配置寄存器0x5700x200 0x201 0x310 0x330 0x311 0x331 0x314 0x315
    发表于 12-05 08:08

    AD9082在5G采样率下,不同抽取倍数情况下数据有采集错误和隆起怎么解决?

    《UG-1578.pdf》,描述了,CDDC和FDDC都是可以2倍抽取的,但是不管在什么模式下,只要CDDC设置2倍抽取,采集回来的数据就会有错点,但是资料上又是可以2倍
    发表于 12-01 07:01

    AD9695 1.2288GSPS 6x抽取时会有固定409.6M干扰怎么解决?

    在1.2288G采样 6x抽取,DDC设置374.4M,会有固定高于底噪大约10db的409.6M的频点干扰。模拟端没有信号输入,也会有这个干扰,周围时钟有102.4M与204.8M,感觉不会是这两个时钟的谐波干扰
    发表于 12-01 06:03

    寄生参数抽取只会StarRC不会QRC?

    寄生参数抽取 只会StarRC 不会QRC?本章节讲解下QRC抽取寄生参数。
    的头像 发表于 10-11 16:01 1682次阅读
    寄生参数<b class='flag-5'>抽取</b>只会StarRC不会QRC?

    六相永磁同步电机降阶模型ECE抽取方法

    永磁同步电机降阶模型ECE抽取是通过对永磁同步电机有限元结果进行降阶抽取,等效抽取的结果是基于有限元计算得到的数据表,在控制系统联合仿真过程中只需通过查表得方法就能得到电机的性能,因此
    发表于 08-14 14:08 1632次阅读
    六相永磁同步电机降阶模型ECE<b class='flag-5'>抽取</b><b class='flag-5'>方法</b>

    基于FPGA的速率自适应图像抽取算法

    点击上方 蓝字 关注我们 荷图像可视化是深空探测任务中的重要需求,但受信道带宽的限制,无法实时传输所有载荷数据,因此星载复接存储器中图像的抽取下传是实现任务可视化的关键。 本文设计了一种载荷图像抽取
    的头像 发表于 08-05 10:35 495次阅读
    基于FPGA的速率自适应图像<b class='flag-5'>抽取</b>算法

    如何合理设置插接器导线的余量?

    摘要:汽车线束生产中因插接器余量设定不良造成线束分支长度不足或导线冗余是困扰很多线束企业生产的一大问题。如何合理设置插接器余量,保证线束长度在合理的范围内是很多线束行业从业者一直致力
    的头像 发表于 07-05 10:19 550次阅读
    如何<b class='flag-5'>合理</b><b class='flag-5'>设置</b>插接器导线的余量?

    ADC数字下变频器:抽取滤波器和ADC混叠,第1部分

    我们将再次以AD9680为例。在这种情况下,无论速度等级如何,归一化抽取滤波器响应都是相同的。抽取滤波器响应仅随采样速率成比例。在此包含的示例滤波器响应图中,没有准确给出具体的插入损耗与频率的关系
    的头像 发表于 06-30 15:43 1868次阅读
    ADC数字下变频器:<b class='flag-5'>抽取</b>滤波器和ADC混叠,第1部分

    ADC数字下变频器:复杂抽取示例

    在本例中,我们将介绍AD9680-500,其工作输入时钟为491.52 MHz,模拟输入频率为150.1 MHz。AD9680将设置为使用数字下变频器(DDC),具有实际输入、复数输出、155
    的头像 发表于 06-30 15:20 930次阅读
    ADC数字下变频器:复杂<b class='flag-5'>抽取</b>示例

    ADC数字下变频器:重新审视复杂的抽取示例

    回想一下示例中,AD9680-500的工作输入时钟为491.52 MHz,模拟输入频率为150.1 MHz。AD9680设置为使用数字下变频器(DDC),具有实输入、复数输出、155 MHzNCO
    的头像 发表于 06-30 15:18 882次阅读
    ADC数字下变频器:重新审视复杂的<b class='flag-5'>抽取</b>示例