0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摘要模型理解或捕获输入文本的要点

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2022-11-01 11:37 次阅读

Abstract & Intro

尽管基于预训练的语言模型的摘要取得了成功,但一个尚未解决的问题是生成的摘要并不总是忠实于输入文档。造成不忠实问题的原因可能有两个: (1)摘要模型未能理解或捕获输入文本的要点; (2)模型过度依赖语言模型,生成流畅但不充分的单词。 在本文研究中,提出了一个忠实增强摘要模型(FES),旨在解决这两个问题,提高抽象摘要的忠实度。对于第一个问题,本文使用问答(QA)来检查编码器是否完全掌握输入文档,并能够回答关于输入中的关键信息的问题。QA 对适当输入词的注意也可以用来规定解码器应该如何处理输入。 对于第二个问题,本文引入了一个定义在语言和总结模型之间的差异上的最大边际损失,目的是防止语言模型的过度自信。在两个基准总结数据集(CNN/DM 和 XSum)上的大量实验表明,本文的模型明显优于强基准。事实一致性的评估也表明,本文的模型生成的摘要比基线更可靠。


本文的主要贡献如下: 1. 提出了一种信度增强摘要模型,从编码器端和解码器端都缓解了不信度问题。 2. 提出了一个多任务框架,通过自动 QA 任务来提高摘要性能。还提出了一个最大边际损失来控制 LM 的过度自信问题。 3. 实验结果表明,与基准数据集上的最新基线相比,本文提出的方法带来了实质性的改进,并可以提高生成摘要的忠实度。

Model Architecture

本文从三个方面实现了信度的提高: (1)多任务编码器。它通过检查辅助 QA 任务的编码文档表示的质量,提高了对输入文档的语义理解。编码的表示因此捕获关键输入,以便做出忠实的总结。 (2)QA 注意增强解码器。来自多任务编码器的注意使解码器与编码器对齐,以便解码器能够获取更准确的输入信息以生成摘要。 (3)Max-margin 损失。这是一个与代损耗正交的损耗。它测量 LM 的准确性,防止它在生成过程中过度自信。

5bd81334-591e-11ed-a3b6-dac502259ad0.png    

2.1 Multi-task Encoder

多任务编码器设计用于对输入文档进行编码,以便在集成训练过程中进行摘要和问题回答,如图 1(b)所示。这与之前的工作不同,之前的工作是在后期阶段使用 QA 来评估生成摘要的忠实度,如图 1(a)所示。本文让 QA 更接近编码器,而不是把它留给后生成的总结,并让编码器接受训练,同时完成 QA 和总结任务。在多任务编码器的综合训练中,除了摘要生成质量外,还将忠实度作为优化目标,答案是来自文档的关键实体,因此 QA 对关注输入中的关键信息。 5c55281a-591e-11ed-a3b6-dac502259ad0.png

如图 2 所示,我们首先应用经典的 Transformer 架构,获得文档和问题的 token 表示, 和 ,然后设计编码器,从实体层和句子层理解问题和输入文档问题。

Encoding at Multi-level Granularity 本文通过在不同粒度级别组织表示学习来构建编码器。我们使用实体作为基本语义单位,因为它们包含贯穿全文的紧凑而突出的信息,而阅读理解题的重点是实体。由于问题通常很短,本文为每个问题创建一个节点。本文将双向边从问题添加到句子节点,从句子添加到实体节点。这些节点作为句与句之间的中介,丰富了句与句之间的关系。由于初始的有向边不足以学习反向信息,本文在前面的工作的基础上,在图中添加了反向边和自环边。 在构造了具有节点特征的图之后,使用图注意网络来更新语义节点的表示,图注意层(GAT)设计如下:

5c78013c-591e-11ed-a3b6-dac502259ad0.png

5c8b938c-591e-11ed-a3b6-dac502259ad0.png

5c9fe76a-591e-11ed-a3b6-dac502259ad0.png

其中 是输入节点的隐藏状态,其中 N 是节点 i 的相邻节点集, 是可训练权值, 是 和 之间的注意权值。输出实体特征矩阵、句子特征矩阵和问题矩阵:。 Answer Selector for the QA task 在融合来自问题和文档的信息之后,可以从文档中选择实体作为问题的答案。具体来说,本文在问题和图中的实体之间应用了多头交叉注意以获得识别问题的实体表示:=MHAtt(),i 是问题索引。本文采用前馈网络(FFN)生成实体提取概率 ,QA 的目标是最大限度地提高所有基本事实实体标签的可能性: 5cd56b38-591e-11ed-a3b6-dac502259ad0.png

2.2 QA Attention-enhanced Decoder

一个忠实的解码器需要注意并从编码器中获取重要的内容,而不是混合输入。QA 对关键实体的关注可以被视为重要信号,表明哪些实体应该包含在摘要中。因此,本文提出了一个由 QA 关注增强的摘要生成器。一般来说,以实体为中介的解码器状态关注编码器状态,其中实体级别的注意由 QA 注意指导。

具体来说,对于每一层,在第 t 步解码时,我们对 masked 摘要嵌入矩阵E进行自注意,得到 。基于 ,我们计算实体的交叉注意分数 。 5cec1cfc-591e-11ed-a3b6-dac502259ad0.png   实际上,第一个注意层捕获已解码序列的上下文特征,而第二层则包含 中的实体信息.我们最小化在第 t 步的实体上的 QA 注意 Ai 和摘要注意 Et 之间的 KL 散度,以帮助总结模型了解哪些实体是重要的:

5d20513e-591e-11ed-a3b6-dac502259ad0.png

然后,通过在源词序列 Hw 和 上应用另一个 MHAtt 层,我们使用实体级注意来指导与关键实体相关的源标记的选择:

5d317e1e-591e-11ed-a3b6-dac502259ad0.png

该上下文向量 vt 被视为从各种来源总结的显著内容,被发送到前馈网络以生成目标词汇表的分布,即 5d4507fe-591e-11ed-a3b6-dac502259ad0.png   通过优化预测目标词的负对数似然目标函数,更新所有可学习参数 5d5b230e-591e-11ed-a3b6-dac502259ad0.png

2.3 Max-margin Loss

信息不充分的解码器会忽略一些源段,更像是一个开放的 LM,因此容易产生外部错误。受信度增强机器翻译工作的启发,本文在摘要任务中引入了一个 max-margin loss,以使摘要模型的每个 token 与 LM 的预测概率的差值最大化,如图 3 所示,这抑制了摘要器产生常见但不忠实的单词的趋势。 5d75123c-591e-11ed-a3b6-dac502259ad0.png

▲ 当 LM 不够准确时,本文的模型可以通过最大边际损失防止 LM 的过度自信,预测出正确的目标词,而基线模型则不能。

具体来说,我们首先将摘要模型和 LM 之间的差值定义为预测概率的差值:

5d9224ee-591e-11ed-a3b6-dac502259ad0.png

其中 X 为输入文档, 表示 LM 的第 t 个令牌的预测概率。如果 mt 很大,那么总结模型显然比 LM 好。当 mt 很小的时候,有两种可能。一是 LM 模型和总结模型都有很好的性能,因此预测的概率应该是相似的。另一种可能是 LM 不够好,但过于自信,这会导致总结器性能不佳。LM 够好,但过于自信,这会导致总结器性能不佳。 本文给出了最大边际损失 Lm,它在边际上增加了一个系数

5dae6136-591e-11ed-a3b6-dac502259ad0.png

当 Pt 较大时,摘要模型可以很好地学习,不需要过多关注 mt。这体现在 mt 的小系数(1−Pt)上。另一方面,当 Pt 较小时,意味着摘要器需要更好地优化,大系数(1−Pt)使模型能够从边际信息中学习。

、、、 这四种损耗是正交的,可以组合使用来提高信度。

Experiment

3.1 Dataset

本文在两个公共数据集(CNN/DM 和 XSum)上演示了方法的有效性,这两个公共数据集在以前的摘要工作中被广泛使用。这两个数据集都基于新闻,由大量事件、实体和关系组成,可用于测试摘要模型的事实一致性。

本文的摘要模型伴随着一个 QA 任务。因此,使用由 QuestEval 工具为每个用例预先构建 QA 对。

3.2 Result

Automatic Evaluation

5df60df6-591e-11ed-a3b6-dac502259ad0.png▲ QE 加权 F1 分数

当使用 oracle QA(黄金问答)对评估 QA 任务带来的效益的上限时,我们还展示了我们的模型在测试数据集上的性能。我们可以看到,oracle 显著地提高了性能,性能最好的模型达到了50.50 的 ROUGE-1 评分。结果表明:1)如果有较好的 QA 对,模型性能有进一步提高的潜力;2)辅助 QA 任务确实对模型有帮助。

Human Evaluation

5e1bcc58-591e-11ed-a3b6-dac502259ad0.png

▲ 在 CNN/DM 数据集上,比 BART 差、持平或更好的摘要的百分比。XSum 数据集上比 PEGASUS 差、与 PEGASUS 持平或优于 PEGASUS 的摘要的百分比

Ablation Study

1. 没有多任务框架,各项指标都有所下降,表明在使用 QA 多任务时,编码器确实增强了学习更全面表示的能力。

2. QA 注意指导被移除后,QE 分数下降了 0.28。这表明,将 QA 注意与重要实体的摘要注意对齐,可以帮助模型从输入中捕获要点信息,而将这种损失限制在有限部分实体上,可以引导解码器从输入中获取有意义的内容。

3. 除去最大边际损失后,FactCC 评分下降了 0.63。这表明,防止 LM 过度自信有助于提高信任度。

4. 最后,当使用随机 QA 对作为引导时,FES 的性能有所下降,但大大优于 BART。这表明,加强对文档的理解是有帮助的,即使它并不总是与关键信息相关。但是,通过对关键实体提出问题,可以进一步提高性能。

The Number of QA pairs

5e4d1f38-591e-11ed-a3b6-dac502259ad0.png   首先看到 ROUGE 分数随着 QA 对的数量而增加。达到 8 之后,这种改善开始消失。一个可能的原因是,答案不再关注文档中的重要信息。注意,FES 的性能在 8-15 个 QA 对范围内保持在较高水平,证明了 FES 的有效性和鲁棒性。最后,我们选择在模型中默认包含 8 个 QA 对。

Margin between FES and the LM

5e78b986-591e-11ed-a3b6-dac502259ad0.png

▲ 负 mt 为过度自信,mt 为 0 和 1 时模型准确 首先,图(b)中 BART 仍然有很多 mt 为负的 token,并且有大量 mt 在 0 附近,这说明 LM 对于很多令牌可能是过度自信的。与 BART 相比,FES 降低了 2.33% 的负 mt,提高了 0.11 点的平均 mt。这证明 LM 的过度自信问题在很大程度上得到了解决。此外,我们在图(c)中绘制了 mt 在所有单词和实体单词上的比较。可以看出,实体词在 0 左右的比例明显降低,验证了我们的假设,LM 对于很多虚词是准确的。

Conclucion

本文提出了具有最大边际损失的多任务框架来生成可靠的摘要。辅助问答任务可以增强模型对源文档的理解能力,最大边际损失可以防止 LM 的过度自信。实验结果表明,该模型在不同的数据集上都是有效的。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    41

    文章

    3360

    浏览量

    131539
  • 语言模型
    +关注

    关注

    0

    文章

    434

    浏览量

    10044
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24352

原文标题:NIPS'22 | 如何提高生成摘要的忠实度?

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    STM32定时器(三)输入捕获

    STM32的定时器是支持信号输入捕获的,何为输入捕获?主要做什么应用?
    的头像 发表于 07-21 14:58 2715次阅读
    STM32定时器(三)<b class='flag-5'>输入</b><b class='flag-5'>捕获</b>

    什么是输入捕获?STM32输入捕获

    什么是输入捕获?顾名思义,输入捕获就是对输入的信号进行捕获,可以用来测量脉冲宽度或者测量频率。S
    发表于 01-06 07:54

    msp430捕获事件输入源怎么理解

    msp430捕获事件输入源怎么理解
    发表于 11-07 08:01

    基于统计和理解的自动摘要方法

    针对微博内容驳杂、信息稀疏的问题,深入研究传统自动摘要技术,结合微博数据特点,在微博事件提取的基础上提出一种基于统计和理解的混合摘要方法。首先根据词频、句子位置等文本特征得到基于统计的
    发表于 11-29 14:51 0次下载
    基于统计和<b class='flag-5'>理解</b>的自动<b class='flag-5'>摘要</b>方法

    基于微博文本的词对主题演化模型

    针对传统主题模型忽略了微博短文本文本动态演化的问题,提出了基于微博文本的词对主题演化( BToT)模型,并根据所提
    发表于 12-03 11:31 14次下载
    基于微博<b class='flag-5'>文本</b>的词对主题演化<b class='flag-5'>模型</b>

    基于图集成模型的自动摘要生产方法

    现有长文本自动摘要生成方法存在句子特征单一化和无法全面衡量句子相似特征的问题,导致摘要生成的准确率降低。为此,提岀一种基于图集成模型的自动摘要
    发表于 03-22 14:40 10次下载
    基于图集成<b class='flag-5'>模型</b>的自动<b class='flag-5'>摘要</b>生产方法

    基于多层CNN和注意力机制的文本摘要模型

    基于注意力机制的编解码模型文本摘要、杌器翻译等序列到序列任务上得到了广泛的应用。在深度学习框架中,深层神经网络能够提取输λ数据不冋的特征表示,因此传统编解码模型中通常堆叠多层解码器来
    发表于 04-07 11:35 2次下载
    基于多层CNN和注意力机制的<b class='flag-5'>文本</b><b class='flag-5'>摘要</b><b class='flag-5'>模型</b>

    融合文本分类和摘要的多任务学习摘要模型

    文本摘要应包含源文本中所有重要信息,传统基于编码器-解码器架构的摘要模型生成的摘要准确性较低。根
    发表于 04-27 16:18 11次下载
    融合<b class='flag-5'>文本</b>分类和<b class='flag-5'>摘要</b>的多任务学习<b class='flag-5'>摘要</b><b class='flag-5'>模型</b>

    基于语义感知的中文短文本摘要生成技术

    文本摘要生成技术能够从海量数据中概括岀关键信息,有效解决用户信息过载的问题。目前序列到序列模型被广泛应用于英文文本摘要生成领域,而在中文
    发表于 05-28 15:45 2次下载

    基于LSTM的表示学习-文本分类模型

    文本表示和分类是自然语言理解领域的研究热点。目前已有很多文本分类方法,包括卷积网络、递归网络、自注意力机制以及它们的结合。但是,复杂的网络并不能从根本上提高文本分类的性能,好的
    发表于 06-15 16:17 18次下载

    科技论文摘要编写要点分析

    科技论文摘要编写要点分析
    发表于 07-31 11:35 0次下载

    如何使用BERT模型进行抽取式摘要

      最近在梳理文本摘要相关内容,翻到一篇19年关于基于BERT模型进行抽取式摘要的老文「BertSum」,在这里分享给大家。该论文一开始挂在arXiv时,为《Fine-tune BER
    的头像 发表于 03-12 16:41 4320次阅读
    如何使用BERT<b class='flag-5'>模型</b>进行抽取式<b class='flag-5'>摘要</b>

    基于Zero-Shot的多语言抽取式文本摘要模型

    抽取式文本摘要目前在英文上已经取得了很好的性能,这主要得益于大规模预训练语言模型和丰富的标注语料。但是对于其他小语种语言,目前很难得到大规模的标注数据。
    的头像 发表于 07-08 10:49 1245次阅读

    一文详解STM32输入捕获

    输入捕获是处理器捕获外部输入信号的功能,基于定时器抓取输入信号指定触发方式之间的长度。具体有下面三种触发情况。
    的头像 发表于 03-23 10:10 3276次阅读
    一文详解STM32<b class='flag-5'>输入</b><b class='flag-5'>捕获</b>

    对话文本数据的珍贵贡献:训练大模型赋予智能与情感理解

    在当今信息爆炸的时代,对话文本数据正成为塑造人工智能大模型的重要基石,为这些模型注入智能和情感理解的能力。这些数据不仅在培养模型的语言表达能
    的头像 发表于 08-14 10:09 386次阅读