0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于长度感知注意机制的长度可控摘要模型

深度学习自然语言处理 来源:深度学习自然语言处理 2023-01-06 09:49 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

以往的长度可控摘要模型大多在解码阶段控制长度,而编码阶段对指定的摘要长度不敏感。这样模型倾向于生成和训练数据一样长的摘要。在这篇论文中,作者提出了一种长度感知注意机制(LAAM,length-aware attention mechanism)来适应基于期望长度的编码。

本文的方法是在由原始训练数据构建的摘要长度平衡数据集上训练 LAAM,然后像往常一样进行微调。结果表明,这种方法可以有效地生成具有所需长度的高质量摘要,甚至是原始训练集中从未见过的短长度摘要。

e92b8d12-8d5b-11ed-bfe3-dac502259ad0.png

论文题目:Length Control in Abstractive Summarization by Pretraining Information Selection

收录会议:

ACL 2022

论文链接:

https://aclanthology.org/2022.acl-long.474.pdf

代码链接:

https://github.com/yizhuliu/lengthcontrol

背景

摘要任务目的是改写原文,在简明流畅的摘要中再现原文的语义和主题。为了在不同的移动设备或空间有限的网站上显示摘要,我们必须生成不同长度的摘要。

长度可控的摘要是一个多目标优化问题,包括:

在期望的长度内生成完整的摘要

以及根据期望的长度选择适当的信息

相关方法

现有的基于编解码器模型的长度可控摘要可分为两类:

解码时的早停

编码前的信息选择

解码过程中的早停方法关注何时输出 eos(end of sequence),也就是摘要的结束标志。有人设计了专门的方法。这个专门方法是通过在测试期间将期望长度的位置上的所有候选单词分配 −∞ 的分数来生成 eos。这个方法可以应用于任何 seq2seq 模型。然而,这些方法只是简单地为解码器增加了长度要求,而忽略了从源文档编码内容或信息选择也必须适应不同长度要求的问题。

基于信息选择的方法分为两阶段。一个突出的例子是 LPAS,在第一阶段,从源文档中提取最重要的l个标记作为所需长度的原型摘要,并在第二阶段通过双编码器对源文档和原型摘要进行编码。一方面,这种两阶段方法会在中间结果中引入噪声。另一方面,这些方法的第二阶段没有第一手的长度信息,这削弱了长度控制。

本文方法

在本文中,作者提出了LAAM(长度感知注意机制),它扩展了 Transformer seq2seq 模型,具有根据长度约束在上下文中选择信息的能力。

LAAM 重新 normalize 编码器和解码器之间的注意力,以增强指定长度范围内具有更高注意力分数的 token,帮助从源文档中选择长度感知信息。随着解码进行,增强 token 的数量将会逐步减少,直到 eos 获得最高的注意力分数,这有助于在指定长度上停止解码过程。

LAAM 可以被认为是上一节两类方法的混合版本。

同时作者观察到,在现有训练集中,不同长度的摘要数量有很大差异。为了平衡摘要在不同长度范围内的分布,本文提出了一种启发式方法:首先定义摘要长度范围,然后从原文中直接抽取不同长度的摘要,根据特定指标控制抽取摘要的相关度,从而创建长度平衡数据集(LBD,length-balanced dataset)。

在本文方法中,先从原始的摘要数据集创建一个 LBD。之后,在 LBD 上预训练LAAM,以增强 LAAM 在长度约束下的文本选择能力。最后,将预训练后的 LAAM 在原始数据集上微调,以学习将所选文本改写为不同长度的摘要。

当前训练数据集中没有短摘要,微调后的模型没有见过短摘要,所以如果用它生成短摘要的话算是 zero-shot。得益于 LDB 的预训练,本文的方法可以解决zero-shot情况下的长度控制问题。

本文的主要贡献:

提出了LAAM(长度感知注意机制)来生成具有所需长度的高质量摘要。

设计了一种启发式方法,从原始数据集中创建一个LBD(长度平衡数据集)。在 LBD 上对 LAAM 进行预训练后,LAAM 效果能有提升,并且可以有效解决 zero-shot 情况下的短摘要生成问题。

LAAM

e969c8de-8d5b-11ed-bfe3-dac502259ad0.png

上图是 Transformer 解码器。

左上方为源文档输入:,作为注意力的 Key。

最左侧为模型当前输出:,作为注意力的 Query,两者点乘得到注意力矩阵。 注意力矩阵分为两部分, 负责文本信息选择, 负责结束标志选择

注意力矩阵的第一行加粗了 Top3,第二行加粗了 Top2,第三行加粗了 Top1,对加粗的进行提权,本文通过这种方式向模型传递句子剩余预测长度信息。

也会进行提权,并且越接近指定长度,提权幅度越大,模型也就更容易预测出 eos。

提权后要进行一次归一化,不然和不为 1。

这就是本文提出的 LAAM 模型。

总结

本文方案的整体流程是:

用原始训练集生成 LBD(长度平衡数据集)

在 LBD 上预训练 LAAM 模型

在原始训练集上微调 LAAM 模型

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编解码器
    +关注

    关注

    0

    文章

    278

    浏览量

    25233
  • 数据集
    +关注

    关注

    4

    文章

    1230

    浏览量

    26046

原文标题:ACL 2022 | 基于长度感知注意机制的长度可控摘要模型

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    关于伺服电缆长度问题的详解

    对信号完整性的影响机制 1. 传输延迟与波形畸变 伺服系统中的编码器信号对时序极为敏感,当电缆长度超过30米时,信号传播延迟可达150ns以上。特别是100MHz以上的高频脉冲信号,在50米电缆传输后可能出现明显的上升沿钝化现象。建议采
    的头像 发表于 11-01 07:40 487次阅读

    MD5信息摘要算法实现一(基于蜂鸟E203协处理器)

    的整数倍,是因为在MD5的哈希运算中,每次的输入是以512-bit为单位,然后进入运算。需要注意的是,消息的长度是指将输入的数据通过ASCII码转换为二进制后所占的位数,而非字符串本身长度。 【举例1
    发表于 10-30 07:18

    pipe发送超过16384长度,会被截断怎么解决?

    我在使用paho_mqtt 发送数据的时候,短包没问题,发现数据长度超过16384就会崩溃; 追查之下发现pipe 写入数据以后,一次性读出来只有16384; 反复测试之后,看到第二次接收到3255;为什么会分两次接收。
    发表于 10-11 06:18

    小白学大模型:大模型加速的秘密 FlashAttention 1/2/3

    在Transformer架构中,注意机制的计算复杂度与序列长度(即文本长度)呈平方关系()。这意味着,当模型需要处理更长的文本时(比如从几
    的头像 发表于 09-10 09:28 4316次阅读
    小白学大<b class='flag-5'>模型</b>:大<b class='flag-5'>模型</b>加速的秘密 FlashAttention 1/2/3

    电缆的长度会影响特性阻抗吗?

    电缆的长度会影响特性阻抗吗?
    发表于 09-08 07:08

    信号走线长度:辐射发射的隐形 “操盘手”

    一前言在电子设备中,随着电路集成度不断提高以及工作频率持续上升,电磁兼容性(EMC)成为关键问题。信号走线作为电路中信号传输的通道,其长度对辐射发射有着显著影响,这不仅关系到设备自身的稳定运行,还关
    的头像 发表于 08-05 11:33 638次阅读
    信号走线<b class='flag-5'>长度</b>:辐射发射的隐形 “操盘手”

    六类线永久链路的长度不能超过多少米-科兰

    六类线永久链路的长度不能超过90米,这是根据国际标准TIA/EIA-568及ISO/IEC 11801明确规定的上限值。以下为具体说明: 一、标准依据与定义 永久链路(Permanent Link
    的头像 发表于 07-14 10:09 678次阅读
    六类线永久链路的<b class='flag-5'>长度</b>不能超过多少米-科兰

    技术资讯 I 渐变线或泪滴的最佳长度设计

    线、焊盘或过孔之间铜走线或渐变线连接的长度。借助PCB布线软件中的渐变线和泪滴布局工具,设计人员能够轻松放置常见的连接形状。在大多数设计工具的基本功能是将渐变线采
    的头像 发表于 07-04 13:34 1512次阅读
    技术资讯 I 渐变线或泪滴的最佳<b class='flag-5'>长度</b>设计

    CYUSB3014如何增加最大传输数据长度

    我正在使用 CYUSB3014(FX3)在 PC 的 USB 和 FPGA 之间传输数据。 对于小于2097152的数据长度,数据都可以成功传输到PC。 如果数据长度超过 2097152(power
    发表于 05-19 08:03

    VirtualLab Fusion应用:相干时间和相干长度计算器

    摘要 在本用例中,我们介绍了一种计算器,它可以根据给定光源的波谱信息快速估计其时间相干特性。然后,可以将该计算器的结果自动复制到通用探测器中,以便在考虑时间相干性时应用近似方法,而无需对光源的波长
    发表于 04-08 08:48

    线束导线长度的定义有哪些?重要吗?

    关于线束导向长度的定义,定义了适当的、准确的导线长度,可用于线束制造。
    的头像 发表于 03-27 11:46 956次阅读

    变频串联谐振耐压试验装置:如何根据电缆长度与截面积选择容量

    在选择变频串联谐振耐压试验装置的容量时,需要考虑电缆的长度和截面积,因为它们直接影响到试验所需的电压、电流以及设备的容量。以下是根据电缆长度和截面积选择变频串联谐振耐压试验装置容量的详细步骤: 一
    的头像 发表于 03-14 09:39 903次阅读

    如何使用DMA进行USART不定长度接收

    在上一讲中,我们对USART进行了简单介绍,并讲解了如何在不使用DMA的情况下进行不定长度数据接收,本讲将着重讲解如何使用DMA进行USART不定长度接收。
    的头像 发表于 02-18 17:01 1360次阅读
    如何使用DMA进行USART不定<b class='flag-5'>长度</b>接收

    光缆接头预留长度一般不少于多少米

    光缆接头预留长度的具体要求可能会因应用场景、设计规范或特定需求而有所不同。但一般来说,光缆接头预留长度通常有一个基本标准。 一种常见的标准是,光缆接头预留长度一般不少于7米。这一长度
    的头像 发表于 02-14 09:55 2455次阅读

    VirtualLab Fusion应用:相干时间和相干长度计算器

    摘要 在本用例中,我们介绍了一种计算器,它可以根据给定光源的波谱信息快速估计其时间相干特性。然后,可以将该计算器的结果自动复制到通用探测器中,以便在考虑时间相干性时应用近似方法,而无需对光源的波长
    发表于 12-27 08:48