0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

帮助弱者让你变得更强:利用多任务学习提升非自回归翻译质量

深度学习自然语言处理 来源:南大NLP 作者:南大NLP 2022-11-09 16:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

01

研究动机

目前最先进的神经机器翻译模型主要是自回归(autoregressive, AR)[1][2]模型,即在解码时从左向右依次生成目标端单词。尽管具有很强的性能,但这种顺序解码会导致较高的解码时延,在效率方面不令人满意。相比之下,非自回归(non-autoregressive, NAR)模型[3]使用更加高效的并行解码,在解码时同时生成所有的目标端单词。为此,NAR模型需要对目标端引入条件独立假设。然而,这一假设无法在概率上准确地描述人类语言数据中的多模态现象(或多样性现象,即一条源端句存在多个正确的翻译结果)。这为NAR模型带来了严峻的挑战,因为条件独立假设与传统的极大似然估计(Maximum Likelihood Estimate, MLE)训练方式无法为NAR模型提供足够信息量的学习信号和梯度。因此,NAR模型经常产生较差的神经表示,尤其是在解码器(Decoder)部分。而由于解码器部分直接控制生成,从而导致了NAR模型显著的性能下降。为了提升NAR模型的性能,大多数先前的研究旨在使用更多的条件信息来改进目标端依赖关系的建模(GLAT[4], CMLM[5])。我们认为,这些研究工作相当于在不改变NAR模型概率框架的前提下提供更好的替代学习信号。并且,这些工作中的大部分需要对模型结构进行特定的修改。

沿着这个思路,我们希望能够为NAR模型提供更具信息量的学习信号,以便更好地捕获目标端依赖。同时,最好可以无需对模型结构进行特定的修改,适配多种不同的NAR模型。因此,在本文中我们提出了一种简单且有效的多任务学习框架。我们引入了一系列解码能力较弱的AR Decoder来辅助NAR模型训练。随着弱AR Decoder的训练,NAR模型的隐层表示中将包含更多的上下文和依赖信息,继而提高了NAR模型的解码性能。同时,我们的方法是即插即用的,且对NAR模型的结构没有特定的要求。并且我们引入的AR Decoder仅在训练阶段使用,因此没有带来额外的解码开销。

02

贡献

1、我们提出了一个简单有效的多任务学习框架,使NAR模型隐层表示包含更丰富的上下文和依赖信息。并且我们的方法无需对模型结构进行特定的修改,适配多种NAR模型。

2、一系列AR Decoder的引入带来了较大的训练开销。为此我们提出了两种降低训练开销的方案,在几乎不损失性能的前提下显著降低了参数量和训练时间。

3、在多个数据集上的实验结果表明,我们的方法能够为不同的NAR模型带来显著的提升。当使用束搜索解码时,我们的模型在所有数据集上均优于强大的Transformer模型,同时不引入额外的解码开销。

03

解决方案

3.1、模型结构

我们的模型结构如图1所示。对于每个NAR Decoder层,我们都引入了一个辅助的弱AR Decoder(每个AR Decoder仅包含1层Transformer Layer)。我们令这些AR Decoder基于对应的NAR隐层表示进行解码,即令NAR隐层表示作为AR Decoder Cross-Attention的Key和Value。由于AR Decoder的解码能力较弱,因此很难自行捕捉目标句的依赖关系。只有当其对应的NAR隐层表示中的信息足够充分,AR Decoder才能够正确地解码。因此,AR Decoder为NAR模型带来了新的训练信号,迫使NAR Decoder变得更强,在隐层表示中包含更多的上下文和依赖信息来支持AR Decoder的解码。在这个过程中,NAR提升了自己的表示能力,从而在实际解码时获得了更好的表现。

9a185f60-5f58-11ed-8abf-dac502259ad0.png

图1:我们的方法示意图

3.2、训练目标

我们的训练目标如下式所示

9a3715d6-5f58-11ed-8abf-dac502259ad0.png

对于NAR部分,我们保持NAR模型的原始训练目标不变。如对于CTC模型,我们使用CTC Loss作为NAR的损失函数。对于AR部分,我们使用交叉熵损失进行训练,并将所有AR Decoder的损失相加。最终的损失函数是两部分的加权和,权重是超参数。

3.3、Glancing Training训练策略

Glancing Training是一种有效提升NAR模型性能的训练策略[4]。我们在我们的方法中应用了Glancing Training。具体来说,在训练时根据模型当前的解码质量,随机采样参考句中的token作为NAR Decoder的输入。模型当前解码质量越差则采样越多,反之亦然。然后令AR Decoder基于NAR隐层表示进行解码。

3.4、降低解码开销

我们为每层NAR Decoder都配置了一个AR Decoder,这可能会带来较大的训练开销。为此,我们从模型参数量和训练时间的角度,提出了两种降低训练开销的方案。

Parameter Sharing:令所有的AR Decoder之间共享参数,降低参数量;

Layer Dropout:每个训练步随机选择一半数量的AR Decoder进行训练,降低训练时间。

3.5、解码过程

在解码时,我们不使用AR Decoder,仅使用NAR模型自身进行解码。因此,我们的方法没有引入额外的解码开销。

04

实验

我们在机器翻译领域目前最广泛使用的数据集上进行了实验:WMT14英德(4.5M语言对)、WMT16英罗(610K语言对)、IWSLT14德英(160K语言对)。我们遵循Gu和Kong[6]的工作中的数据预处理方式,并且使用了BLEU[9]指标作为机器翻译质量评价指标。为了缓解数据集中多模态现象导致的训练困难,我们对所有数据集使用了知识蒸馏技术进行处理[3]。

4.1、实验结果

我们的方法可以对不同类型的NAR模型带来提升。

我们使用了Vanilla-NAR[3]和CTC[7]作为我们的基线模型,并在基线模型上应用我们的方法,实验结果如表1所示。可以看到,我们的方法一致且显著地提高了每个基线模型在每个语言对上的翻译质量。这说明了我们方法的通用性。

表1:对不同的基线模型应用我们的方法

9a494d1e-5f58-11ed-8abf-dac502259ad0.png

与其他的NAR模型相比,我们的方法获得了更好的结果。

我们选用CTC模型应用我们的方法作为我们的模型,并与其他强大的NAR模型进行比较,实验结果如表2所示。可以看到,我们的方法显著提高了翻译质量,并优于其他强大的基线模型。此外,当应用Glancing Training技术后,我们的方法可以带来更大程度的提升。

与采取迭代解码的模型(CMLM)相比,我们的方法仅使用单步解码,具备更快的解码速度,并在除了WMT14英德之外的所有语言对上获得了更好的性能。

Hao等人[8]的工作与我们的工作相关,都使用了多任务学习框架。我们在CTC模型上复现了他们的方法(CTC+MTL)。实验结果表明我们的方法可以为模型带来更明显的提升。

表2:与其他强大的NAR模型比较。9a5b6e7c-5f58-11ed-8abf-dac502259ad0.png代表使用k轮迭代解码

9a70d4a6-5f58-11ed-8abf-dac502259ad0.png

4.2、实验分析

较弱的AR Decoder是否有必要?

在我们的方法中,AR Decoder的解码能力需要足够弱,由此强迫NAR Decoder变得更强。我们对这一点进行了验证。我们使用不同层数的AR Decoder进行实验(1、3、6层),实验结果如图2所示。每种深度的AR Decoder都可以为NAR模型带来增益,但是随着AR Decoder层数的增加,AR Decoder解码能力增强,为NAR模型带来的增益也在逐渐降低。这也验证了我们的动机:一个较弱的AR Decoder能够使NAR Decoder包含更多有用的信息。

9a946d9e-5f58-11ed-8abf-dac502259ad0.png

图2:不同层数的AR Decoder为模型带来了不同程度的增益

关于训练开销的消融实验。

我们在IWSLT14德英数据集上评估了我们提出的降低训练开销策略的效果。如表3所示,在使用了Param Sharing和Layer Dropout两种策略后,参数量(83.8M vs 55.3M)和训练时间(31.2h vs 19.4h)均得到了显著的降低,同时保持模型性能几乎没有变化

表3:两种降低训练开销策略的效果评估

9aaa27d8-5f58-11ed-8abf-dac502259ad0.png

我们的方法使模型能够更好地解码长句。

为了进一步分析NAR模型在生成不同长度目标端句时的表现差异,我们在WMT14英德数据集的测试集上进行了实验,将目标端句按照长度分成不同的区间。如表4所示,随着句子长度的增加,我们的模型和Transformer之间的差距在逐渐降低。当目标端句长度大于60时,我们的模型能够超过Transformer的解码性能。在解码更长的句子时,模型需要处理更复杂的上下文关联。我们推测我们提出的多任务学习方法显著改善了NAR隐藏状态下包含的上下文和依赖信息,因此在长句子翻译中具有更好的性能。

表4:生成不同长度目标端句时的性能差异

9ac170e6-5f58-11ed-8abf-dac502259ad0.png

我们的方法使模型减少了重复生成。

由于数据集中的多模态现象,NAR模型会出现重复生成的翻译错误。表5展示了在应用我们的方法前后,NAR模型出现重复生成现象的比率。可以看到,我们的方法显著降低了重复单词的出现频率,使NAR模型的生成质量更好。值得注意的是,尽管CTC模型本身已经能够产生很少的重复生成,我们的方法依然可以进一步降低重复生成的比率。

表5:重复生成的比率

9adb01aa-5f58-11ed-8abf-dac502259ad0.png

不使用知识蒸馏技术时的性能表现。

尽管知识蒸馏是一种常用的约减多模态现象的手段,但它限制了NAR模型在AR教师模型下的性能,同时构建教师模型也需要额外的开销。为了验证我们的方法在原始数据场景中的有效性,我们在WMT14和IWSLT14数据集上进行了实验。如表6所示,我们的方法可以为基线模型(CTC)带来非常显著的提升,进一步缩小了与Transformer模型的差距。

表6:不使用知识蒸馏的实验结果

9afd0700-5f58-11ed-8abf-dac502259ad0.png

我们的方法相对于其他多任务学习方法的优势。

Hao等人[8]的工作也使用了多任务学习框架,但我们的方法能够为NAR模型带来更显著的提升。我们认为我们的方法在多任务学习模块(即AR Decoder)的位置和容量上更有优势。

对于AR Decoder的位置,我们认为Decoder决定生成过程,因此将AR Decoder部署于NAR Decoder上能够更直接和显式地改善NAR的生成过程,而Hao等人的工作是部署于NAR Encoder上的。

对于AR Decoder的容量,我们认为AR Decoder应尽可能弱,这样AR Decoder无法自行对目标端句进行建模,从而迫使NAR Decoder隐层表示包含更多的上下文和依赖信息。而Hao等人的工作使用的标准AR Decoder,对NAR隐层表示的要求更低,因此为NAR带来的提升更少。

05

总结

在本文中,我们为NAR模型提出了一个多任务学习框架,引入了一系列弱AR解码器辅助训练NAR模型。随着弱AR解码器的训练,NAR隐藏状态将包含更多的上下文和依赖信息,从而提高NAR模型的性能。在多个数据集上的实验表明,我们的方法可以显著且一致地提高翻译质量。当使用束搜索解码时,我们基于CTC的NAR模型在所有基准测试上都优于强大的Transformer,同时不引入额外的解码开销。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1202

    浏览量

    42857
  • Ar
    Ar
    +关注

    关注

    25

    文章

    5236

    浏览量

    175453
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51702

原文标题:EMNLP'22 | 帮助弱者让你变得更强:利用多任务学习提升非自回归翻译质量

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    多任务系统中,如何平衡任务调度以防止因高负载导致的再次进入低功耗模式的延迟?

    多任务系统中,如何平衡任务调度以防止因高负载导致的再次进入低功耗模式的延迟?
    发表于 12-04 06:37

    学习RTOS的意义?

    对于嵌入式软件工程师,学习RTOS非常有必要。 1. 项目需要 随着产品要实现的功能越来越多,单纯的裸机系统已经不能完美地解决问题,反而会使编程变得更加复杂,如果想降低编程的难度,就必须引入
    发表于 11-27 08:16

    一句话,多个命令同时执行,AI语音模组也能多任务处理?

    、 Ai-WV02-32S   将语音识别、唤醒、语义理解等核心功能, 浓缩在一颗小小的模组中。 安信可AI语音模组支持 MCP 协议(Multi Command Processing,多命令并行处理) ,语音交互从“单线程”进化为真正的“多任务协同”! 一句话唤醒“
    的头像 发表于 10-31 14:45 240次阅读
    一句话,多个命令同时执行,AI语音模组也能<b class='flag-5'>多任务</b>处理?

    爱普科技PSRAM加速wisun无线模块多任务处理

    爱普科技256Mb PSRAM(如APS256XXN-OBR-BG)为WiSUN无线模块提供高速数据缓存与临时存储解决方案,其166MHz速率、1.8V低功耗及小尺寸封装显著提升模块在智能电网、工业自动化中的多任务处理能力和稳定性。
    的头像 发表于 10-14 09:25 211次阅读
    爱普科技PSRAM加速wisun无线模块<b class='flag-5'>多任务</b>处理

    NFC读写器助力标签质量检测,提升应用优势!

    NFC读写器在智能标签质量检测中展现出显著优势:采用接触式检测,避免标签损伤且提升效率;能全面验证标签功能与性能,确保可靠性;支持自动化批量检测,大幅提高生产效率;易于集成开发,成本效益高。这些优势使其成为工业制造中
    的头像 发表于 09-17 10:22 437次阅读
    NFC读写器助力标签<b class='flag-5'>质量</b>检测,<b class='flag-5'>提升</b>应用优势!

    揭秘LuatOS Task:多任务管理的“智能中枢”

    Task任务作为LuatOS的核心组成部分,通过智能化的任务管理机制,实现任务的创建、调度与协同运行,复杂应用得以高效并行处理,满足实时场景下的严苛需求。 sys核心库是LuatOS
    的头像 发表于 08-28 13:48 392次阅读
    揭秘LuatOS Task:<b class='flag-5'>多任务</b>管理的“智能中枢”

    电控系统的 “功率翻译官”:车规电容如何能源利用效率提升 10%?

    官"的关键角色。最新行业数据显示,采用新一代车规电容技术的电控系统,可实现能源利用效率提升10%的突破性进展,这相当于为续航500公里的电动车额外增加50公里续航能力。 车规电容之所以能成为能源效率提升的"幕后功臣",源于其
    的头像 发表于 07-31 16:07 649次阅读

    快速入门——LuatOS:sys库多任务管理实战攻略!

    在嵌入式开发中,多任务管理是提升系统效率的关键。本教程专为快速入门设计,聚焦LuatOS的sys库,通过实战案例带你快速掌握多任务创建、调度与同步技巧。无论是零基础新手还是希望快速
    的头像 发表于 05-29 14:36 592次阅读
    快速入门——LuatOS:sys库<b class='flag-5'>多任务</b>管理实战攻略!

    工业通信的“超级翻译官”Modbus转Profinet如何称重设备实现语言自由

    在竞争激烈的工业自动化领域,设备间通信协议的差异常常成为提升生产效率的绊脚石。但别担心,我们为您带来了一个卓越的解决方案——VING微硬创新Modbus转Profinet连接称重设备的实现方案,
    发表于 05-21 15:45

    媒体别乱推!用好DeepSeek,的内容“稳稳的”!

    DeepSeek,的内容不仅有料,还能稳稳地抓住读者的心! 一,还在瞎猜?用DeepSeek找准方向 媒体最怕的就是乱跟风,别人推啥咱也推啥,结果呢?内容没新意,读者也不买账。DeepSeek可不是这样,它就像个“智能小助
    的头像 发表于 02-19 16:19 860次阅读

    AI助力实时翻译耳机

    是否曾经因为语言障碍而无法与外国人顺畅交流?或者在旅行中因为语言不通而错过了一些精彩的经历?现在,随着AI技术的发展,实时翻译耳机可以帮你轻松解决这些问题。 1 什么是实时翻译耳机 实时翻译
    的头像 发表于 01-24 11:14 3263次阅读
    AI助力实时<b class='flag-5'>翻译</b>耳机

    锁电路与锁电路的比较

    在电气控制系统中,电路的设计对于系统的稳定性和可靠性至关重要。锁电路和锁电路是两种基本的控制电路类型,它们在功能和应用上有着明显的区别。 锁电路 定义
    的头像 发表于 01-18 10:11 1507次阅读

    【「基于大模型的RAG应用开发与优化」阅读体验】+大模型微调技术解读

    Tuning)和Prompt-Tuning:通过在输入序列中添加特定提示来引导模型生成期望的输出,简单有效,适用于多种任务。P-Tuning v1和P-Tuning v2:基于多任务学习的微调方法,通过
    发表于 01-14 16:51

    基于移动回归的时序扩散预测模型

    在人工智能领域,目前有很多工作采用回归方法来模拟或是替代扩散模型,其中视觉回归建模(Visual AutoRegressive modeling,简称 VAR)就是其中的典型代表,
    的头像 发表于 01-03 14:05 1646次阅读
    基于移动<b class='flag-5'>自</b><b class='flag-5'>回归</b>的时序扩散预测模型

    【「大模型启示录」阅读体验】对本书的初印象

    很高兴能够申请到《大模型启示录》一书,作为一名在读大学生,我深感荣幸。在日常生活中,人工智能(AI)的应用已经变得无处不在,它不仅帮助我们完成一些简单的文本归纳任务,还能在代码调试中指出错误,甚至
    发表于 12-16 14:05