0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

详解一种简单而有效的Transformer提升技术

深度学习自然语言处理 来源:南大NLP 作者:NAACL2021 吴震 2021-04-09 09:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

01研究背景及动机

近些年,Transformer[1]逐渐成为了自然语言处理中的主流结构。为了进一步提升Transformer的性能,一些工作通过引入额外的结构或知识来提升Transformer在特定任务上的表现。尽管如此,过参数化(over-parameterization)和过拟合(overfitting)一直是Transformer中的一个显著问题。作为一种正则化技术,Dropout常被用来缓解模型的过拟合问题[2]。和引入额外结构或知识的工作相比,dropout的一个优势是不需要额外的计算开销和外部资源。因此,本文的出发点在于,能否通过融合不同的dropout技术来进一步提升Transformer的性能甚至达到state-of-the-art效果?

为此,我们提出UniDrop技术,从细粒度到粗粒度将三种不同层次的dropout整合到Transformer结构中,它们分别为feature dropout、structure dropout和data dropout 。Feature dropout (FD),即传统的dropout技术[2],通常应用在网络的隐层神经元上。Structure dropout (SD)是一种较粗粒度的dropout,旨在随机drop模型中的某些子结构或组件。Data dropout (DD)作为一种数据增强方法,通常用来随机删除输入sequence的某些tokens。在UniDrop中,我们从理论上分析了这三层dropout技术在Transformer正则化过程中起到了不同的作用,并在8个机器翻译任务上和8个文本分类任务上验证了UniDrop的有效性。

02UniDrop

2.1Transformer结构

UniDrop旨在提升Transformer的性能。在UniDrop中,feature dropout和structure dropout的使用与网络结构密切相关。因此,我们简单回顾Transformer的网络结构。

f27843de-98d3-11eb-8b86-12bb97331649.png

图1:标准Transformer结构和Feature Dropout

如图1(a)所示,Transformer由多个相同的block堆叠而成,每个block包含两个sub-layer,分别为multi-head self-attention layer和position-wise fully connected feed-forward layer,每个sub-layer后都使用了残差连接和层正则(Add&Norm)。

Multi-head Attention:Multi-head attention sub-layer包含多个并行的attention head,每个head通过带缩放的点乘attention将query Q和键值对K、V映射乘输出,如下式所示:

f2b1ba60-98d3-11eb-8b86-12bb97331649.png

多个head的输出最终被拼接在一起并做线性映射作为最终的multi-head attention输出。

Position-wise Feed-Forward:这一层主要包含两个线性映射和一个ReLU激活函数:

f2beb904-98d3-11eb-8b86-12bb97331649.png

2.2Feature Dropout

如前所述,Feature Dropout (FD)即传统的dropout技术[2],可以以一定的概率随机抑制网络中的某些神经元。实际上,在标准的Transformer实现中,每个sub-layer后都默认配置了dropout。除此之外,Transformer也在multi-head attention和feed-forward network的激活函数层添加了dropout,本文将探索它们对Transformer性能的影响:

FD-1 (attention dropout):根据公式(1),在multi-head attention中,我们可以获得attention权重A=QKT,feature dropout FD-1被应用在attention权重A上。

FD-2 (activation dropout):FD-2被应用在feed-forward network sub-layer两层线性变换间的激活函数上。

除了上面已有的feature dropout,我们在预实验中发现Transformer仍有过拟合的风险。因此,我们额外提出两种feature dropout添加到Transformer结构中:

FD-3 (query, key, value dropout):FD-1直接应用在attention权重A上,表示token i和token j之间的connection有可能被drop,一个更大的FD-1值意味着更大的概率失去sequence中一些关键的connection。为了缓解这种风险,我们在attention之前的query Q、key K和value V上分别添加了dropout。

FD-4 (output dropout):我们在softmax分类的线性映射前也添加了dropout。具体而言,对sequence2sequence任务,我们将FD-4添加到Transformer decoder中,对于文本分类任务我们将FD-4添加到Transformer encoder中。

2.3Structure Dropout

为了提升Transformer的泛化性,之前的工作已经提出了两种Structure Dropout (SD),分别是LayerDrop[3]和DropHead[4]。DropHead通过随机舍弃一些attention head,从而防止multi-head attention机制被某些head主导,最终提升multi-head attention的泛化性。相比之下,LayerDrop是一种更高级别的结构dropout,它能随机舍弃Transformer的某些层,从而直接降低Transformer中的模型大小。通过预实验分析,我们将LayerDrop添加到我们的UniDrop中。

2.4Data Dropout

Data Dropout (DD)以一定的概率p随机删除输入序列中tokens。然而,直接应用data dropout很难保留原始高质量的样本,对于一个长度为n的sequence,我们保留住原始sequence的概率为(1-p)n,当n较大时,这个概率将会非常低。失去原始高质量样本对很多任务都是不利的。为了保留原始高质量的样本,同时又能利用data dropout进行数据增强,我们在UniDrop中提出了一个2-stage data dropout方案。对于给定的sequence,我们以一定的概率 pk保留原始的样本,当data dropout被应用时(概率为1- pk),我们以预定的概率p来随机删除序列中的tokens。

2.5UniDrop整合

最终,我们将上面三种不同粒度的dropout技术集成到我们的UniDrop中,并从理论上分析了feature dropout、structure dropout、data dropout能够正则Transformer的不同项并且不能相互取代,具体分析可参考论文。Figure 2是UniDrop的简单示例。

f2d2db1e-98d3-11eb-8b86-12bb97331649.png

图2:UniDrop示例

03实验与分析

我们在序列生成(机器翻译)和文本分类两个任务上来验证UniDrop的性能。

3.1神经机器翻译

我们在IWSLT14数据集上进行了机器翻译实验,共4个语言对,8个翻译任务,baseline为标准的Transformer结构,实验结果如表1所示:

f33983a0-98d3-11eb-8b86-12bb97331649.png

表1:不同模型在IWSLT14翻译任务上的结果

可以看到,相比于标准的Transformer,我们的UniDrop在所有任务翻译任务上都取得了一致且显著的提升。为了验证UniDrop中每种dropout的作用,我们进行了ablation study实验,也在标准Transformer添加单一的dropout去验证它们的性能。从结果看,FD、SD和DD都能在一定程度上提升Transformer的性能,并能够协同工作,最终进一步提升Transformer的泛化性。

为了进一步验证UniDrop的优越性,我们也在广泛被认可的benchmarkIWSLT14 De→En翻译任务上和其他系统进行了对比。这些系统从不同的方面提升机器翻译,如训练算法设计(Adversarial MLE)、模型结构设计(DynamicConv)、引入外部知识(BERT-fused NMT)等。可以看到,我们的Transformer+UniDrop仍然显著超过了其他系统。

f371701c-98d3-11eb-8b86-12bb97331649.png

表2:不同系统在IWSLT14 De→En翻译任务上的表现

3.2文本分类

对于文本分类任务,我们以RoBERTaBASE作为backbone,在4个GLUE数据集上和4个传统的文本分类数据集上进行了实验,结果如表3和表4所示:

f386802e-98d3-11eb-8b86-12bb97331649.png

表3:不同模型在GLUE tasks (dev set)上的准确率

f39a732c-98d3-11eb-8b86-12bb97331649.png

表4:不同模型在传统文本分类任务上的准确率

可以看到,作为一个强大的预训练模型,RoBERTaBASE显著超过了其他方法。即使如此,UniDrop仍然能够进一步提升RoBERTaBASE的性能,这进一步验证了UniDrop对Transformer模型的有效性。

3.3分析

为了展现UniDrop能够有效防止Transformer过拟合,我们画出了不同模型在IWSLT14 De→En翻译验证集上的loss曲线,如图3所示:

f3b2636a-98d3-11eb-8b86-12bb97331649.png

图3:不同模型在IWSLT14 De→En翻译上的dev loss

可以看到,标准的Transformer结构随着训练轮数的增加,很容易出现过拟合现象。相比之下,FD、SD、DD都在一定程度上缓解了Transformer的过拟合问题。在所有对比模型中,我们的UniDrop取得了最低的dev loss,并且dev loss能持续下降,直到训练结束。综合来看,UniDrop在预防Transformer过拟合问题上取得了最好的表现。

此外,我们也进行了细粒度的ablation study实验来探究不同的feature dropout以及我们2-stage data dropout对Transformer性能的影响,结果如表5所示:

f4117ee0-98d3-11eb-8b86-12bb97331649.png

表5:Ablation Study

可以看到,FD-3比FD-1带来更多的提升,这也验证了我们之前的分析,仅使用FD-1对提升multi-head attention的泛化性来说是不够的。另外,表5表明我们提出的2-stage data dropout策略对提升性能是有帮助的,这体现了保留原始高质量样本的必要性。

04总结与展望

过拟合是Transformer结构中一个常见的问题,dropout技术常被用来防止模型过拟合。本文中,我们提出了一种集成的dropout技术UniDrop,它由细粒度到粗粒度,将三种不同类型的dropout(FD、SD、DD)融合到Transformer结构中。我们从理论上分析UniDrop中的三种dropout技术能够从不同的方面防止Transformer过拟合,在机器翻译和文本分类任务上的实验结果也体现了UniDrop的有效性和优越性,更重要的,它不需要额外的计算开销和外部资源。更多的细节、结果以及分析请参考原论文。
编辑:lyn

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Dropout
    +关注

    关注

    0

    文章

    13

    浏览量

    10760
  • Transformer
    +关注

    关注

    0

    文章

    154

    浏览量

    6811
  • 自然语言处理

    关注

    1

    文章

    629

    浏览量

    14563

原文标题:UniDrop:一种简单而有效的Transformer提升技术

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Transformer如何让自动驾驶变得更聪明?

    ]自动驾驶中常提的Transformer本质上是一种神经网络结构,最早在自然语言处理里火起来。与卷积神经网络(CNN)或循环神经网络(RNN)不同,Transformer能够自动审视所有输入信息,并动态判断哪些部分更为关键,同时
    的头像 发表于 11-19 18:17 1898次阅读

    大尺寸玻璃晶圆(12 英寸 +)TTV 厚度均匀性提升技术

    尺寸增大,实现 TTV 厚度均匀性的难度显著增加。探索有效的 TTV 厚度均匀性提升技术,成为保障大尺寸玻璃晶圆质量、推动产业发展的重要课题。 二、影响大尺寸玻
    的头像 发表于 10-17 13:40 255次阅读
    大尺寸玻璃晶圆(12 英寸 +)TTV 厚度均匀性<b class='flag-5'>提升技术</b>

    代理式AI提升团队绩效的六方式

    根据凯捷(Capgemini)预测,未来三年内,AI 智能体有望参与到企业的大多数业务中,而有效的人机协作预计将使人类参与高价值任务的比例提升 65%。
    的头像 发表于 09-23 14:28 444次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    彻底改变了自然语义处理的研究和应用。它引入了自注意机制和位置编码,能够有效的捕捉输入序列中的关联信息,实现更好的上下文理解和建模。 Transformer 模型由个编码器和个解码器
    发表于 09-12 17:30

    如何有效利用高光谱成像技术提升数据分析效率

    随着人工智能和大数据技术的快速发展,高光谱成像技术作为一种融合光谱信息与空间影像的新兴技术,正日益成为提升数据分析效率的重要工具。在农业监测
    的头像 发表于 09-11 16:13 575次阅读
    如何<b class='flag-5'>有效</b>利用高光谱成像<b class='flag-5'>技术</b><b class='flag-5'>提升</b>数据分析效率

    一种高效智能的光伏电站管理平台

    体化(集成多种储能管理功能等)。用户根据自身场景和需求,选择合适光伏电站管理平台及功能应用配置,从而实现发电效率最大化、运维成本最小化及碳中和目标。 光伏电站管理平台作为一种智能光伏管理系统,通过光伏智能管理
    的头像 发表于 07-18 09:20 830次阅读
    <b class='flag-5'>一种</b>高效智能的光伏电站管理平台

    一种实现开关柜局放监测的有效技术架构

    开关柜局放在线监测系统是针对开关柜局放监测的一种技术工具,也是保障电力系统安全稳定运行的关键设备,系统通过传感器捕捉开关柜内部因局部放电产生的物理信号(如特高频电磁波、超声波、暂态地电压),数据采集
    的头像 发表于 06-19 13:35 340次阅读
    <b class='flag-5'>一种</b>实现开关柜局放监测的<b class='flag-5'>有效</b><b class='flag-5'>技术</b>架构

    详解外延生长技术

    随着半导体器件特征尺寸不断微缩,对高质量薄膜材料的需求愈发迫切。外延技术作为一种在半导体工艺制造中常用的单晶薄膜生长方法,能够在单晶衬底上按衬底晶向生长新的单晶薄膜,为提升器件性能发挥了关键作用。本文将对外延
    的头像 发表于 06-16 11:44 2258次阅读
    <b class='flag-5'>一</b>文<b class='flag-5'>详解</b>外延生长<b class='flag-5'>技术</b>

    交流充电桩负载能效提升技术

    随着电动汽车普及率提升,交流充电桩的能效优化成为降低运营成本、减少能源浪费的核心课题。负载能效提升需从硬件设计、拓扑优化、智能控制及热管理等多维度展开,以下结合技术原理与实践方案进行阐述。
    发表于 05-21 14:38

    快手上线鸿蒙应用高性能解决方案:数据反序列化性能提升90%

    近日,快手在Gitee平台上线了鸿蒙应用性能优化解决方案“QuickTransformer”,该方案针对鸿蒙应用开发中广泛使用的三方库“class-transformer”进行了深度优化,有效提升
    发表于 05-15 10:01

    IT运维效率提升技

    在当今数字化时代,网络的稳定可靠直接影响到日常工作和业务的顺利开展。而改变日常网络维护中的几个小事则可以为准确地完成日常工作,确保网络的高效运行降低故障率提供有效的保障,尤其是针对那些需要安装在特殊位置或者特殊环境的网络设备,日常维护故障排查可能十分艰难,更应该在建设之初确保安装质量,
    的头像 发表于 04-24 16:24 465次阅读
    IT运维效率<b class='flag-5'>提升技</b>巧

    一种分段气隙的CLLC变换器平面变压器设计

    气隙设计的优点。 目录1 概述2 一种分段气隙的CLLC平面变压器设计3 实验验证4 参考文献 1 概述学者们从LLC拓扑原理、新型器件、改进拓扑、先进调制方法、谐振参数优化方法、磁性器件设计方法
    发表于 03-27 13:57

    提升技术实力,突破职业瓶颈

    必备的核心竞争力。赛盛技术培训部,作为业内知名的培训机构,凭借丰富的经验和强大的教学资源,推出了系列面向工程师的线上实战特训课程,旨在帮助学员快速掌握先进的技术
    的头像 发表于 02-11 18:00 912次阅读
    <b class='flag-5'>提升技术</b>实力,突破职业瓶颈

    transformer专用ASIC芯片Sohu说明

    2022年,我们打赌说transformer会统治世界。 我们花了两年时间打造Sohu,这是世界上第个用于transformer(ChatGPT中的“T”)的专用芯片。 将transform
    的头像 发表于 01-06 09:13 1673次阅读
    <b class='flag-5'>transformer</b>专用ASIC芯片Sohu说明

    港大提出SparX:强化Vision Mamba和Transformer的稀疏跳跃连接机制

    本文分享香港大学计算和数据科学学院俞益洲教授及其研究团队发表于 AAAI 2025 的论文——SparX,一种强化 Vision Mamba 和 Transformer 的稀疏跳跃连接机制,性能强大
    的头像 发表于 01-03 09:28 1799次阅读
    港大提出SparX:强化Vision Mamba和<b class='flag-5'>Transformer</b>的稀疏跳跃连接机制