0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于一项改进Transformer的工作

深度学习自然语言处理 来源:复旦DISC 作者:复旦DISC 2021-04-22 10:46 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

NAACL2021中,复旦大学大学数据智能与社会计算实验室(Fudan DISC)和微软亚洲研究院合作进行了一项改进Transformer的工作,论文的题目为:Mask Attention Networks: Rethinking and Strengthen Transformer,被收录为长文。

文章摘要

Transformer的每一层都由两部分构成,分别是自注意力网络(SAN)和前馈神经网络(FFN)。当前的大部分研究会拆开这两份部分来分别进行增强。在我们的研究当中,我们发现SAN和FFN本质上都属于一类更广泛的神经网络结构,遮罩注意力网络(MANs),并且其中的遮罩矩阵都是静态的。我们认为这样的静态遮罩方式限制了模型对于局部信息的建模的。因此,我们提出了一类新的网络,动态遮罩注意力网络(DMAN),通过自身的学习来调整对于局部信息的建模。为了更好地融合各个子网络(SAN,FFN,DMAN)的优势,我们提出了一种层叠机制来将三者融合起来。我们在机器翻译和文本摘要任务上验证了我们的模型的有效性。

研究背景

目前大家会从SAN或者FFN来对Transformer进行改进,但是这样的方案忽略了SAN和FFN的内在联系。

在我们的工作当中,我们使用Mask Attention Network作为分析框架来重新审视SAN和FFN。Mask Attention Networks使用一个遮罩矩阵来和键值对的权重矩阵进行对应位置的相乘操作来确定最终的注意力权重。在下图中,我们分别展示了SAN和FFN的遮罩矩阵。由于对于关系建模没有任何的限制,SAN更擅长长距离建模来从而可以更好地捕捉全局语意,而FFN因为遮罩矩阵的限制,无法获取到其他的token的信息,因而更关注自身的信息。

尽管SAN和FFN取得了相当好的效果,但是最近的一些研究结果表明,Transformer在捕捉局部信息的能力上有所欠缺。我们认为这种欠缺是因为是因为注意力矩阵的计算当中都是有静态遮罩矩阵的参与所导致的。我们发现两个不相关的token之间的权重可能因为中间词的关系而错误地产生了较大的注意力权重。例如“a black dog jumps to catch the frisbee”, 尽管“catch”和“black”关系不大,但是因为二者都共同的邻居“dog”的关系很大,进而产生了错误了联系,使得“catch”忽略了自己真正的邻居。

为了强化Transformer在局部建模的能力,我们提出了动态遮罩注意力网络(DMAN)。在DMAN当中, 在特定距离内的单词相比于一般的注意力机制会得到更多的注意力权重,进而得到更多的关注。另外,为了更好地融合SAN,FFN和DMAN三者的能力,我们提出使用DMAN-》SAN-》FFN这样的方式来搭建网络结构。

方法描述

回顾Transformer

SAN的注意力机制使用下面的公式来将键值对映射到新的输出。

其中是查询向量组成的有序矩阵,是键值对的组合,是的特征维度。

为了进一步增强transformer捕捉不同文本特征的的能力,对于一个文本特征的输入序列, SAN会使用多头注意力机制。

在FFN当中,每一个

的计算都是独立于其他的输入的。具体来说,它由两个全连接层组成。

定义一类新网络: Mask Attention Networks

我们在SAN的注意力函数的基础上定义带遮罩的注意力函数。

其中M是一个遮罩矩阵,它既可以是静态的,也可以是动态的。

在这个新的遮罩矩阵的基础上,我们定义一类新网络: Mask Attention Networks(MANs)

其中F是激活函数,M^i是第i个注意力上的遮罩矩阵。

接下来我们来说明SAN和FFN都是MANs当中的特例。

从MANs的视角来看,对于SAN,我们令

这个时候MANs可以写成下面的形式。这个结果告诉我们SAN是MANs当中固定遮罩矩阵为全1的特例

对于FFN,我们令

那么得到SAN是MANs当中固定遮罩矩阵为单位阵的特例。

SAN和FFN在局部建模上的问题

直观上来说,因为FFN的遮罩矩阵是一个单位阵,所以FFN只能获取自身的信息而无法获知邻居的信息。对于SAN,每一个token都可以获取到句子其它的所有token的信息。我们发现不在邻域当中的单词也有可能得到一个相当大的注意力得分。因此,SAN可能在语义建模的过程当中引入噪声,进而忽视了局部当中的有效信号

动态遮罩注意力网络

显然地我们可以通过静态的遮罩矩阵来使模型只考虑特定邻域内的单词,从而达到更好的局部建模的效果。但是这样的方式欠缺灵活性,考虑到邻域的大小应该随着query token来变化,所以我们构建了下面的策略来动态地调节邻域的大小。

其中是当前的层数,是当前的注意力head, 和分别是两个和的位置。都是可学习的变量。

组合Mask Attention Networks当中的各类网络结构

我们采用下图的方式来组合这三种网络结构。

8614737c-a295-11eb-aece-12bb97331649.png

实验

我们的实验主要分为两个部分,机器翻译和文本摘要。

机器翻译

我们在IWSLT14 De-En和WMT14 En-De上分别对我们的模型进行了验证。相比于Transformer,我们的模型在base和big的参数大小设定下,分别取得了1.8和2.0的BLEU的提升。

文本摘要

在文本摘要的任务上,我们分别在CNN/Daily Mail和Gigaword这两个数据集上分别进行了验证。相比于Transformer,我们的模型在R-avg上分别有1.5和0.7的效果提升。

对比不同的子网络堆叠方式

87275a4a-a295-11eb-aece-12bb97331649.png

我们对比了一些不同的子网络堆叠方式的结果。从这张表中我们可以发现:

C#5,C#4,C#3》C#1,C#2,这说明DMAN的参与可以提高模型的效果。

C#5,C#4》C#3,C#2,说明DMAN和SAN有各自的优点,它们分别更擅长全局建模和局部建模,所以可以更好地合作来增强彼此。

C#5》C#4,说明先建模局部再全局比相反的顺序要更好一些。

87364faa-a295-11eb-aece-12bb97331649.png

我们比较了两组不同的静态遮罩策略。

SMAN1:遮盖距离超过b的所有单词,,为句子长度。

SMAN2:b=4。

从结果来看,我们发现DMAN的效果远远好于上述两种静态遮罩方法,这说明给不同的单词确实在邻域的建模上确实存在差异。

结论

在这篇论文当中,我们介绍了遮罩注意力网络(MANs)来重新审视SAN和FFN,并指出它们是MANs的两种特殊情况。我们进而分析了两种网络在局部建模上的不足,并提出使用动态遮罩的方法来更好地进行局部建模。考虑到SAN,FFN和DMAN不同的优点,我们提出了一种DMAN-》SAN-》FFN的方式来进行建模。我们提出的模型在机器翻译和文本摘要上都比transformer取得了更好的效果。

原文标题:遮罩注意力网络:对Transformer的再思考与改进

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 网络
    +关注

    关注

    14

    文章

    8130

    浏览量

    93091
  • Transforme
    +关注

    关注

    0

    文章

    12

    浏览量

    8941

原文标题:遮罩注意力网络:对Transformer的再思考与改进

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    美国国际贸易委员会裁定英飞凌在针对英诺赛科的一项专利侵权案中胜诉

    美国国际贸易委员会的最终裁定可能导致英诺赛科涉嫌侵权的产品被禁止进口至美国 该裁决是又一项积极结果,彰显了英飞凌在业界领先的专利组合的价值 氮化镓 (GaN) 在实现高性能、高能效功率系统方面发挥
    的头像 发表于 12-04 17:23 609次阅读

    算法工程师不愿做标注工作,怎么办?

    对于算法而言,图像标注是一项关键性工作,越是大量的新数据集标注,对于算法的性能提升越有帮助。但是图像标注是一项极其费时费力的工作,特别是遇到稍微复杂的场景时,长时间的重复
    的头像 发表于 12-02 17:56 230次阅读
    算法工程师不愿做标注<b class='flag-5'>工作</b>,怎么办?

    Transformer如何让自动驾驶变得更聪明?

    ]自动驾驶中常提的Transformer本质上是种神经网络结构,最早在自然语言处理里火起来。与卷积神经网络(CNN)或循环神经网络(RNN)不同,Transformer能够自动审视所有输入信息,并动态判断哪些部分更为关键,同时
    的头像 发表于 11-19 18:17 1902次阅读

    易飞扬获得一项有源电缆系统的关键发明专利

    讯:易飞扬于近日获得一项专用于AI&DC 互连系统的关键发明专利。这项名为“有源电缆和通信系统”的专利,确切的商业名称为:混合技术架构等效有源电缆(Hybrid ACC+)。该专利结合了现今
    的头像 发表于 09-16 10:54 433次阅读
    易飞扬获得<b class='flag-5'>一项</b>有源电缆系统的关键发明专利

    知行科技机器人业务新获一项合作

    近日,知行科技的机器人业务新获一项合作,国内头部机器人公司委托开发背包式机器人全栈解决方案。
    的头像 发表于 09-03 18:12 623次阅读

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这话题
    的头像 发表于 08-13 09:15 3917次阅读
    自动驾驶中<b class='flag-5'>Transformer</b>大模型会取代深度学习吗?

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    、模型架构 在阅读第三章关于 DeepSeek 的模型架构部分时,我仿佛打开了扇通往人工智能核心构造的大门。从架构图中,能清晰看到 Transformer 块、前馈神经网络、注意力
    发表于 07-20 15:07

    华为Pura80发布,一项卡脖子传感器技术获突破,一项传感器技术仍被卡脖子!

    与Mate系列并列的旗舰机型,华为选择了在苹果WWDC 25的次日举行发布会,可见华为对Pura 80系列手机的重视,以及“硬钢”苹果的信心。   而在此前,从网络信息看,大家对华为Pura 80系列手机的期待和看点中,有两大热点与此前华为被卡脖子的两个传感器技术相关。 其中,一项卡脖子
    的头像 发表于 06-11 19:15 2423次阅读
    华为Pura80发布,<b class='flag-5'>一项</b>卡脖子传感器技术获突破,<b class='flag-5'>一项</b>传感器技术仍被卡脖子!

    Transformer架构中编码器的工作流程

    编码器是Transformer体系结构的基本组件。编码器的主要功能是将输入标记转换为上下文表示。与早期独立处理token的模型不同,Transformer编码器根据整个序列捕获每个token的上下文。
    的头像 发表于 06-10 14:27 822次阅读
    <b class='flag-5'>Transformer</b>架构中编码器的<b class='flag-5'>工作</b>流程

    Transformer架构概述

    由于Transformer模型的出现和快速发展,深度学习领域正在经历场翻天覆地的变化。这些突破性的架构不仅重新定义了自然语言处理(NLP)的标准,而且拓宽了视野,彻底改变了AI的许多方面。
    的头像 发表于 06-10 14:24 955次阅读
    <b class='flag-5'>Transformer</b>架构概述

    智慧梁场监测管理系统作为一项重要技术使梁场管理更加智能

           随着科技的不断进步,智能化技术在公路梁场建设中的应用日益广泛,智慧梁场监测管理系统作为一项重要技术,正在推动梁场建设向更高效、更智能、更安全的方向发展。本文将详细介绍智慧梁场监测管理
    的头像 发表于 03-10 09:11 709次阅读

    如何使用MATLAB构建Transformer模型

    LanguageProcessing, NLP)中的序列到序列任务,如机器翻译。Transformer 通过引入自注意力机制使得处理长距离依赖关系时变得高效。因此 Vaswani 等人的论文强调“注意力是所需的切”。
    的头像 发表于 02-06 10:21 5724次阅读
    如何使用MATLAB构建<b class='flag-5'>Transformer</b>模型

    ​ SLA立体光固化成型:一项实现3D打印领域高精度数字模型实体化的先锋技术

    发明。自创造以来,便以优异的快速成型特征和高精度表现,成为了一项实现复杂数字模型实体化的关键技术。它不仅突破了制造业的传统模具模式,还能在加速将设计概念转变成实际产品的同时,保持产品表面细节的精确再现
    发表于 01-09 18:57

    transformer专用ASIC芯片Sohu说明

    2022年,我们打赌说transformer会统治世界。 我们花了两年时间打造Sohu,这是世界上第个用于transformer(ChatGPT中的“T”)的专用芯片。 将transform
    的头像 发表于 01-06 09:13 1677次阅读
    <b class='flag-5'>transformer</b>专用ASIC芯片Sohu说明

    【面试题】人工智能工程师高频面试题汇总:Transformer篇(题目+答案)

    ,或者深度学习的框架,还有怎么优化模型,Transformer些知识,这些都是加分,能有效提高面试通过率。本篇小编整理了些高频的Transf
    的头像 发表于 12-13 15:06 2388次阅读
    【面试题】人工智能工程师高频面试题汇总:<b class='flag-5'>Transformer</b>篇(题目+答案)