0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于选择机制的自注意力网络模型

深度学习自然语言处理 来源:博客 作者:哈工大SCIR 2020-08-31 10:45 次阅读

1. 简介

自注意力网络(SANs)在许多自然语言处理任务中取得显著的成功,其中包括机器翻译、自然语言推理以及语义角色标注任务。相比传统的循环神经网络以及卷积神经网络,自注意力网络优势在于其高度的运算并行性以及更加灵活的建模输入元素的依存关系能力。传统的自注意力网络模型在计算每个元素的表示的时候,将所有的输入的元素考虑在内,而不管其对于当前元素的相关性。本问题提出通用的基于选择机制的自注意力网络模型(SSANs),其可以针对每个计算表示的元素,动态地选择其相关性的子集,以此作为输入进行后续的自注意力网络的计算。实验结果显示,SSANs模型在多个典型的自然语言处理任务上相比传统的自注意力网络模型获得提升。通过多个探测任务进行分析,SSANs相比传统的SANs模型有更强的词序信息编码能力以及结构信息建模能力。

2. 模型结构

2.1 传统的自注意力网络

现在的自注意力网络是传统的注意力网路的特例,其计算注意力权重的两个元素来源同样的输入序列。给定输入隐层表示,自注意力网络SANs首先将H分别线性变换成、以及。自注意力网络的输出O计算过程如下:

其中是基于点积的注意力机制,其计算过程如下:

其中√d是缩放因子且d是隐含层状态表示的维度。传统的自注意力网络结构如图 1所示。

图1 传统的自注意力网络框架

2.2 基于选择机制的自注意力网络

相比传统的自注意力网络,本文引入一个选择器模块(Selector),其主要针对每个待计算表示的元素,动态地选择输入元素的集合中的一个子集作为其相关元素集合,基于此集合进行后续的常规的自注意力网络的计算,其整体的框架如图 2所示。

图2 基本自注意力机制的自注意力网络框架

选择器模块本文使用额外的策略网络参数化选择动作,其中表示其对应的元素被选择进行后续的常规的自注意力网路的计算,而则代表相应的元素未被选中。其输出动作序列计算过程如下:

其中以及是线性变换的结果。本文使用sigmoid作为激活函数计算策略分布。通过使用额外的选择器模块,SSANs的注意力权重计算过程如下:

最终基于选择机制的自注意力网络的输出计算过程如下:

Gumbel-Sigmoid本文使用gumbel-softmax对隐含变量A的梯度进行评估,其主要将离散的采样过程连续化,这样使用正常的BP算法就可以实现对其梯度评估。相比REINFORCE算法,其稳定性更高。本文策略网络使用sigmoid作为激活函数,其可以看作是softmax的特例,从而依据gumbel-softmax函数计算方法,可以推导出gumbel-sigmoid形式如下:

其中G'和G''是gumbel noise。

3 实验结果

基于选择机制的自注意力网络模型在三个典型的NLP任务上取得一致的提升。特别的,在机器翻译任务上,SSANs在三个英语到其他语言的翻译上超过传统的SANs模型。在英语=>罗马尼亚以及英语=>日语的翻译任务上,SSANs分别获得+0.69和+0.61 BLEU提升。此外,在相对规模比较大的英=>德翻译任务上,SSANs也获得一致的提升(+0.90 BLEU)。

表1 基于选择的自注意力网络模型在不同任务上的结果

4 实验分析

4.1 词序信息编码能力评价

为了评价SSANs的对于局部词序信息以及全局词序信息编码的能力,本文引入两个特定的检测任务分别评价模型对于两种类型信息编码的能力。其中,局部词序信息检测任务目标是分类是否句子中存在两个相邻词的进行交换,而全局词序信息检测任务随机选择句子中的某个词语,并将其插入到另一个位置,而任务的目标就是通过分类找到被插入的词汇以及其原来所在的位置。实验结果显示,SSANs在两个任务上,相比传统的SANs,均取得较大的提升。通过分析其相应的自注意力网络权重发现,SSANs能够根据任务将更多的注意力权重分配到重要的信息建模上。

表2 局部信息检测任务实验结果

图3 局部信息检测任务注意力权重分布 表3 全局信息检测任务实验结果

图4 全局信息检测任务注意力权重分布

4.2 结构信息建模能力评价

为了评价SSANs对于结构信息的建模能力,本文首先引入两个检测任务评价模型对于结构信息的捕捉能力。其中一个任务目标是测试模型是否可以根据组合语法树的深度对于输入的句子进行分类,而另一个任务的目标是对输入句子按照其组合语法树根节点之下的成分类型进行分类。实验结果发现,SSANs在两种类型的任务上均取得提升,并且对于复杂的问题有更好处理能力。此外,模型根据注意力网络的权重构建组合语法树,SSANs构建的语法树质量好于SANs模型的结果。

表4 组合语法树深度预测任务实验结果

表5 组合语法树成分类型预测任务实验结果

5 结论

本文提出一种通用的基于选择机制的自注意力网络模型,其可以针对每个计算表示的元素,动态地选择其相关性的子集,以此作为输入进行后续的自注意力网络的计算。其在多个自然语言任务上,与传统的自注意力网络相比,取得一致提升。通过实验分析发现,基于选择机制的自注意力网络可以在一定程度上缓解注意力网络存在的词序信息编码和结构信息建模能力不足的问题。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器翻译
    +关注

    关注

    0

    文章

    138

    浏览量

    14794
  • 网络模型
    +关注

    关注

    0

    文章

    39

    浏览量

    8347

原文标题:【工大笔记】ACL20 如何使用选择机制提升自注意力网路能力?

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    DeepMind为视觉问题回答提出了一种新的硬注意力机制

    然而,在基于梯度的学习框架(如深度学习)中存在一个关键的缺点:因为选择要处理的信息的过程是离散化的,因此也就是不可微分的,所以梯度不能反向传播到选择机制中来支持基于梯度的优化。目前研究人员正在努力来解决视觉注意力、文本
    的头像 发表于 08-10 08:44 6022次阅读

    深度分析NLP中的注意力机制

    注意力机制越发频繁的出现在文献中,因此对注意力机制的学习、掌握与应用显得十分重要。本文便对注意力机制
    的头像 发表于 02-17 09:18 3614次阅读

    基于注意力机制的深度兴趣网络点击率模型

    广告点击率(CTR)是互联网公司进行流量分配的重要依据,针对目前点击率预估精度较低的问题,结合通用的神经网络解决方案,构建一种基于注意力机制的深度兴趣网络(ADIN)
    发表于 03-12 10:55 5次下载
    基于<b class='flag-5'>注意力</b><b class='flag-5'>机制</b>的深度兴趣<b class='flag-5'>网络</b>点击率<b class='flag-5'>模型</b>

    基于注意力机制的深度学习模型AT-DPCNN

    情感分析是自然语言处理领域的一个重要分支,卷积神经网络(CNN)在文本情感分析方面取得了较好的效果,但其未充分提取文本信息中的关键情感信息。为此,建立一种基于注意力机制的深度学习模型A
    发表于 03-17 09:53 12次下载
    基于<b class='flag-5'>注意力</b><b class='flag-5'>机制</b>的深度学习<b class='flag-5'>模型</b>AT-DPCNN

    基于异质注意力的循环神经网络模型

    表示方法 Transr,分别将文本数据和关系网络嵌入到高维向量中作为模型的输入。在编码器阶段,使用双向GRU将用户的短期兴趣引入到推荐模型中,并将注意力
    发表于 03-19 14:50 9次下载
    基于异质<b class='flag-5'>注意力</b>的循环神经<b class='flag-5'>网络</b><b class='flag-5'>模型</b>

    基于特征图注意力机制的图像超分辨重建网络模型

    图像超分辨率重建中的高频分量通常包含较多轮廓、纹理等细节信息,为更好地处理特征图中的高频分量与低频分量,实现自适应调整信道特征,提岀一种基于特征图注意力机制的图像超分辨重建网络模型。利
    发表于 03-22 14:45 22次下载
    基于特征图<b class='flag-5'>注意力</b><b class='flag-5'>机制</b>的图像超分辨重建<b class='flag-5'>网络</b><b class='flag-5'>模型</b>

    基于语音、字形和语义的层次注意力神经网络模型

    神经网络、双向门控循环单元和注意力机制提取 PFSHAN模型的语音、字形和语义特征。在特征融合阶段,针对不同单词对幽默语言学特征的贡献程度不同,且不同幽默语言学特征和语句之间关联程度不
    发表于 03-26 15:38 14次下载
    基于语音、字形和语义的层次<b class='flag-5'>注意力</b>神经<b class='flag-5'>网络</b><b class='flag-5'>模型</b>

    基于层次注意力机制的多模态围堵情感识别模型

    识别模型。在音频模态中加人频率注意力机制学习频域上下文信息,利用多模态注意力机制将视频特征与音频特征进行融合,依据改进的损失函数对模态缺失问
    发表于 04-01 11:20 8次下载
    基于层次<b class='flag-5'>注意力</b><b class='flag-5'>机制</b>的多模态围堵情感识别<b class='flag-5'>模型</b>

    基于多层CNN和注意力机制的文本摘要模型

    基于注意力机制的编解码模型在文本摘要、杌器翻译等序列到序列任务上得到了广泛的应用。在深度学习框架中,深层神经网络能够提取输λ数据不冋的特征表示,因此传统编解码
    发表于 04-07 11:35 2次下载
    基于多层CNN和<b class='flag-5'>注意力</b><b class='flag-5'>机制</b>的文本摘要<b class='flag-5'>模型</b>

    基于注意力机制和本体的远程贾璐关系抽取模型

    关系抽取是从非结构化的文本中抽取关系,并以结构化的形式输岀。为了提高抽取准确性并降低对工标注的依赖,提出了基于注意力机制和本体的远程监督关系抽取模型( APCNNS+OR)。该模型分为
    发表于 04-12 14:30 14次下载
    基于<b class='flag-5'>注意力</b><b class='flag-5'>机制</b>和本体的远程贾璐关系抽取<b class='flag-5'>模型</b>

    基于注意力机制等的社交网络热度预测模型

    基于注意力机制等的社交网络热度预测模型
    发表于 06-07 15:12 14次下载

    基于注意力机制的跨域服装检索方法综述

    基于注意力机制的跨域服装检索方法综述
    发表于 06-27 10:33 2次下载

    基于注意力机制的新闻文本分类模型

    基于注意力机制的新闻文本分类模型
    发表于 06-27 15:32 29次下载

    基于非对称注意力机制残差网络的图像检测

    基于非对称注意力机制残差网络的图像检测
    发表于 07-05 15:29 8次下载

    计算机视觉中的注意力机制

    计算机视觉中的注意力机制 卷积神经网络中常用的Attention 参考 注意力机制简介与分类 注意力
    发表于 05-22 09:46 0次下载
    计算机视觉中的<b class='flag-5'>注意力</b><b class='flag-5'>机制</b>