0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种名为“普适注意力”的新翻译模型,用2D卷积网络做序列预测

DPVg_AI_era 来源:未知 作者:李倩 2018-08-27 08:41 次阅读

目前的机器翻译模型基于编码器-解码器系统结构,本文提出了一种名为“普适注意力”的新翻译模型,用2D卷积网络做序列预测,无论长句短句翻译结果都更好,使用的参数也更少。实验表明,新模型的总体表现优于目前最出色的解码器-编码器模型系统。

目前,最先进的机器翻译系统基于编码器-解码器架构,首先对输入序列进行编码,然后根据输入编码生成输出序列。两者都与注意机制接口有关,该机制基于解码器状态,对源令牌的固定编码进行重新组合。

本文提出了一种替代方法,该方法于跨两个序列的单个2D卷积神经网络。网络的每一层都根据当前的输出序列重新编码源令牌。因此,类似注意力的属性在整个网络中普遍存在。我们的模型在实验中表现出色,优于目前最先进的编码器-解码器系统,同时在概念上更简单,参数更少。

“普适注意力”模型及原理

我们的模型中的卷积层使用隐性3×3滤波器,特征仅根据先前的输出符号计算。图为经过一层(深蓝色)和两层(浅蓝色)计算之后的感受野,以及正常3×3滤波器(灰色)的视野的隐藏部分。

上图为具有两个隐藏层的解码器网络拓扑的图示,底部和顶部的节点分别表示输入和输出。水平方向连接用于RNN,对角线方向连接用于卷积网络。在两种情况下都会使用垂直方向的连接。参数跨时间步长(水平方向)共享,但不跨层(垂直方向)共享。

块级(顶部)和每个块(底部)内的DenseNet体系结构

令牌嵌入大小、层数(L)和增长率(g)的影响

无论是长句、短句,翻译结果都更好

与现有最佳技术的比较

我们将结果与表3中的现有技术进行了比较,包括德-英翻译(De-En)和英-德翻译(En-De)。我们的模型名为Pervasive Attention。除非另有说明,我们使用最大似然估计(MLE)训练所有模型的参数。对于一些模型,我们会另外报告通过序列水平估计(SLE,如强化学习方法)获得的结果,我们通常直接针对优化BLEU量度,而不是正确翻译的概率。

在不同句子序列长度上的表现

在上图中,我们将翻译质量视为句子长度的函数,并将我们的模型与RNNsearch、ConvS2S和Transformer进行比较。结果表明,我们的模型几乎在所有句子长度上都得到了最好的结果,ConvS2S和Transformer只在最长的句子上表现更好。总的来说,我们的模型兼备RNNsearch在短句中的强大表现,同时也接近ConvS2S和Transformer在较长句子上的良好表现。

隐性的句子对齐

上图所示为最大池化运算符在我们的模型中生成的隐式句子对齐。作为参考,我们还展示了我们的模型使用的“自我注意力”产生的对齐。可以看到,两种模型都成功定性地模拟了隐性的句子对齐。

我们的模型(L = 24,g = 32,ds = dt = 128),具有不同的池化操作符,使用门控卷积单元

在不同的滤波器尺寸k和深度L下,我们的模型(g = 32,ds = dt = 128)的表现。

与IWSLT德语-英语翻译模型的最新结果的比较。

(*):使用我们的实现获得的结果(**):使用FairSeq获得的结果。

脱离编码器-解码器范式,用DenseNet作机器翻译

我们提出了一种新的神经机器翻译架构,该架构脱离了编码器-解码器范例。我们的模型将源序列和目标序列联合编码为深度特征层次结构,其中源令牌嵌入到部分目标序列的上下文中。沿源维度对此联合编码进行最大池化,将相关要素映射到下一个目标令牌的预测。该模型实现基于DenseNet的2D CNN。

由于我们的模型会结合语境,对每一层当前生成的目标序列的输入令牌重新编码,因此该模型网络构造的每层中都具有“类似注意力”(attention-like)的属性。

因此,添加明确的“自注意模块”具有非常有限、但十分积极的效果。然而,我们模型中的最大池化运算符生成的隐式句子对齐,在性质上与注意力机制生成的对齐类似。我们在IWSLT'14数据集上评估了我们的模型,将德-英双语互译。

我们获得的BLEU分数与现有最佳方法相当,我们的模型使用的参数更少,概念上也更简单。我们希望这一成果可以引发对编码器-解码器模型的替代方案的兴趣。在未来,我们计划研究混合方法,其中联合编码模型的输入不是由嵌入向量提供的,而是1D源和目标嵌入网络的输出。

未来我们还将研究如何该模型来跨多语种进行翻译。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 滤波器
    +关注

    关注

    158

    文章

    7321

    浏览量

    174750
  • 编码器
    +关注

    关注

    41

    文章

    3359

    浏览量

    131471
  • 机器翻译
    +关注

    关注

    0

    文章

    138

    浏览量

    14793

原文标题:机器翻译新突破!“普适注意力”模型:概念简单参数少,性能大增

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    机器翻译三大核心技术原理 | AI知识科普 2

    了额外的机制——注意力机制,来帮助我们进行调序。下面我们张示意图来看下,基于RNN的神经机器翻译的流程:首先我们通过分词得到输入源语言
    发表于 07-06 10:46

    如何同时获取2d图像序列和相应的3d点云?

    如何同时获取2d图像序列和相应的3d点云?以上来自于谷歌翻译以下为原文How to obtain the sequence of 2d im
    发表于 11-13 11:25

    基于labview的注意力分配实验设计

    毕设要求做注意力分配实验设计。有些结构完全想不明白。具体如何实现如下。个大概5*5的灯组合,要求随机亮。两个声音大小不同的音频,要求随机响,有大、小两个选项。以上两需要记录并计
    发表于 05-07 20:33

    机器翻译不可不知的Seq2Seq模型

    (Attention)2、Encoder-Decoder整个过程可以下面这张图来诠释:图 1:最简单的Encoder-Decoder模型其中,X、Y均由各自的单词序列组成(X,Y可以
    发表于 07-20 04:00

    卷积神经网络模型发展及应用

    神经网络已经广泛应用于图像分类、目标检测、语义分割以及自然语言处理等领域。首先分析了典型卷积神经网络模型为提高其性能增加网络深度以及宽度的
    发表于 08-02 10:39

    你了解在单GPU上就可以运行的Transformer模型

    的邻居:在深度学习中,注意力一种机制,它使网络能够根据上下文的不同部分与当前时间步长之间的相关性,将注意力集中在上下文的不同部分。transformer
    发表于 11-02 15:19

    探索一种降低ViT模型训练成本的方法

    对架构的更改,以加快训练。(1)ViT architectureVanilla Transformer接收token嵌入的1D序列作为输入。为了处理2D图像,ViT模型将每个输入图像分
    发表于 11-24 14:56

    自回归滞后模型进行多变量时间序列预测案例分享

    wine。如何建立模型来进行预测呢?  一种常见的方法是将该变量其视为单变量时间序列。这样就有很多方法可以用来模拟这些系列。比如 AR
    发表于 11-30 15:33

    利用卷积调制构建一种新的ConvNet架构Conv2Former

    1、利用卷积探索一种更高效的编码空域特征的方式  本文旨在通过充分利用卷积探索一种更高效的编码空域特征的方式:通过组合ConvNet与ViT的设计理念,本文利用
    发表于 12-19 17:37

    介绍一种用于密集预测的mlp架构CycleMLP

    保持了计算效率和灵活性,flop和参数数均与空间尺度呈线性关系。与Transformer中的MHSA比较受 Cordonnier ICLR’20 的启发,具有 Nh 个头的多头自注意力 (MHSA) 层
    发表于 02-09 16:28

    循环神经网络卷积神经网络注意力文本生成变换器编码器序列表征

    序列表征循环神经网络卷积神经网络注意力文本生成变换器编码器自注意力解码器自
    的头像 发表于 07-19 14:40 2987次阅读
    循环神经<b class='flag-5'>网络</b><b class='flag-5'>卷积</b>神经<b class='flag-5'>网络</b><b class='flag-5'>注意力</b>文本生成变换器编码器<b class='flag-5'>序列</b>表征

    基于选择机制的自注意力网络模型

    注意力网络(SANs)在许多自然语言处理任务中取得显著的成功,其中包括机器翻译、自然语言推理以及语义角色标注任务。
    的头像 发表于 08-31 10:45 4718次阅读
    基于选择机制的自<b class='flag-5'>注意力</b><b class='flag-5'>网络</b><b class='flag-5'>模型</b>

    基于多层CNN和注意力机制的文本摘要模型

    基于注意力机制的编解码模型在文本摘要、杌器翻译序列序列任务上得到了广泛的应用。在深度学习框架中,深层神经
    发表于 04-07 11:35 2次下载
    基于多层CNN和<b class='flag-5'>注意力</b>机制的文本摘要<b class='flag-5'>模型</b>

    基于循环卷积注意力模型的文本情感分类方法

    和全局信息。文中针对单标记和多标记情感分类任务,提出一种循环卷积注意力模型( LSTM-CNN-ATT,LCA)。该模型利用
    发表于 04-14 14:39 10次下载
    基于循环<b class='flag-5'>卷积</b><b class='flag-5'>注意力</b><b class='flag-5'>模型</b>的文本情感分类方法

    基于注意力机制等的社交网络热度预测模型

    基于注意力机制等的社交网络热度预测模型
    发表于 06-07 15:12 14次下载