一种新的神经机器翻译架构，它脱离了编码器-解码器的范畴-电子发烧友网

编者按：今天外网有一篇论文非常火，它提出了一种序列到序列预测的新方法，无需编码器和解码器，只用一个2D卷积神经网络就能超过现有方法的性能。当然，论文内容绝不是点赞的唯一理由……重点是，真的好萌

摘要

当前最先进的机器翻译系统都基于Encoder-Decoder框架：输入序列后，系统先对序列进行编码，然后基于输入序列的编码生成输出序列。为了让系统能基于解码器状态重新组合源语句单词的固定编码，现在编码器和解码器中间往往会有一个注意力模型。

我们提出了一种替代方法，它依赖于跨两个序列的单个2D卷积神经网络。网络的每一层都会根据到目前为止产生的输出序列重新编码源语句单词。因此，其实类似注意力的属性在整个网络中都是普遍存在的。实验证明，我们的模型产生了出色的结果，它优于最先进的Encoder-Decoder框架，同时，它在概念上更简单，参数也更少。

简介

现如今，深层神经网络对自然语言处理技术产生了深远的影响，其中以机器翻译（MT）最为明显。这是一种序列到序列的预测问题，解决它的最先进方法是使用带注意力模块的编码器-解码器模型。注意力模块能在解码过程中重复地重新访问源序列，提高模型的预测效率和精度。

但是，注意力机制存在局限。它的常规做法是在源语句上做简单加权，用到的权重也只是源单词和目标单词之间的浅匹配结果。它只能重新组合相同的源单词编码，在解码时并不能重新编码，也无法重新解释源序列。

为了解决这些局限，我们提出了一种基于深层2D卷积神经网络（CNN）的新方法。它和图像、音频生成模型的自回归模型类似，用源序列和目标序列的输出空间定义网络中的2D网格，同时禁止卷积filter从目标序列的单词中获得未来信息。具体如下图所示：

卷积层的filter大小是3×3，它只能根据先前的输出计算，不能读取目标序列内容。图中深蓝色表示一层感受野，浅蓝色是二层感受野，灰色部分是filter被禁止查看的部分

输入源-目标张量：设给定源语句的长度为|s|，目标对(s, t)的长度为|t|。首先，在ds和dt维空间中通过查找表嵌入词向量。整合两个空间，f0= dt+ ds，把嵌入的词向量{x1, . . . , x|s|}和{y1, . . . , y|t|}并成三维向量X∈R|t|×|s|×f0，其中，

这是卷积神经网络的输入。

卷积层：卷积层参考的是DenseNet的架构，这是图像分类任务上的最新技术。网络中的层都是密集连接的，这意味着不仅是最后一层，每个层都会把前一层的激活函数输出作为自己的输入，从而生成g特征映射。这个参数g是“增长率”，表示每层网络输出的附加通道数。

DenseNet架构

目标序列预测：从最初的f0特征映射开始，DenseNet中的每一层l∈{1, . . . , L}会产生一个大小为|t|×|s|×fl的张量，其中fl是该层的输出通道数。

为了计算输出中的单词分布，我们要折叠张量的第二维，因为它来自输入序列的可变长度，能检索每个目标位置的唯一编码。而做到这点的具体方法是添加一个最大池化层或对输入序列做平均池化。完成池化后，我们可以根据词典用特征进行预测。

实验结果

在实验阶段，我们测试了深层CNN和先进编码器-解码器机器翻译模型在IWSLT德英互译任务上的效果，数据如上表所示。其中Pervasive Attention是本文提出的方法。可以发现，无论是德译英还是英译德，各模型在BPE（字节对编码）上获得的所有结果都优于基于单词的结果。

而横向对比来看，Pervasive Attention和RNN Reasearch有相同的参数量，但前者的BLEU分数比后者高了近3点。Vaswani等人和Gehring等人提出的两个模型可以被看作是近期的最新研究，相比之前的记录，它们确实有不小的进步，但Pervasive Attention还是超过了它们，并且参数只有它们的1/3和1/8。

从计算成本看，Pervasive Attention和RNN Reasearch差不多；而convs2s由于进行了很好的优化，训练用时更短。

小结

本文提出了一种新的神经机器翻译架构，它脱离了编码器-解码器的范畴，能把源序列和目标序列联合编码为深度特征层次结构，其中源语句单词会被嵌入部分目标序列的上下文中。

总得来看，这是一个基于DenseNet的二维CNN，它具有类似注意力机制的属性，理念更简单，参数更好，性能也更好。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
41

文章
3360

浏览量
131529
神经网络

神经网络

+关注

关注
42

文章
4572

浏览量
98743
机器翻译

机器翻译

+关注

关注
0

文章
138

浏览量
14793

原文标题：Pervasive Attention：用于序列到序列预测的2D卷积神经网络

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

机器翻译三大核心技术原理 | AI知识科普

机器翻译、神经机器翻译。基于规则的机器翻译大概有三种技术路线，第一种是直接

发表于 07-06 10:30

机器翻译三大核心技术原理 | AI知识科普 2

是端到端序列生成模型，是将输入序列变换到输出序列的一种框架和方法。其核心部分有两点，一是如何表征输入序列（编码），二是如何获得输出序列（解码）。对于

发表于 07-06 10:46

机器翻译不可不知的Seq2Seq模型

前言Seq2Seq，全称Sequence to Sequence。它是一种通用的编码器——解码器框架，可用于机器翻译、文本摘要、会话建模、图像字幕等场景中。Seq2Seq并不是GNMT

发表于 07-20 04:00

怎么理解真正的编码器和解码器？

　　在进入关于编码器和解码器的现实之前，让我们对复用进行简要的思考。通常我们会在需要将一些输入信号一次一个地加载到

发表于 09-01 17:48

神经机器翻译的方法有哪些？

目前，神经机器翻译（NMT）已经成为在学术界和工业界最先进的机器翻译方法。最初的这种基于编码器-解码器架

发表于 11-23 12:14

神经机器翻译的编码-解码架构有了新进展，具体要怎么配置？

由景智AI编译。翻译/ 崔跃辉、叶倚青校对/ 叶倚青用于循环神经网络的编码-解码架构，在标准机器翻译

发表于 07-09 22:53 •259次阅读

美国一学校发表一篇机器翻译算法论文报告显示可解码神经活动并将其翻译为句子

据外媒报道，近日美国加州大学旧金山分校的Joseph Makin及同事在《自然-神经科学》上发表的一篇论文报告了一种能够以较高的准确率，解码神经活动并将其

发表于 03-31 14:01 •2166次阅读

PyTorch教程10.6之编码器-解码器架构

电子发烧友网站提供《PyTorch教程10.6之编码器-解码器架构.pdf》资料免费下载

发表于 06-05 18:12 •0次下载

PyTorch教程10.7之用于机器翻译的编码器-解码器Seq2Seq

电子发烧友网站提供《PyTorch教程10.7之用于机器翻译的编码器-解码器Seq2Seq.pdf》资料免费下载

发表于 06-05 18:14 •0次下载

PyTorch教程-10.6. 编码器-解码器架构

。图 10.6.1编码器-解码器架构。¶ 让我们以从英语到法语的机器翻译为例。给定一个英文输入序列：“They”、“are”、“watching”、“.”，这种

发表于 06-05 15:44 •574次阅读

PyTorch教程-10.7. 用于机器翻译的编码器-解码器 Seq2Seq

序列组成，我们通常依赖编码器-解码器架构（第10.6 节）。在本节中，我们将演示编码器-解码器架构

发表于 06-05 15:44 •569次阅读

基于transformer的编码器-解码器模型的工作原理

与基于 RNN 的编码器-解码器模型类似，基于 transformer 的编码器-解码器模型由一个编码器和一个

发表于 06-11 14:17 •1312次阅读

基于 Transformers 的编码器-解码器模型

基于 transformer 的编码器-解码器模型是表征学习和模型架构这两个领域多年研究成果的结晶。本文简要介绍了神经编码器-

发表于 06-16 16:53 •506次阅读

神经编码器-解码器模型的历史

基于 transformer 的编码器-解码器模型是表征学习和模型架构这两个领域多年研究成果的结晶。本文简要介绍了神经编码器-

发表于 06-20 15:42 •472次阅读

视频编码器与解码器的应用方案

视频解码器和视频编码器在数字通讯、音视频压缩领域有着广泛的应用。视频编码器作为视频源的发送端，若接收端如果是 PC 机或显示设备就需要通过解码器进行

发表于 08-14 14:38 •897次阅读