基于门控图神经网络的图序列学习-电子发烧友网

ACL 2018 Long Papers

基于门控图神经网络的图序列学习

Graph-to-Sequence Learning using Gated Graph Neural Networks

墨尔本大学

University of Melbourne

本文是澳大利亚墨尔本大学发表于 ACL 2018 的工作，提出了一个在图中编码完整结构信息的新模型，将门控图神经网络与输入变换耦合，该输入变换允许节点和边缘具有它们自己的隐层表示，并解决了先前工作中存在的参数爆炸问题。实验结果表明，在AMR图和基于句法的神经机器翻译中，本文模型优于业内的最好方法。

1 引言

图结构普遍存在于自然语言的表示中。尤其是，许多句子的语义框架使用有向无环图作为基础形式，而大多数基于树的句法表示也可以看作图。NLP应用的范围可以看作将图结构转换成序列的过程。例如，句法机器翻译需要将带树形标注的源语句转换为其翻译。

前人工作大多依赖于基于语法的方法，如tree transducers和超边替换文法。这些方法的一个关键限制是需要在图形节点和tokens之间进行对齐。这些对齐通常是自动生成的，构建语法时会传播错误。

在本文中，我们提出了一个图到序列（g2s）学习模型，该模型利用神经编码器-解码器架构的最新进展。具体地说，我们采用了一种基于门控图神经网络的编码器，它能够在不损失信息的情况下生成完整的图结构。这样的网络用边的信息作为标注参数，即使对于小规模标注词汇（按几百的顺序）来说，这都可能是有问题的。为了解决这个问题，本文还引入了一个图形变换，将边改变到其他节点，解决了参数爆炸问题。这也确保了边具有特定于图的隐藏向量，给网络中的注意力和解码模块提供更多信息。

我们将本文模型与两个图序列问题进行比较，即摘要意义表示（AMRS）和基于源依存的信息神经机器翻译（NMT）。与以前的工作相比，我们的方法在不依赖于标准RNN编码的情况下，优于两个任务中的强大的S2S基线。特别地，对于NMT，我们发现，通过在依存树中添加相邻单词之间的连续边，避免了对RNNs的需要。这说明了我们的方法的适用性：可以通过简单的图形变换将语言偏差添加到输入，而不需要对模型体系结构进行改变。

2 模型

本文架构图如下所示，以AMR图为例，并将其转换为其表面形式。与标准的S2S模型相比，主要的差别在于编码器，在这里我们使用GGNN来构建图形表示。在下文中，我们将详细解释该体系结构的组件。

门控图神经网络

关于图的递归网络的早期方法假设参数的不动点表示并使用contraction maps学习。而这限制了模型的容量，使得学习节点间的长距离关系变得很困难。为了解决这些问题，提出了门控图神经网络，以与门控递归单元类似的方式用门控机制扩展了这些结构。这允许通过现代反向传播过程学习网络。

给定有向图

，

是节点

的集合，

是边

的集合，

和

分别代表节点和边的词汇表。给定一个输入图，节点嵌入为

，GGNN定义如下：

在注意力编码阶码模型中使用GGNNs

在S2S模型中，输入是tokens序列，其中每个token由嵌入向量表示。然后，编码器通过合并上下文（通常通过递归或卷积网络）将这些向量转换为隐藏状态表示。这些被馈送到注意力机制中，产生单个上下文向量，通知解码器中的下一步操作。

我们的模型遵循类似的结构，其中编码器是一个GGNN，它接收节点嵌入作为输入，并使用图结构作为上下文，生成节点隐藏状态作为最终输出。从上图的示例中可以看出，我们在AMR图中每个节点上有4个隐藏向量。注意力和解码器组件遵循类似的标准s2s模型，其中我们使用双线性注意机制和2层LSTM作为解码器。

双向和位置嵌入

虽然我们的体系结构在理论上可以与一般图一起使用，但是有根有向无环图（DAG）可以说是我们所处理的问题中最常见的一类。这意味着节点嵌入信息以自上而下的方式传播。在这项工作中，我们也遵循这一过程，确保信息均匀地在图中传播。然而，这又带来了另一个限制：因为图形基本上是无方向的，所以编码器现在不知道输入中存在的任何内在层次结构。受Geern等人的启发，本文通过在每个节点中加入位置嵌入来解决这个问题。这些嵌入被表示为与根节点的最小距离的整数值索引，并且被学习为模型参数。这种位置嵌入被限制为有根DAG：对于一般图，可以使用不同的距离概念。

Levi Graph Transformation

本文提出将输入图转换为等价Levi图。给定一个图

，Levi图定义为

，

，新的边集合

包含出现在原始图中的每一个（node，edge）对的一个边。

直观地，将图转换成其Levi图等价为将边转换为附加节点。因为Levi图没有标记的边，所以没有参数爆炸的风险：原始的边标签以与节点相同的方式表示为嵌入。此外，编码器自然生成原始边的隐藏状态。图2详细地展示了转换步骤。

3 实验

我们使用最新的AMR语料，包含36521/1368/1371个训练、开发和测试集合的切分。每一个图首先使用一个包含实体简化和匿名现象的方法。这个预处理步骤在将图转换为等价Levi图之前进行。对于s2s基线，我们也同样添加了范围标记。本文的基线模型采用基于注意力机制的s2s模型。对于g2s模型，设置GGNN编码器层次为8。维度设置为512，GGNN编码器为576。所以模型都使用Adam进行训练，初始学习率设置为0.0003，batch大小设置为16。本文使用BLEU进行评价，采用bootstrap resampling检查统计的重要性。

下图展示了在测试集上的结果。当使用相当数量的参数时，我们的方法在单个模型和集成中都显著优于s2s基线。

在图3中，我们展示了一个例子，我们的模型优于基线。AMR图包含四个重新引用，谓词引用图中先前定义的概念。我们可以看到，S2S预测超越了“India and China”这一短语。G2S预测避免了超生成，并且几乎完全匹配参考。虽然这只是一个示例，但是它提供了保留完整的图形结构对这个任务有益的证据，我们的定量结果证实了这一点。

我们的第二个评价是NMT，使用AS图源语言依赖句法树。在专注于一个媒体资源的情况下，额外的语言信息往往更有益。我们的实验包括两种语言对：英语德语和英语捷克语。下图显示了g2s+的输入图的示例，其中附加的顺序边连接单词（为了简单起见，省略了反向和自身边）。上部：具有相应的依赖树的句子。底部：转换后的树变成Levi图，在单词（虚线）之间有附加的顺序连接。完整的图还包含反向和自边缘，在图中省略。

下表显示了这两种语言对在测试集上的结果。不考虑序列信息的G2S模型落后于我们的基线。另外。我们发现BNNN层是获得最佳结果的关键。然而，在相同的参数预算下，在单个模型和集成场景中，g2s+模型在BLEU得分方面优于基线。这个结果表明，在不依赖于RN或体系结构中的任何其他修改的情况下，在我们的模型中合并顺序偏差是可能的。

有趣的是，分析CHRF++数时我们发现了不同的趋势。这个度量在两种语言对上都展示了PB-SMT模型的优势，同时在En-Cs中还显示了s2s的改进性能。在两个语言对中，无论是在系统层面还是句子层面上，CHRF++已经显示出更好的与人类判断相联系的BLEU。

4 总结

我们提出一种新的用于图到序列学习的编码器-解码器结构，在两个NLP任务中的表现都优于基线：AMR图生成和基于语法的NMT。我们的方法解决了以前工作中的线性信息丢失、参数爆炸等缺点。我们还特别展示了图转换如何在不改变底层架构的情况下解决基于图的网络的问题。这就是所提出的Levi图转换的情况，它确保解码器可以关注边和节点，而且在NMT的情况下也可以关注添加到依赖树的顺序连接。总的来说，因为我们的体系结构可以处理一般的图，所以以额外的节点和/或边信息的形式添加语言偏差是很简单的。我们相信这在应用方面是一个有趣的研究方向。

然而，我们的架构有两个主要的限制。第一种是GGN具有固定数量的层，即使图在节点和边的数量方面可以改变大小。更好的方法是允许编码器具有动态数量的层，可能基于输入图中的直径（最长路径）。第二个限制来自Levi图转换：因为边标签表示为节点，所以它们最终共享词汇表，因此共享相同的语义空间。但这是不理想的，因为节点和边是不同的实体。一个有趣的替代方案是Weave Module Networks，它显式地解耦节点和边表示，而不会引起参数爆炸。未来工作中，我们考虑将这两种思想结合到我们的架构中。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

解码器

解码器

+关注

关注
9

文章
1073

浏览量
40129
编码器

编码器

+关注

关注
41

文章
3352

浏览量
131411
神经网络

神经网络

+关注

关注
42

文章
4558

浏览量
98605

神经网络教程（李亚非）

源程序　　5.3 Gaussian机　　第6章自组织神经网络　　6.1 竞争型学习　　6.2 自适应共振理论(ART)模型　　6.3 自组织特征映射(SOM)模型　　6.4 CPN模型　　第7章联想

发表于 03-20 11:32

labview BP神经网络的实现

请问：我在用labview做BP神经网络实现故障诊断，在NI官网找到了机器学习工具包（MLT），但是里面没有关于这部分VI的帮助文档，对于”BP神经网络分类“这个范例有很多不懂的地方，比如

发表于 02-22 16:08

AI知识科普 | 从无人相信到万人追捧的神经网络

误差反向传播算法的学习过程，由信息的正向传播和误差的反向传播两个过程组成，是一种应用最为广泛的神经网络。先来看一下BP神经网络的流程图：由BP神经网

发表于 06-05 10:11

【PYNQ-Z2试用体验】神经网络基础知识

学习和认知科学领域，是一种模仿生物神经网络（动物的中枢神经系统，特别是大脑）的结构和功能的数学模型或计算模型，用于对函数进行估计或近似。神经网络由大量的人工

发表于 03-03 22:10

神经网络资料

基于深度学习的神经网络算法

发表于 05-16 17:25

【案例分享】ART神经网络与SOM神经网络

今天学习了两个神经网络，分别是自适应谐振（ART）神经网络与自组织映射（SOM）神经网络。整体感觉不是很难，只不过一些最基础的概念容易理解不清。首先ART

发表于 07-21 04:30

【AI学习】第3篇--人工神经网络

`本篇主要介绍：人工神经网络的起源、简单神经网络模型、更多神经网络模型、机器学习的步骤：训练与预测、训练的两阶段：正向推演与反向传播、以TensorFlow + Excel表达训练流程

发表于 11-05 17:48

如何构建神经网络？

原文链接：http://tecdat.cn/?p=5725 神经网络是一种基于现有数据创建预测的计算系统。如何构建神经网络？神经网络包括：输入层：根据现有数据获取输入的层隐藏层：使用反向传播优化输入变量权重的层，以提高模型的预测

发表于 07-12 08:02

基于BP神经网络的PID控制

最近在学习电机的智能控制，上周学习了基于单神经元的PID控制，这周研究基于BP神经网络的PID控制。神经网络具有任意非线性表达能力，可以通过

发表于 09-07 07:43

卷积神经网络模型发展及应用

卷积神经网络模型发展及应用转载****地址：http://fcst.ceaj.org/CN/abstract/abstract2521.shtml深度学习是机器学习和人工智能研究的最新趋势，作为一个

发表于 08-02 10:39

一种基于高效采样算法的时序图神经网络系统介绍

成为了非常重要的问题。基于以上问题，本文提出了一种基于高效采样算法的时序图神经网络系统。首先我们介绍用于时序图神经网络采样的高效采样方法。采样常常被用于深度

发表于 09-28 10:34

如何进行高效的时序图神经网络的训练

现有的图数据规模极大，导致时序图神经网络的训练需要格外长的时间，因此使用多GPU进行训练变得成为尤为重要，如何有效地将多GPU用于时序图神经网络

发表于 09-28 10:37

卷积神经网络简介：什么是机器学习？

抽象人工智能（AI）的世界正在迅速发展，人工智能越来越多地支持以前无法实现或非常难以实现的应用程序。本系列文章解释了卷积神经网络 （CNN）及其在 AI 系统中机器学习中的重要性。CNN 是从

发表于 02-23 20:11

基于过拟合神经网络的混沌伪随机序列

伪随机序列在保密通信、扩频通信、密码学等领域具有重要作用。本文结合神经网络和混沌映射的特点，提出了一种基于过拟合BP 神经网络的混沌伪随机序列产生方法。以logist

发表于 12-22 14:12 •6次下载

端到端深度学习神经网络模型BiGRU-FCN

神经网络和循环神经网络中的双向门控循环单元，提岀了一个新的端对端深度学习神经网络模型 BIGRU-FCN，不需要对数据进行复杂的预处理，并且

发表于 06-11 16:40 •42次下载

搜索历史

基于门控图神经网络的图序列学习

评论

神经网络教程（李亚非）

labview BP神经网络的实现

AI知识科普 | 从无人相信到万人追捧的神经网络

【PYNQ-Z2试用体验】神经网络基础知识

神经网络资料

【案例分享】ART神经网络与SOM神经网络

【AI学习】第3篇--人工神经网络

如何构建神经网络？

基于BP神经网络的PID控制

卷积神经网络模型发展及应用

一种基于高效采样算法的时序图神经网络系统介绍

如何进行高效的时序图神经网络的训练

卷积神经网络简介：什么是机器学习？

基于过拟合神经网络的混沌伪随机序列

端到端深度学习神经网络模型BiGRU-FCN