学习语言层级结构的深度模型ON-LSTM-电子发烧友网

5月9日，2019年的 ICLR（International Conference on Learning Representations）在美国新奥尔良落下帷幕。ICLR 诞生于 2013 年，在众多人工智能领域的会议中显得格外年轻。虽然创建时间短，在国内计算机科学研究者熟知的CCF列表中并未收录，但ICLR却势头迅猛，快速跻身机器学习顶级会议的行列。这其中最重要的原因就是它“出身不凡”，由刚刚获得2018 年度图灵奖的三巨头中的两位 Yoshua Bengio 与 Yann Lecun 组织建立，几年来吸引了大量优秀的科研人员。

学习语言层级结构的深度模型ON-LSTM

图丨2013年第一届ICLR会议网站主页上，Yoshua Bengio 与 Yann Lecun 联名发布的会议通告。

在2013年第一届 ICLR 会议的网站上，Yoshua Bengio 与 Yann Lecun 介绍了他们创办这一会议的初衷：机器学习方法的效果非常依赖于数据的表示（或称为特征）的选择。表示学习领域一直关注如何更好地学习到有意义的、优越的数据表示方法。尽管众多会议上都有与表征学习相关的主题，但缺少一个专注于这一主题的会议。因此，ICLR 在二人的牵头下被创立。也正是在2013年，Bengio 发表了关于表征学习的综述“Representation learning: A review and new perspectives”，总结了这一领域的成果。

表征学习在机器学习、人工智能领域有着相当重要的地位。早在1969年，诺贝尔经济学奖和图灵奖的获得者，人工智能、认知科学之父 Herbert A. Simon（司马贺）在其经典巨著“The Sciences of the Artificial”中，将人类的信息处理过程（包括解决问题，学习和发现新知识）抽象为非常简单的模型。

人类的信息处理过程与长期记忆和短期记忆密切相关。短期记忆是短期存储的记忆，长期记忆就是我们大脑中长期存储的知识，就像在图书馆中存储的海量文献。根据这个简单的信息处理模型，再加上计算机更快的计算速度和海量的存储空间，人工智能应该比人类更为强大才是。
但至少目前，我们看到的情况并非如此。这其中一个重要的原因就是我们还未能破解人类大脑究竟是如何对数据进行编码，对知识进行存储的。
处理外界信息的第一步就是要将其编码，投影到某一空间。比如说，当人类仅需要几个例子就可以区分驴和马的不同，而机器却需要大量数据训练时，我们不由得想要探寻：人类是如何对图像进行编码的？他提取了哪些特征可以通过少量样本进行学习？为什么人类学习的知识更灵活，可以在更多方面应用，而机器学习的模型通用性往往很差？这正是表征学习探索的目标：寻找对数据更好的表示方式。

目前深度学习面临着诸多的局限，如深度学习模型似乎无法处理层级结构，有人因此认为它不会通向真正的智能。而获得 ICLR2019 最佳论文奖的论文 “Ordered Neurons: Integrating Tree Structures into Recurrent Neural Networks”，则在此方面取得突破，设计了一种利用深度学习模型对语言的层级结构（树状）进行建模的方法。

人工智能在符号主义衰落后曾进入寒冬，因为深度学习的发展迎来又一春。近年来，深度学习同样在不同类型数据的表征学习领域所向披靡。

语言与其他数据一个显著的区别就在于其本身拥有一定的层级结构，因为语言的组成受到语法规则限制，低层级的语义单元组成高层级的语义单元，而最高层级的语义单元就代表了整个句子的含义。人们曾经试图对语言的这种结构进行建模，利用语法规则进行语义解析，建立语义分析树，再根据解析的结果从下而上递归获得句子的表征，例如Stanford的语义依赖分析工具。

然而，针对每一种语言建立详尽的规则系统费时耗力。随着深度学习的兴起，人们开始借助复杂的深度学习模型获得各类数据的表征，文本自然也不例外。文本以序列的形式被直接输入到深度学习模型中，语言原本的层级结构被忽略。我们熟知的各种语言模型，比如去年掀起风潮Bert等均是如此。

学习语言层级结构的深度模型ON-LSTM

本文中，作者试图在深度学习模型中对语言的层级结构（树状结构）建模。想要达到这一目的，一般的思路往往是对模型的整体结构进行改动，例如将模型设计为层级结构。但作者在本文中却另辟蹊径，利用不同层级语义单元的更新频率建立起不同神经元之间的联系，让他们拥有次序和等级。

如上图所示，图（a）是句子成分分析树；图（b）是将其抽象为模块形式。可以看到，表示S和VP的结点都横跨了多个时间步。也就是说，对句子进行编码的各个结点的更新频率是不同的。表示底层词语的结点更新更为频繁，而表示更高层次语义单元的神经元更新频率较低，表示整个句子语义的结点（S）更新频率最低。图（c）的颜色深浅表示不同层级神经元更新的频率。同时，如果一个高层级的神经元更新了，其后的一系列神经元都应该更新。

然而在原本的 LSTM 模型中，神经元之间的更新是彼此独立、互不联系的。为此，作者对 LSTM 单元中进行了改动，增加了两个门：master forget gate和master input gate，它们使用新的激活函数 cumax 根据在其之前的神经元的状态控制要存储和遗忘的信息。通过引入这样的门机制便建立起了神经元之间相互依赖的更新规则，使神经元之间便有了次序，有了层级的区别。除此之外，该模型与使用 LSTM 建立的语言模型无异。

学习语言层级结构的深度模型ON-LSTM

那这样的做法能否取得对文本更好的表征呢？作者进行了一系列实验检验 ON-LSTM 的结果，包括建立语言模型评估模型捕捉各种语言现象的能力、无监督的成分解析等全面测评了模型对语言的建模能力，均取得了较好的效果。

学习语言层级结构的深度模型ON-LSTM

图：论文中的语义解析示例。左边为2层 ON-LSTM 模型的解析结果，右侧为人类标注的答案。

成分是作者进行的一系列实验之一。作者利用 ON-LSTM 模型预测每个结点成为句子切分点的概率，然后根据概率值将这些切分点由大到小排序，依次对句子进行切分，一些实验结果的示例如上图所示。从图中可以看出，虽然对模型结构没有大的改动，但 ON-LSTM 的确在对文本进行建模时在一定程度上捕捉到了数据中的层级结构。同时，该模型并没有使用任何预先给定的专家知识，这些切分规则完全从数据中学习。

近年来，针对深度学习的争议愈发热烈。尽管深度学习在下围棋、打游戏等任务上表现亮眼，但也面临许多反对的声音。有些研究人员认为从符号主义到连接主义是人工智能的倒退，因为像黑箱子一样的深度学习模型可以给出结论，却不会解释原因；也有人认为深度学习存在相当多的局限性，它不会通向真正的智能，而是迟早会走到尽头。
2018年10月，纽约大学教授 Gary Marcus 就曾发文质疑深度学习，他认为深度学习模型无法处理层级结构，深度学习应该与经典的符号主义相结合。而今天介绍的这篇论文，似乎让我们看到了深度学习在学习层级结构方面的潜力，对深度学习的探索也许远远没到尽头。

最后，我们以 DeepTech 在去年11月采访 Bengio 时，他对 Gary Marcus 对深度学习质疑的回应结束本文：

“我不知道接下来几年深度学习将走向何方，毕竟我没有水晶球。每个研究人员都有他自己的想法。我认为这很好，因为我们都不知道最优解来自何方，因此研究的多样性非常重要。作为一个社区，我们必须鼓励探索。因为没有人能确切地掌握未来。”

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1776

文章
43888

浏览量
230632

原文标题：ICLR2019最佳论文：能学习语言层级结构的深度模型ON-LSTM

文章出处：【微信号：deeptechchina，微信公众号：deeptechchina】欢迎添加关注！文章转载请注明出处。

AIBOX-1684X：把大语言模型“装”进小盒子

AIBOX-1684X支持主流大模型私有化部署，算力高达32TOPS，同时也支持CNN、RNN、LSTM等传统网络架构，支持TensorFNNX和Darknet等深度学习架构，并支持自

发表于 04-20 08:02 •94次阅读

AIBOX-1684X：把大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>“装”进小盒子

大语言模型概述

在科技飞速发展的当今时代，人工智能技术成为社会进步的关键推动力之一。在广泛关注的人工智能领域中，大语言模型以其引人注目的特性备受瞩目。大语言模型的定义及发展历史大

发表于 12-21 17:53 •746次阅读

深度学习如何训练出好的模型

算法工程、数据派THU深度学习在近年来得到了广泛的应用，从图像识别、语音识别到自然语言处理等领域都有了卓越的表现。但是，要训练出一个高效准确的深度学

发表于 12-07 12:38 •663次阅读

基于深度学习的情感语音识别模型优化策略

基于深度学习的情感语音识别模型的优化策略，包括数据预处理、模型结构优化、损失函数改进、训练策略调整以及集成

发表于 11-09 16:34 •260次阅读

基于CNN-LSTM网络的电力负荷预测

CNN模型的输出信息进行负荷预测，最终得到预测结果。选取西班牙公开的电力数据为实验数据，运用Python语言搭建预测模型，分别与CNN和LSTM单一

发表于 11-09 14:13 •1521次阅读

C语言深度解析

C语言深度解析，本资料来源于网络，对C语言的学习有很大的帮助，有着较为深刻的解析，可能会对读者有一定的帮助。

发表于 09-28 07:00

深度学习模型部署与优化：策略与实践；L40S与A100、H100的对比分析

深度学习、机器学习、生成式AI、深度神经网络、抽象学习、Seq2Seq、VAE、GAN、GPT、BERT、预训练

发表于 09-22 14:13 •663次阅读

深度学习的定义和特点深度学习典型模型介绍

深度学习（Deep Learning）是一种基于人工神经网络的机器学习算法，其主要特点是模型由多个隐层组成，可以自动地学习特征，并进行预测或

发表于 08-21 18:22 •1289次阅读

卷积神经网络层级结构卷积神经网络的卷积层讲解

卷积神经网络层级结构卷积神经网络的卷积层讲解卷积神经网络（Convolutional Neural Network，CNN）是一种基于深度学习的神经网络

发表于 08-21 16:49 •4487次阅读

深度学习框架和深度学习算法教程

了基于神经网络的机器学习方法。深度学习算法可以分为两大类：监督学习和无监督学习。监督学习的基本

发表于 08-17 16:11 •724次阅读

深度学习框架tensorflow介绍

。TensorFlow可以用于各种不同的任务，包括图像和语音识别、自然语言处理和推荐系统等。 TensorFlow提供了一个灵活和强大的平台，可以用于构建和训练各种深度学习模型。Ten

发表于 08-17 16:11 •1468次阅读

深度学习框架是什么？深度学习框架有哪些？

深度学习框架是什么？深度学习框架有哪些？深度学习框架是一种软件工具，它可以帮助开发者轻松快速

发表于 08-17 16:03 •1784次阅读

什么是深度学习算法？深度学习算法的应用

什么是深度学习算法？深度学习算法的应用深度学习算法被认为是人工智能的核心，它是一种模仿人类大脑

发表于 08-17 16:03 •1489次阅读

深度学习是什么领域

深度学习是什么领域深度学习是机器学习的一种子集，由多层神经网络组成。它是一种自动学习技术，可

发表于 08-17 16:02 •1220次阅读

大型语言模型的应用

大型语言模型（LLM）是一种深度学习算法，可以通过大规模数据集训练来学习识别、总结、翻译、预测和生成文本及其他内容。大

发表于 07-05 10:27 •1629次阅读

搜索历史

学习语言层级结构的深度模型ON-LSTM

评论

AIBOX-1684X：把大语言模型“装”进小盒子

大语言模型概述

深度学习如何训练出好的模型

基于深度学习的情感语音识别模型优化策略

基于CNN-LSTM网络的电力负荷预测

C语言深度解析

深度学习模型部署与优化：策略与实践；L40S与A100、H100的对比分析

深度学习的定义和特点深度学习典型模型介绍

卷积神经网络层级结构卷积神经网络的卷积层讲解

深度学习框架和深度学习算法教程

深度学习框架tensorflow介绍

深度学习框架是什么？深度学习框架有哪些？

什么是深度学习算法？深度学习算法的应用

深度学习是什么领域

大型语言模型的应用