研究人员开发解释多义词的神经网络-电子发烧友网

脱离上下文时，每个英文单词都有多重含义。例如，“bank”可以指银行或河岸；“Fair”可以指展览会，也可以指对展览会的评价；“Duck”可以是躲避伤害的动作，也可以指鸭子。

对于人类来说搞清楚一个单词在某场景中适用的含义是非常简单的。但是，对于自然语言处理模型就是另一回事了。近些年已经出现很多用于解析文本的AI工具，但是当涉及到多重含义的单词时，这些工具往往会陷入困境。来自艾伦人工智能研究所（Allen Institute for Artificial Intelligence）和华盛顿大学的研究人员正在努力解决这一难题，他们使用了可以根据上下文来确定英文单词含义的神经网络。

向前和向后阅读

通常，NLP模型通过词向量（在每个单词中附加语言含义和单词语法的基础元素）中的结构化数据进行训练。此算法基于假设每个单词只有一种向量表示，但实际上英文单词并非如此。

研究人员利用名为“ELMo”的神经系统打破了这一假设，此神经系统可以为每个单词创造出无限数量的向量。

“‘ELMo’是‘Embeddings from Language Models’的缩写，而不是毛茸茸的红色芝麻街角色”，论文“Deep contextualized word representations”的第一作者Matthew Peters解释道。

ELMo喜欢阅读：这不是美国幼儿教育电视节目《芝麻街》中的Elmo，而是使用双向语言模型的神经系统ELMo。

常规语言模型尝试预测句子中即将出现的下一个单词。如果片段是“The people sat down on the …,”，那么算法将预测出“bench”或“grass”之类的单词。为了给单词附加所有潜在含义的词向量，这个团队使用了双向语言模型。

使用双向模型意味着，该模型可以通过一个二次的回顾性算法，获取句子的结尾并尝试预测出现在句子结尾前边的单词。当模型尝试分析的单词出现在句首，并且相关上下文随即出现时，这会非常有用。

“就像‘He lies to his teacher’与‘He lies on the sofa’这种情况”，Peters说道。

为测试ELMo的技能，该团队利用六种不同的NLP任务（包括情绪分析和问答等）对算法进行测试。与之前使用相同训练数据的方法相比，ELMo每次都会得到更新、更出色的结果，在某些情况下可以比之前的领先模型提升25%的速度。

“在NLP中，很重要的一点是，单一的方法能够提高多样化任务的性能”，Peters指出。

ELMo在半监督式学习领域大放异彩

在进行自然语言处理时，训练数据的类型非常关键。例如，问答系统使用的模型无法在任何旧文本上进行训练。通常，此类模型需要在由带标注的问题和答案对组成的大型数据库中训练，以学习如何做出正确的回答。

标注数据非常耗时并且成本高昂。因此，研究人员首先选择使用包含大约十亿个单词的大型无标记学术数据库来训练ELMo。然后，针对特定任务（例如问答）将此数据库调整为一个带标注的小型数据库。对于这种结合使用大量无标记数据和一小部分已标记数据的方法，统称为“半监督式学习”。

减少对已标记和带标注数据的依赖后，研究人员可以更轻松地在现实问题中应用其NLP模型应用。

“在我们的示例中，我们选择了一个未标记的学术数据库来训练语言模型”，Peters说道。但是研究人员能够调整算法，以便在任何其他未标记的数据库中运行该算法，也可以将其应用于生物医学论文、法律合同或其他语言等专业领域中。

与之前最先进(SOTA)的基准相比，ELMo在六个基准NLP任务中都增强了神经模型的性能。从左到右，这些任务依次是：语义推理、命名实体识别、问题回答、指代消解、语义角色标注和情感分类。

研究人员通过Amazon Web Service，使用NVIDIA Tesla V100和K80 GPU助力训练和推理。

在后续论文中，研究人员指出其仅使用了几百个已标记示例，便可应用ELMo模式回答几何问题。人工需要花费几个小时便能完成此标记工作，但却会显著提高NLP模型的性能。

ELMo已作为开源库提供。Peters表示其他的NLP研究人员已经将此模型应用到了他们自己的工作中，包括除英语外的其他语言。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4575

浏览量
98792
nlp

nlp

+关注

关注
1

文章
464

浏览量
21829

原文标题：“躲避”or“鸭子”：看深度学习如何解释多义词

文章出处：【微信号：NVIDIA-Enterprise，微信公众号：NVIDIA英伟达企业解决方案】欢迎添加关注！文章转载请注明出处。

详解深度学习、神经网络与卷积神经网络的应用

处理技术也可以通过深度学习来获得更优异的效果，比如去噪、超分辨率和跟踪算法等。为了跟上时代的步伐，必须对深度学习与神经网络技术有所学习和研究。本文将介绍深度学习技术、神经网络与卷积神经网络

发表于 01-11 10:51 •734次阅读

人工神经网络和bp神经网络的区别

人工神经网络和bp神经网络的区别人工神经网络（Artificial Neural Network, ANN）是一种模仿人脑神经元网络结构和功能的计算模型，也被称为

发表于 08-22 16:45 •3450次阅读

cnn卷积神经网络模型卷积神经网络预测模型生成卷积神经网络模型

cnn卷积神经网络模型卷积神经网络预测模型生成卷积神经网络模型卷积神经网络（Convolutional Neural Network，CNN）是一种深度学习

发表于 08-21 17:11 •812次阅读

卷积神经网络和深度神经网络的优缺点卷积神经网络和深度神经网络的区别

深度神经网络是一种基于神经网络的机器学习算法，其主要特点是由多层神经元构成，可以根据数据自动调整神经元之间的权重，从而实现对大规模数据进行预测和分类。卷积

发表于 08-21 17:07 •2351次阅读

卷积神经网络算法代码matlab

）、池化层（Pooling Layer）和全连接层（Fully Connected Layer）。卷积神经网络源自对脑神经细胞的研究，能够有效地处理大规模的视觉和语音数据。本文将详细介绍卷积神

发表于 08-21 16:50 •821次阅读

卷积神经网络的介绍什么是卷积神经网络算法

卷积神经网络的介绍什么是卷积神经网络算法卷积神经网络涉及的关键技术卷积神经网络（Convolutional Neural Network，CNN）是一种用于图像分类、物体识别、语

发表于 08-21 16:49 •1436次阅读

卷积神经网络的基本原理卷积神经网络发展卷积神经网络三大特点

卷积神经网络的基本原理卷积神经网络发展历程卷积神经网络三大特点卷积神经网络的基本原理卷积神经网络（Convolutional Ne

发表于 08-21 16:49 •1454次阅读

卷积神经网络的工作原理卷积神经网络通俗解释

卷积神经网络的工作原理卷积神经网络通俗解释卷积神经网络（Convolutional Neural Network, CNN）是一种众所周知的深度学习算法，是人工智能领域中最受欢迎

发表于 08-21 16:49 •2758次阅读

卷积神经网络概述卷积神经网络的特点 cnn卷积神经网络的优点

卷积神经网络概述卷积神经网络的特点 cnn卷积神经网络的优点卷积神经网络（Convolutional neural network，CNN）是一种基于深度学习技术的

发表于 08-21 16:41 •1947次阅读

卷积神经网络的应用卷积神经网络通常用来处理什么

卷积神经网络的应用卷积神经网络通常用来处理什么卷积神经网络（Convolutional Neural Network，简称CNN）是一种在神经网络领域内广泛应用的

发表于 08-21 16:41 •4023次阅读

卷积神经网络原理：卷积神经网络模型和卷积神经网络算法

卷积神经网络原理：卷积神经网络模型和卷积神经网络算法卷积神经网络（Convolutional Neural Network，CNN）是一种基于深度学习的人工

发表于 08-17 16:30 •929次阅读

什么是神经网络？为什么说神经网络很重要？神经网络如何工作？

神经网络是一个具有相连节点层的计算模型，其分层结构与大脑中的神经元网络结构相似。神经网络可通过数据进行学习，因此，可训练其识别模式、对数据分类和预测未来事件。

发表于 07-26 18:28 •2001次阅读

浅析三种主流深度神经网络

(MLP)，卷积神经网络(CNN)和递归神经网络(RNN)。2、什么是深度神经网络机器学习是一门多领域交叉学科，专门研究计算机怎样模拟或实现人类的学习行为，以获取

发表于 05-17 09:59 •1095次阅读

浅析三种主流深度神经网络

神经网络(MLP)，卷积神经网络(CNN)和递归神经网络(RNN)。 2、什么是深度神经网络 机器学习是一门多领域交叉学科，专门研究计算机怎

发表于 05-15 14:20 •614次阅读

三个最流行神经网络

在本文中，我们将了解深度神经网络的基础知识和三个最流行神经网络：多层神经网络(MLP)，卷积神经网络(CNN)和递归神经网络(RNN)。

发表于 05-15 14:19 •1179次阅读