无监督训练加微小调整,只用一个模型即可解决多种NLP

新智元 2018-06-13 18:00 次阅读

基于一个可伸缩的、任务无关的系统,OpenAI在一组包含不同的语言任务中获得了最优的实验结果,方法是两种现有理念的结合:迁移学习和无监督的预训练。这些结果证明了有监督的学习方法可以与无监督的预训练进行完美的结合。这个想法许多人在过去探索过,OpenAI希望结果能激发更多的研究,进而将这个想法应用到更大、更多样化的数据集上。

我们的系统分为两个阶段:首先,我们通过无监督的方式在大数据集上训练一个迁移学习模型,训练过程中使用语言模型的训练结果作为信号,然后我们在更小的有监督数据集上对这个模型进行微调,以帮助它解决特定的任务。这个方法的开发是在我们前一个sentiment neuron(情绪神经元)的工作之后进行的,在sentiment neuron任务中我们注意到,通过利用足够的数据对模型进行训练,无监督学习可以获得令人惊讶的判别特征。在这里,我们想进一步探讨这个想法:我们能否开发一个模型,以一种无监督的方式使用大量数据对模型进行训练,然后对模型进行微调,以在不同的任务中都获得良好的性能?我们的研究结果表明,这种方法的效果出奇地好。同样的核心模型可以针对完全不同的任务进行微调,以适应任务。

本研究是基于在半监督序列学习中引入的方法,该方法展示了如何通过对LSTM进行无监督的预训练,然后进行有监督的微调,来提高文本分类的能力。它还扩展了ULMFiT的研究,该研究展示了如何对单个数据不可知的LSTM语言模型进行微调,从而在各种文本分类数据集上获得最优的性能。我们的工作展示了如何在这种方法中使用迁移学习模型,从而在文本分类之外的更广泛任务中取得成功,例如常识推理、语义相似性和阅读理解等。它与ELMo类似,但属于任务无关型问题,它包含了预训练,希望使用针对任务的特殊模型架构来获得最优的结果。

我们通过对很少的参数调优来达到我们的目的。所有的数据集都仅使用一个前向语言模型,没有任何组合,并且大多数的结果都使用完全相同的超参数设置。 

我们的方法在COPA、RACE和ROCStories三个数据集上的性能都表现得特别好,这些数据集是用来测试常识推理和阅读理解的。我们的模型在这些数据集上获得了最优的结果。这些数据集的识别被认为需要多句推理和重要的世界知识,这表明我们的模型主要通过无监督学习来提高这些能力。以上表明,无监督的技术有希望开发复杂的语言理解能力。

为什么是无监督学习?

监督学习是大多数机器学习算法成功的核心。然而,它需要对大量的数据进行仔细的清理,创建的代价也极其昂贵,这样才能获得很好的效果。无监督学习的吸引力在于它有可能解决这些缺点。由于无监督的学习消除了人为显式标记的瓶颈,它也很好地扩展了当前的趋势,即增加了原始数据的计算能力和可用性。无监督学习是一个非常活跃的研究领域,但它的实际应用往往很有限。

最近的一次一项尝试是试图通过使用无监督学习来对具有大量未标记数据的系统进行增强,从而进一步提高模型的语言能力。通过无监督训练的单词表示可以使用包含万亿字节信息组成的大型数据集,当与有监督学习相结合时,可以提高各种NLP任务的性能。直到最近,这些无监督的NLP技术(例如GLoVe和word2vec)使用了简单的模型(词向量)和训练信号(单词的局部同时出现)。skip-Thought向量是一个很值得注意的早期想法,它展示了更复杂的方法如何进行改进的潜能。而现在正在使用新的技术将进一步提高实验性能。上述技术包括使用预训练的句子来表示模型,上下文化的词向量(特别是ELMo和CoVE),以及像我们提出来的方法:使用特定的模型架构来将无监督的预训练和有监督的微调融合在一起。

在大量文本的基础上对我们的模型进行预训练,极大地提高了它在具有挑战性的自然语言处理任务上的性能,比如Winograd模式解析。

我们还注意到,我们可以使用未训练的基础语言模型执行任务。例如,随着基础语言模型的改进,像选择多个正确答案这样任务的性能会稳步增加。虽然这些方法的绝对性能相对于最新的有监督技术而言仍然很低,(对于问答系统,它的表现优于简单的滑动窗口那样的基线系统)但是鼓舞人心的一点是,这种行为在广泛集合的任务中是具有鲁棒性的。使用这些启发式算法,不包含关于任务和世界的信息的随机初始化网络不会比包含这些信息的随机初始化方法获得更好的效果。这就提供了一些见解,告诉我们为什么生成预训练可以提高下游任务的性能。

我们还可以使用模型中现有的语言功能来执行情感分析。对于由正面和负面影评组成的斯坦福情绪Treebank数据集,我们可以通过使用语言模型在句子后面输入单词“very”来猜测评论是正面还是负面,还能看看这个模型是否具有预测“积极的”或“消极的”的倾向。 这种方法根本不需要根据任务调整模型,其性能与经典基线相当,准确度达到80%左右。

我们的工作也验证了迁移学习的鲁棒性和有效性,这表明它足够灵活,可以在不需要对复杂的任务进行定制或对超参数进行调优的情况下,在广泛数据的任务上获得最优的结果。

缺点

这个项目有一些问题还是值得注意的:

计算要求:许多以前的NLP任务方法都是从头开始,在单个GPU上训练相对较小的模型。 我们的方法需要昂贵的预训练步骤:在8个GPU上进行为期1个月的训练。幸运的是,这个训练只需要进行一次。我们正在发布我们的模型,这样其他人就不用再次训练这样的模型了。同时,与之前的工作相比,它也是一个大型模型,因此使用更多的计算和内存,我们使用了37层(12块)Transformer架构,并且我们训练的序列最多可达512个令牌。大多数实验都是在4个/8个GPU系统上进行的。该模型可以快速调整新任务,从而有助于减轻额外的资源需求。

学习到文本中所包含的世界局限性和数据倾斜:互联网上随时可用的书籍和文本不包含关于世界的完整乃至准确的信息。最近的工作表明,某些类型的信息很难通过文本学习,而其他工作表明模型学习且利用了数据分布中包含的倾斜。

脆弱的泛化能力:尽管我们的方法改善了广泛任务的性能,但目前的深度学习NLP模型的表现有时仍然是违反直觉并且令人震惊的,尤其是在以系统性,对抗性或分布式分布的方式进行评估时。尽管我们已经观察到一些进展的迹象,但我们的方法对这些问题并非免疫。相比较于以往纯文本的神经网络,我们的方法具有更优越的词法鲁棒性。在2018年Glockner等人介绍的数据集中,我们的模型准确率达到83.75%,表现类似于通过WordNet整合外部知识的KIM方法。

展望未来

扩展方法:我们已经观察到,语言模型性能的改进与下游任务的改进密切相关。目前我们正在使用一台包含8 GPU计算机作为硬件,并仅使用大概包含5GB文本的几千本书作为训练数据集。 根据经验表明,使用更多的计算性能和数据可以使算法有很大的改进空间。

改进微调:我们的方法目前非常简单。如果使用更复杂的适应和迁移技术(例如ULMFiT中探索的技术)可能会有实质性的改进。

更好地理解生成性预训练的原理会对模型有益:尽管我们已经讨论了一些我们在此讨论的想法,但更有针对性的实验和研究将有助于区分那些不同的解释。例如,我们观察到的性能提高有多少是得益于改进了处理更广泛背景的能力以及改进的世界知识?

原文标题:OpenAI最新研究:通过无监督学习提高语言理解能力

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

浅析自然语言处理知识体系结构

自然语言处理知识太庞大了,网上也都是一些零零散散的知识,比如单独讲某些模型,也没有来龙去脉,学习起来....

的头像 电子发烧友网工程师 发表于 08-18 09:57 151次 阅读
浅析自然语言处理知识体系结构

什么是迁移学习?NLP迁移学习的未来

只用了100个案例,他们就达到了和用2万个案例训练出的模型同样的错误率水平。除此之外,他们还提供了对....

的头像 论智 发表于 08-17 09:18 233次 阅读
什么是迁移学习?NLP迁移学习的未来

人工智能时代下,NLP技术赋予了机器自然语言识别能力

语言是人类特有的技能,是人类智慧的体现。在人工智能时代,自然语言处理(NLP)技术为机器赋予了这样的....

发表于 08-07 16:27 58次 阅读
人工智能时代下,NLP技术赋予了机器自然语言识别能力

知识图会成为 NLP 的未来吗?IJCAI杰出论文背后的思考

在本文中,我们提出了一个常识知识感知对话模型 (CCM),演示了常识知识有助于开放域对话系统中语言的....

的头像 电子发烧友网工程师 发表于 08-07 14:31 206次 阅读
知识图会成为 NLP 的未来吗?IJCAI杰出论文背后的思考

人工智能将如何商业化?对未来又有什么影响?

现代数字革命过程中出现了许多企业技术,随之而来是大量的宣传,这些宣传多半是无法实现的。但人工智能(A....

发表于 08-06 10:34 59次 阅读
人工智能将如何商业化?对未来又有什么影响?

AutoML到底是怎样设计模型的?有哪些优势?

而基因库的知识积累是靠它自己在设计过程中学出来的,我们不会因为某个网络效果特别好而强放进去,因为它可....

的头像 电子发烧友网工程师 发表于 08-06 09:21 503次 阅读
AutoML到底是怎样设计模型的?有哪些优势?

了解迁移学习,哪种情况适合做迁移学习?

算法的基本思想是 从源 Domain 数据中筛选有效数据,过滤掉与目标 Domain 不match的....

的头像 电子发烧友网工程师 发表于 08-05 10:39 349次 阅读
了解迁移学习,哪种情况适合做迁移学习?

NLP概述及文本自动分类算法详解

同步的序列到序列,其实就是序列标注问题,应该说是自然语言处理中最常见的问题。序列标注的应用包括中文分....

的头像 人工智能头条 发表于 07-25 18:03 409次 阅读
NLP概述及文本自动分类算法详解

如何利用spaCy和Cython以约100倍于Python的速度实现NLP

然后,我们可以将矩形列表存储在这种结构的 C 数组中,并将这个数组传递给我们的 check_rect....

的头像 马哥Linux运维 发表于 07-24 16:52 396次 阅读
如何利用spaCy和Cython以约100倍于Python的速度实现NLP

深度学习在NLP中的发展和应用

自然语言处理任务大概有哪些?我个人做了一个总结,基本可以划分分为五层项任务:,词法分析、句子分析、语....

的头像 电子发烧友网工程师 发表于 07-24 10:14 455次 阅读
深度学习在NLP中的发展和应用

如何让计算机理解文本并从中提取数据呢?

这段文字包含多个有用事实,如果计算机能从中读懂“伦敦是一座城市”“伦敦位于英格兰”“伦敦由罗马人建立....

的头像 论智 发表于 07-24 09:38 758次 阅读
如何让计算机理解文本并从中提取数据呢?

decaNLP通用模型诞生,可以轻松搞定十项自然语言任务

近日,Salesforce发布了一项新的研究成果:decaNLP——一个可以同时处理机器翻译、问答、....

的头像 人工智能头条 发表于 07-17 16:25 627次 阅读
decaNLP通用模型诞生,可以轻松搞定十项自然语言任务

Github上Star过千的PyTorch NLP相关项目都在这儿了!

OpenNMT 全称是Open Source Neural Machine Translation ....

的头像 新智元 发表于 07-11 09:35 566次 阅读
Github上Star过千的PyTorch NLP相关项目都在这儿了!

为什么说具有语言处理能力是物联网智能设备的未来详细解答

物联网(IOT)与人工智能(AI)息息相关。物联网产生大量数据,而数据又是人工智能和机器学习的核心....

的头像 物联之家网 发表于 07-07 11:30 2574次 阅读
为什么说具有语言处理能力是物联网智能设备的未来详细解答

decaNLP——同时处理十项自然语言任务的通用模型

目前的NLP领域有一个问题:即使是再厉害的算法也只能针对特定的任务,比如适用于机器翻译的模型不一定可....

的头像 人工智能学家 发表于 06-27 15:07 648次 阅读
decaNLP——同时处理十项自然语言任务的通用模型

用迁移学习探明CV任务的底层结构

今晨,第31届CVPR在美国盐湖城正式召开。斯坦福和伯克利合作的Taskonomy: Disenta....

的头像 论智 发表于 06-26 15:22 658次 阅读
用迁移学习探明CV任务的底层结构

一个深度学习模型能完成几项NLP任务?

对于机器翻译、文本摘要、Q&A、文本分类等自然语言处理任务来说,深度学习的出现一遍遍刷新了state....

的头像 论智 发表于 06-26 15:19 592次 阅读
一个深度学习模型能完成几项NLP任务?

自然语言处理方法和应用

2018CCAI大会邀请到国内NLP领域顶尖学者,苏州大学特聘教授,计算机学院副院长,人类语言技术研....

的头像 中国人工智能学会 发表于 06-25 15:44 465次 阅读
自然语言处理方法和应用

介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉

对于IDF而言,长文档包含的单词更多,因此更容易出现各种单词。因此,IDF相等的情况下,经常出现在短....

的头像 论智 发表于 06-25 14:50 890次 阅读
介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉

Salesforce发布了一项新的研究成果:decaNLP十项自然语言任务的通用模型

自然语言推理。自然语言推理(NLI)模型接受两个输入句子:一个前提和一个假设。模型必须将前提和假设之....

的头像 电子发烧友网工程师 发表于 06-25 08:47 1296次 阅读
Salesforce发布了一项新的研究成果:decaNLP十项自然语言任务的通用模型

智慧芽完成3800万美元D轮融资

6月14日,全球研发情报与知识产权管理SaaS服务提供商智慧芽(PatSnap)宣布已经完成3800....

的头像 机器人技术与应用 发表于 06-22 10:54 896次 阅读
智慧芽完成3800万美元D轮融资

50个机器学习实用API

还在为找不到机器学习的API而烦恼吗?本篇文章将介绍一个包含50+关于人脸和图像识别,文本分析,NL....

的头像 传感器技术 发表于 06-13 18:20 820次 阅读
50个机器学习实用API

NLP的介绍和如何利用机器学习进行NLP以及三种NLP技术的详细介绍

本文用简洁易懂的语言,讲述了自然语言处理(NLP)的前世今生。从什么是NLP到为什么要学习NLP,再....

的头像 人工智能头条 发表于 06-10 10:26 2645次 阅读
NLP的介绍和如何利用机器学习进行NLP以及三种NLP技术的详细介绍

ACL收录京东智能广告实验室论文

近日,京东智能广告实验室和伦斯勒理工学院联合发表了题为“基于多语言多任务的低资源序列标注架构”的学术....

的头像 人工智能头条 发表于 06-08 14:17 489次 阅读
ACL收录京东智能广告实验室论文

如何用更少的数据自动将文本分类,同时精确度还比原来的方法高

计算机视觉领域迁移学习和预训练ImageNet模型的成功已经转移到了NLP领域。许多企业家、科学家和....

的头像 论智 发表于 05-21 15:53 1192次 阅读
如何用更少的数据自动将文本分类,同时精确度还比原来的方法高

什么是迁移学习?迁移学习的实现方法与工具分析

人工智能竞争,从算法模型的研发竞争,转向数据和数据质量的竞争,这些成功的模型和算法主要是由监督学习推....

发表于 05-11 09:12 964次 阅读
什么是迁移学习?迁移学习的实现方法与工具分析

暴风AI电视7亮相 可以完全不通过遥控器实现与电视互动

据报道,互联网电视品牌暴风TV在京举行春季新品发布会,全球首台55寸AI+全面屏的旗舰产品——暴风A....

发表于 04-23 10:08 587次 阅读
暴风AI电视7亮相 可以完全不通过遥控器实现与电视互动

命名实体识别(NER)是自然语言处理(NLP)中的基本任务之一

LSTM网络是整体思路同样是先对给定的训练样本进行学习,确定模型中的参数,再利用该模型对测试样本进行....

的头像 中兴开发者社区 发表于 04-18 11:17 835次 阅读
命名实体识别(NER)是自然语言处理(NLP)中的基本任务之一

Deep Learning如何能在NLP中发挥出应有的real power呢?

每个词都是茫茫 0 海中的一个 1。这种 One-hot Representation 如果采用稀疏....

的头像 人工智能爱好者社区 发表于 04-08 09:53 774次 阅读
Deep Learning如何能在NLP中发挥出应有的real power呢?

AI技术可以通过言语来判断是否患有精神病

语言是一个迷人的交流工具,可以让人们彼此分享想法。通常情况下,如果语言的清晰度和准确性使用得当,语言....

发表于 03-21 03:50 142次 阅读
AI技术可以通过言语来判断是否患有精神病

基于神经网络结构在命名实体识别中应用的分析与总结

近年来,基于神经网络的深度学习方法在自然语言处理领域已经取得了不少进展。作为NLP领域的基础任务—命....

的头像 Imagination Tech 发表于 01-18 09:24 1313次 阅读
基于神经网络结构在命名实体识别中应用的分析与总结

NLP多任务学习案例分享:一种层次增长的神经网络结构

在 NLP 领域研究者们开始研究基于神经网络的多任务学习。大多数方法通过网络参数共享来学习任务间的关....

发表于 01-05 16:10 683次 阅读
NLP多任务学习案例分享:一种层次增长的神经网络结构

助理来宣布完成B轮融资并推出针对企业客户的战略级新产品「吾来」

12月21日,专注打造智能助理平台的人工智能公司助理来也宣布完成千万美元B轮融资,并推出针对企业客户....

的头像 新智元 发表于 12-29 10:25 1304次 阅读
助理来宣布完成B轮融资并推出针对企业客户的战略级新产品「吾来」

对2017年NLP领域中深度学习技术应用的总结

本文作者Javier Couto是tryo labs公司的一名研发科学家,专注于NLP技术。这篇文章....

的头像 论智 发表于 12-28 10:02 1973次 阅读
对2017年NLP领域中深度学习技术应用的总结

拿高薪必备的深度学习nlp技术,这篇文章讲得很透彻

本文通过深度学习技术来阐述2017年NLP领域所取得的一系列进步

的头像 人工智能头条 发表于 12-16 07:59 3155次 阅读
拿高薪必备的深度学习nlp技术,这篇文章讲得很透彻

GAN新手必读:如何将将GAN应用于NLP(论文笔记)

GAN 自从被提出以来,就广受大家的关注,尤其是在计算机视觉领域引起了很大的反响。“深度解读:GAN....

的头像 电子发烧友网工程师 发表于 11-22 09:43 2343次 阅读
GAN新手必读:如何将将GAN应用于NLP(论文笔记)

NLP中CNN模型常见的Pooling操作方法及其典型网络结构

CNN是目前自然语言处理中和RNN并驾齐驱的两种最常见的深度学习模型。图1展示了在NLP任务中使用C....

发表于 11-15 17:59 2168次 阅读
NLP中CNN模型常见的Pooling操作方法及其典型网络结构

将深度学习、强化学习和迁移学习有机结合的研究

作为首位美国人工智能协会(AAAI)华人Fellow,唯一AAAI华人Councilor,国际顶级学....

发表于 10-09 18:23 192次 阅读
将深度学习、强化学习和迁移学习有机结合的研究

基于NLP、机器学习技术实现动作引擎的实践进展

搜索引擎大家都很熟悉,比如说一个朋友跑北京马拉松,你就想到网站去看,你就能得到马拉松的官网,看到相应....

发表于 09-30 17:10 122次 阅读
基于NLP、机器学习技术实现动作引擎的实践进展

从语言学到深度学习NLP,一文概述自然语言处理

本文从两篇论文出发先简要介绍了自然语言处理的基本分类和基本概念,再向读者展示了深度学习中的 NLP。....

的头像 机器之心 发表于 08-22 14:56 2614次 阅读
从语言学到深度学习NLP,一文概述自然语言处理