无监督训练加微小调整,只用一个模型即可解决多种NLP

新智元 2018-06-13 18:00 次阅读

基于一个可伸缩的、任务无关的系统,OpenAI在一组包含不同的语言任务中获得了最优的实验结果,方法是两种现有理念的结合:迁移学习和无监督的预训练。这些结果证明了有监督的学习方法可以与无监督的预训练进行完美的结合。这个想法许多人在过去探索过,OpenAI希望结果能激发更多的研究,进而将这个想法应用到更大、更多样化的数据集上。

我们的系统分为两个阶段:首先,我们通过无监督的方式在大数据集上训练一个迁移学习模型,训练过程中使用语言模型的训练结果作为信号,然后我们在更小的有监督数据集上对这个模型进行微调,以帮助它解决特定的任务。这个方法的开发是在我们前一个sentiment neuron(情绪神经元)的工作之后进行的,在sentiment neuron任务中我们注意到,通过利用足够的数据对模型进行训练,无监督学习可以获得令人惊讶的判别特征。在这里,我们想进一步探讨这个想法:我们能否开发一个模型,以一种无监督的方式使用大量数据对模型进行训练,然后对模型进行微调,以在不同的任务中都获得良好的性能?我们的研究结果表明,这种方法的效果出奇地好。同样的核心模型可以针对完全不同的任务进行微调,以适应任务。

本研究是基于在半监督序列学习中引入的方法,该方法展示了如何通过对LSTM进行无监督的预训练,然后进行有监督的微调,来提高文本分类的能力。它还扩展了ULMFiT的研究,该研究展示了如何对单个数据不可知的LSTM语言模型进行微调,从而在各种文本分类数据集上获得最优的性能。我们的工作展示了如何在这种方法中使用迁移学习模型,从而在文本分类之外的更广泛任务中取得成功,例如常识推理、语义相似性和阅读理解等。它与ELMo类似,但属于任务无关型问题,它包含了预训练,希望使用针对任务的特殊模型架构来获得最优的结果。

我们通过对很少的参数调优来达到我们的目的。所有的数据集都仅使用一个前向语言模型,没有任何组合,并且大多数的结果都使用完全相同的超参数设置。 

我们的方法在COPA、RACE和ROCStories三个数据集上的性能都表现得特别好,这些数据集是用来测试常识推理和阅读理解的。我们的模型在这些数据集上获得了最优的结果。这些数据集的识别被认为需要多句推理和重要的世界知识,这表明我们的模型主要通过无监督学习来提高这些能力。以上表明,无监督的技术有希望开发复杂的语言理解能力。

为什么是无监督学习?

监督学习是大多数机器学习算法成功的核心。然而,它需要对大量的数据进行仔细的清理,创建的代价也极其昂贵,这样才能获得很好的效果。无监督学习的吸引力在于它有可能解决这些缺点。由于无监督的学习消除了人为显式标记的瓶颈,它也很好地扩展了当前的趋势,即增加了原始数据的计算能力和可用性。无监督学习是一个非常活跃的研究领域,但它的实际应用往往很有限。

最近的一次一项尝试是试图通过使用无监督学习来对具有大量未标记数据的系统进行增强,从而进一步提高模型的语言能力。通过无监督训练的单词表示可以使用包含万亿字节信息组成的大型数据集,当与有监督学习相结合时,可以提高各种NLP任务的性能。直到最近,这些无监督的NLP技术(例如GLoVe和word2vec)使用了简单的模型(词向量)和训练信号(单词的局部同时出现)。skip-Thought向量是一个很值得注意的早期想法,它展示了更复杂的方法如何进行改进的潜能。而现在正在使用新的技术将进一步提高实验性能。上述技术包括使用预训练的句子来表示模型,上下文化的词向量(特别是ELMo和CoVE),以及像我们提出来的方法:使用特定的模型架构来将无监督的预训练和有监督的微调融合在一起。

在大量文本的基础上对我们的模型进行预训练,极大地提高了它在具有挑战性的自然语言处理任务上的性能,比如Winograd模式解析。

我们还注意到,我们可以使用未训练的基础语言模型执行任务。例如,随着基础语言模型的改进,像选择多个正确答案这样任务的性能会稳步增加。虽然这些方法的绝对性能相对于最新的有监督技术而言仍然很低,(对于问答系统,它的表现优于简单的滑动窗口那样的基线系统)但是鼓舞人心的一点是,这种行为在广泛集合的任务中是具有鲁棒性的。使用这些启发式算法,不包含关于任务和世界的信息的随机初始化网络不会比包含这些信息的随机初始化方法获得更好的效果。这就提供了一些见解,告诉我们为什么生成预训练可以提高下游任务的性能。

我们还可以使用模型中现有的语言功能来执行情感分析。对于由正面和负面影评组成的斯坦福情绪Treebank数据集,我们可以通过使用语言模型在句子后面输入单词“very”来猜测评论是正面还是负面,还能看看这个模型是否具有预测“积极的”或“消极的”的倾向。 这种方法根本不需要根据任务调整模型,其性能与经典基线相当,准确度达到80%左右。

我们的工作也验证了迁移学习的鲁棒性和有效性,这表明它足够灵活,可以在不需要对复杂的任务进行定制或对超参数进行调优的情况下,在广泛数据的任务上获得最优的结果。

缺点

这个项目有一些问题还是值得注意的:

计算要求:许多以前的NLP任务方法都是从头开始,在单个GPU上训练相对较小的模型。 我们的方法需要昂贵的预训练步骤:在8个GPU上进行为期1个月的训练。幸运的是,这个训练只需要进行一次。我们正在发布我们的模型,这样其他人就不用再次训练这样的模型了。同时,与之前的工作相比,它也是一个大型模型,因此使用更多的计算和内存,我们使用了37层(12块)Transformer架构,并且我们训练的序列最多可达512个令牌。大多数实验都是在4个/8个GPU系统上进行的。该模型可以快速调整新任务,从而有助于减轻额外的资源需求。

学习到文本中所包含的世界局限性和数据倾斜:互联网上随时可用的书籍和文本不包含关于世界的完整乃至准确的信息。最近的工作表明,某些类型的信息很难通过文本学习,而其他工作表明模型学习且利用了数据分布中包含的倾斜。

脆弱的泛化能力:尽管我们的方法改善了广泛任务的性能,但目前的深度学习NLP模型的表现有时仍然是违反直觉并且令人震惊的,尤其是在以系统性,对抗性或分布式分布的方式进行评估时。尽管我们已经观察到一些进展的迹象,但我们的方法对这些问题并非免疫。相比较于以往纯文本的神经网络,我们的方法具有更优越的词法鲁棒性。在2018年Glockner等人介绍的数据集中,我们的模型准确率达到83.75%,表现类似于通过WordNet整合外部知识的KIM方法。

展望未来

扩展方法:我们已经观察到,语言模型性能的改进与下游任务的改进密切相关。目前我们正在使用一台包含8 GPU计算机作为硬件,并仅使用大概包含5GB文本的几千本书作为训练数据集。 根据经验表明,使用更多的计算性能和数据可以使算法有很大的改进空间。

改进微调:我们的方法目前非常简单。如果使用更复杂的适应和迁移技术(例如ULMFiT中探索的技术)可能会有实质性的改进。

更好地理解生成性预训练的原理会对模型有益:尽管我们已经讨论了一些我们在此讨论的想法,但更有针对性的实验和研究将有助于区分那些不同的解释。例如,我们观察到的性能提高有多少是得益于改进了处理更广泛背景的能力以及改进的世界知识?

原文标题:OpenAI最新研究:通过无监督学习提高语言理解能力

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

用NLP技术分析了一位出名却也具有争议的嘻哈歌手——Drake创作的歌词

有两种将 LDA 模型进行可视化的方法。第一个是通过写一个函数,输出为每个主题中最突出的单词。这个结....

的头像 电子发烧友网工程师 发表于 10-04 09:08 206次 阅读
用NLP技术分析了一位出名却也具有争议的嘻哈歌手——Drake创作的歌词

自然语言处理研究的基本问题及发展趋势

自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自....

的头像 Imagination Tech 发表于 09-21 14:22 372次 阅读
自然语言处理研究的基本问题及发展趋势

对深度迁移学习的当前研究进行了回顾和分类

定义 1:(迁移学习)。给定一个基于数据 Dt 的学习任务 Tt,我们可以从 Ds 中获取对任务 T....

的头像 人工智能和机器人研究院 发表于 09-17 16:17 413次 阅读
对深度迁移学习的当前研究进行了回顾和分类

讲解CNN+RNN的各种组合方式,以及CNN和RNN的对比

运用迁移学习,CNN特征,语句特征应用已有模型2. 最终的输出模型是LSTM,训练过程的参数设定:梯....

的头像 Imagination Tech 发表于 09-13 15:22 587次 阅读
讲解CNN+RNN的各种组合方式,以及CNN和RNN的对比

研究人员开发解释多义词的神经网络

艾伦人工智能研究所和华盛顿大学的研究人员正在使用可以根据上下文来确定英文单词含义的神经网络。

的头像 英伟达NVIDIA企业解决方案 发表于 09-12 15:52 436次 阅读
研究人员开发解释多义词的神经网络

仔细讨论NLP模型的泛化问题

前段时间的文章《顶会见闻系列:ACL 2018,在更具挑战的环境下理解数据表征及方法评价》中,我们介....

的头像 人工智能学家 发表于 09-10 10:45 521次 阅读
仔细讨论NLP模型的泛化问题

如何使用TensorFlow Hub文本模块构建一个模型,以根据相关描述预测电影类型

您所选择的预训练文本嵌入是您模型中的一个超参数,所以最好用不同的文本嵌入进行试验,看看哪个的准确性最....

的头像 TensorFlow 发表于 09-07 17:13 302次 阅读
如何使用TensorFlow Hub文本模块构建一个模型,以根据相关描述预测电影类型

Richard Socher:NLP领域的发展要过三座大山

面对自然语言处理发展(NLP)存在的诸多难题,该领域的大牛、Salesforce的首席科学家Rich....

的头像 人工智能学家 发表于 09-06 11:40 482次 阅读
Richard Socher:NLP领域的发展要过三座大山

困扰NLP领域的这三座大山究竟是什么?

曾经被视为科幻的场景现在变为了现实,但为了维持真正的人机关系,机器必须能够与人进行更直观、理解上下文....

的头像 中国人工智能学会 发表于 09-05 15:32 356次 阅读
困扰NLP领域的这三座大山究竟是什么?

迁移学习、多任务学习领域的进展

如果我们想使用多任务学习,但只有一个任务,该怎么办呢?一篇名为 “Pseudo-task Augme....

的头像 电子发烧友网工程师 发表于 09-04 08:50 308次 阅读
迁移学习、多任务学习领域的进展

AI智能电销机器人是如何工作的?

AI智能机器人保证时刻保持100%的热情和礼貌去拨通每一个电话,专业真人话术配音交流。对客户的坏脾气....

发表于 09-03 08:00 73次 阅读
AI智能电销机器人是如何工作的?

一个two-stage框架,允许用户直接操作自然场景的高级属性

为了克服这一点,我们提出了一种结合神经图像生成和风格迁移的方法。首先,我们设计了一个条件图像合成模型....

的头像 论智 发表于 08-31 09:36 380次 阅读
一个two-stage框架,允许用户直接操作自然场景的高级属性

自然语言处理(NLP)知识结构总结

自然语言处理知识太庞大了,网上也都是一些零零散散的知识,比如单独讲某些模型,也没有来龙去脉,学习起来....

的头像 人工智能精选 发表于 08-29 09:58 750次 阅读
自然语言处理(NLP)知识结构总结

最先进的NLP模型很脆弱!最先进的NLP模型是虚假的!

这两个问题都很棘手,显然,为期一天的研讨会肯定讨论不出什么结果。但是在会议现场,一些有远见卓识的NL....

的头像 论智 发表于 08-27 09:47 391次 阅读
最先进的NLP模型很脆弱!最先进的NLP模型是虚假的!

如何成为一名自然语言处理工程师

自然语言处理和大部分的机器学习或者人工智能领域的技术一样,是一个涉及到多个技能、技术和领域的综合体。....

的头像 人工智能精选 发表于 08-27 09:43 471次 阅读
如何成为一名自然语言处理工程师

释义思维:模仿人类语言识别的句子嵌入模块

精准的时间序列预告对交通、能源、金融、经济等领域都非常重要。但是现代技术都是通过时间数据来建立预测模....

的头像 论智 发表于 08-22 08:50 1162次 阅读
释义思维:模仿人类语言识别的句子嵌入模块

面向NLP任务的迁移学习新模型ULMFit

除了能够更快地进行训练之外,迁移学习也是特别有趣的,仅在最后一层进行训练,让我们可以仅仅使用较少的标....

的头像 新智元 发表于 08-22 08:11 623次 阅读
面向NLP任务的迁移学习新模型ULMFit

浅析自然语言处理知识体系结构

自然语言处理知识太庞大了,网上也都是一些零零散散的知识,比如单独讲某些模型,也没有来龙去脉,学习起来....

的头像 电子发烧友网工程师 发表于 08-18 09:57 1383次 阅读
浅析自然语言处理知识体系结构

什么是迁移学习?NLP迁移学习的未来

只用了100个案例,他们就达到了和用2万个案例训练出的模型同样的错误率水平。除此之外,他们还提供了对....

的头像 论智 发表于 08-17 09:18 526次 阅读
什么是迁移学习?NLP迁移学习的未来

人工智能时代下,NLP技术赋予了机器自然语言识别能力

语言是人类特有的技能,是人类智慧的体现。在人工智能时代,自然语言处理(NLP)技术为机器赋予了这样的....

发表于 08-07 16:27 118次 阅读
人工智能时代下,NLP技术赋予了机器自然语言识别能力

知识图会成为 NLP 的未来吗?IJCAI杰出论文背后的思考

在本文中,我们提出了一个常识知识感知对话模型 (CCM),演示了常识知识有助于开放域对话系统中语言的....

的头像 电子发烧友网工程师 发表于 08-07 14:31 429次 阅读
知识图会成为 NLP 的未来吗?IJCAI杰出论文背后的思考

人工智能将如何商业化?对未来又有什么影响?

现代数字革命过程中出现了许多企业技术,随之而来是大量的宣传,这些宣传多半是无法实现的。但人工智能(A....

发表于 08-06 10:34 107次 阅读
人工智能将如何商业化?对未来又有什么影响?

AutoML到底是怎样设计模型的?有哪些优势?

而基因库的知识积累是靠它自己在设计过程中学出来的,我们不会因为某个网络效果特别好而强放进去,因为它可....

的头像 电子发烧友网工程师 发表于 08-06 09:21 757次 阅读
AutoML到底是怎样设计模型的?有哪些优势?

了解迁移学习,哪种情况适合做迁移学习?

算法的基本思想是 从源 Domain 数据中筛选有效数据,过滤掉与目标 Domain 不match的....

的头像 电子发烧友网工程师 发表于 08-05 10:39 656次 阅读
了解迁移学习,哪种情况适合做迁移学习?

NLP概述及文本自动分类算法详解

同步的序列到序列,其实就是序列标注问题,应该说是自然语言处理中最常见的问题。序列标注的应用包括中文分....

的头像 人工智能头条 发表于 07-25 18:03 552次 阅读
NLP概述及文本自动分类算法详解

如何利用spaCy和Cython以约100倍于Python的速度实现NLP

然后,我们可以将矩形列表存储在这种结构的 C 数组中,并将这个数组传递给我们的 check_rect....

的头像 马哥Linux运维 发表于 07-24 16:52 640次 阅读
如何利用spaCy和Cython以约100倍于Python的速度实现NLP

深度学习在NLP中的发展和应用

自然语言处理任务大概有哪些?我个人做了一个总结,基本可以划分分为五层项任务:,词法分析、句子分析、语....

的头像 电子发烧友网工程师 发表于 07-24 10:14 656次 阅读
深度学习在NLP中的发展和应用

如何让计算机理解文本并从中提取数据呢?

这段文字包含多个有用事实,如果计算机能从中读懂“伦敦是一座城市”“伦敦位于英格兰”“伦敦由罗马人建立....

的头像 论智 发表于 07-24 09:38 1408次 阅读
如何让计算机理解文本并从中提取数据呢?

decaNLP通用模型诞生,可以轻松搞定十项自然语言任务

近日,Salesforce发布了一项新的研究成果:decaNLP——一个可以同时处理机器翻译、问答、....

的头像 人工智能头条 发表于 07-17 16:25 790次 阅读
decaNLP通用模型诞生,可以轻松搞定十项自然语言任务

Github上Star过千的PyTorch NLP相关项目都在这儿了!

OpenNMT 全称是Open Source Neural Machine Translation ....

的头像 新智元 发表于 07-11 09:35 903次 阅读
Github上Star过千的PyTorch NLP相关项目都在这儿了!

为什么说具有语言处理能力是物联网智能设备的未来详细解答

物联网(IOT)与人工智能(AI)息息相关。物联网产生大量数据,而数据又是人工智能和机器学习的核心....

的头像 物联之家网 发表于 07-07 11:30 3620次 阅读
为什么说具有语言处理能力是物联网智能设备的未来详细解答

decaNLP——同时处理十项自然语言任务的通用模型

目前的NLP领域有一个问题:即使是再厉害的算法也只能针对特定的任务,比如适用于机器翻译的模型不一定可....

的头像 人工智能学家 发表于 06-27 15:07 932次 阅读
decaNLP——同时处理十项自然语言任务的通用模型

用迁移学习探明CV任务的底层结构

今晨,第31届CVPR在美国盐湖城正式召开。斯坦福和伯克利合作的Taskonomy: Disenta....

的头像 论智 发表于 06-26 15:22 841次 阅读
用迁移学习探明CV任务的底层结构

一个深度学习模型能完成几项NLP任务?

对于机器翻译、文本摘要、Q&A、文本分类等自然语言处理任务来说,深度学习的出现一遍遍刷新了state....

的头像 论智 发表于 06-26 15:19 791次 阅读
一个深度学习模型能完成几项NLP任务?

自然语言处理方法和应用

2018CCAI大会邀请到国内NLP领域顶尖学者,苏州大学特聘教授,计算机学院副院长,人类语言技术研....

的头像 中国人工智能学会 发表于 06-25 15:44 604次 阅读
自然语言处理方法和应用

介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉

对于IDF而言,长文档包含的单词更多,因此更容易出现各种单词。因此,IDF相等的情况下,经常出现在短....

的头像 论智 发表于 06-25 14:50 1535次 阅读
介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉

Salesforce发布了一项新的研究成果:decaNLP十项自然语言任务的通用模型

自然语言推理。自然语言推理(NLI)模型接受两个输入句子:一个前提和一个假设。模型必须将前提和假设之....

的头像 电子发烧友网工程师 发表于 06-25 08:47 1539次 阅读
Salesforce发布了一项新的研究成果:decaNLP十项自然语言任务的通用模型

智慧芽完成3800万美元D轮融资

6月14日,全球研发情报与知识产权管理SaaS服务提供商智慧芽(PatSnap)宣布已经完成3800....

的头像 机器人技术与应用 发表于 06-22 10:54 1064次 阅读
智慧芽完成3800万美元D轮融资

50个机器学习实用API

还在为找不到机器学习的API而烦恼吗?本篇文章将介绍一个包含50+关于人脸和图像识别,文本分析,NL....

的头像 传感器技术 发表于 06-13 18:20 981次 阅读
50个机器学习实用API

NLP的介绍和如何利用机器学习进行NLP以及三种NLP技术的详细介绍

本文用简洁易懂的语言,讲述了自然语言处理(NLP)的前世今生。从什么是NLP到为什么要学习NLP,再....

的头像 人工智能头条 发表于 06-10 10:26 4896次 阅读
NLP的介绍和如何利用机器学习进行NLP以及三种NLP技术的详细介绍

ACL收录京东智能广告实验室论文

近日,京东智能广告实验室和伦斯勒理工学院联合发表了题为“基于多语言多任务的低资源序列标注架构”的学术....

的头像 人工智能头条 发表于 06-08 14:17 616次 阅读
ACL收录京东智能广告实验室论文

如何用更少的数据自动将文本分类,同时精确度还比原来的方法高

计算机视觉领域迁移学习和预训练ImageNet模型的成功已经转移到了NLP领域。许多企业家、科学家和....

的头像 论智 发表于 05-21 15:53 1502次 阅读
如何用更少的数据自动将文本分类,同时精确度还比原来的方法高

什么是迁移学习?迁移学习的实现方法与工具分析

人工智能竞争,从算法模型的研发竞争,转向数据和数据质量的竞争,这些成功的模型和算法主要是由监督学习推....

发表于 05-11 09:12 1278次 阅读
什么是迁移学习?迁移学习的实现方法与工具分析

暴风AI电视7亮相 可以完全不通过遥控器实现与电视互动

据报道,互联网电视品牌暴风TV在京举行春季新品发布会,全球首台55寸AI+全面屏的旗舰产品——暴风A....

发表于 04-23 10:08 751次 阅读
暴风AI电视7亮相 可以完全不通过遥控器实现与电视互动

命名实体识别(NER)是自然语言处理(NLP)中的基本任务之一

LSTM网络是整体思路同样是先对给定的训练样本进行学习,确定模型中的参数,再利用该模型对测试样本进行....

的头像 中兴开发者社区 发表于 04-18 11:17 1136次 阅读
命名实体识别(NER)是自然语言处理(NLP)中的基本任务之一

Deep Learning如何能在NLP中发挥出应有的real power呢?

每个词都是茫茫 0 海中的一个 1。这种 One-hot Representation 如果采用稀疏....

的头像 人工智能爱好者社区 发表于 04-08 09:53 889次 阅读
Deep Learning如何能在NLP中发挥出应有的real power呢?

AI技术可以通过言语来判断是否患有精神病

语言是一个迷人的交流工具,可以让人们彼此分享想法。通常情况下,如果语言的清晰度和准确性使用得当,语言....

发表于 03-21 03:50 170次 阅读
AI技术可以通过言语来判断是否患有精神病

基于神经网络结构在命名实体识别中应用的分析与总结

近年来,基于神经网络的深度学习方法在自然语言处理领域已经取得了不少进展。作为NLP领域的基础任务—命....

的头像 Imagination Tech 发表于 01-18 09:24 1466次 阅读
基于神经网络结构在命名实体识别中应用的分析与总结