【四旋翼飞行器】76小时吃透四轴算法!史上最强软硬结合实战项目,👉戳此立抢👈

无监督训练加微小调整,只用一个模型即可解决多种NLP

新智元 2018-06-13 18:00 次阅读

基于一个可伸缩的、任务无关的系统,OpenAI在一组包含不同的语言任务中获得了最优的实验结果,方法是两种现有理念的结合:迁移学习和无监督的预训练。这些结果证明了有监督的学习方法可以与无监督的预训练进行完美的结合。这个想法许多人在过去探索过,OpenAI希望结果能激发更多的研究,进而将这个想法应用到更大、更多样化的数据集上。

我们的系统分为两个阶段:首先,我们通过无监督的方式在大数据集上训练一个迁移学习模型,训练过程中使用语言模型的训练结果作为信号,然后我们在更小的有监督数据集上对这个模型进行微调,以帮助它解决特定的任务。这个方法的开发是在我们前一个sentiment neuron(情绪神经元)的工作之后进行的,在sentiment neuron任务中我们注意到,通过利用足够的数据对模型进行训练,无监督学习可以获得令人惊讶的判别特征。在这里,我们想进一步探讨这个想法:我们能否开发一个模型,以一种无监督的方式使用大量数据对模型进行训练,然后对模型进行微调,以在不同的任务中都获得良好的性能?我们的研究结果表明,这种方法的效果出奇地好。同样的核心模型可以针对完全不同的任务进行微调,以适应任务。

本研究是基于在半监督序列学习中引入的方法,该方法展示了如何通过对LSTM进行无监督的预训练,然后进行有监督的微调,来提高文本分类的能力。它还扩展了ULMFiT的研究,该研究展示了如何对单个数据不可知的LSTM语言模型进行微调,从而在各种文本分类数据集上获得最优的性能。我们的工作展示了如何在这种方法中使用迁移学习模型,从而在文本分类之外的更广泛任务中取得成功,例如常识推理、语义相似性和阅读理解等。它与ELMo类似,但属于任务无关型问题,它包含了预训练,希望使用针对任务的特殊模型架构来获得最优的结果。

我们通过对很少的参数调优来达到我们的目的。所有的数据集都仅使用一个前向语言模型,没有任何组合,并且大多数的结果都使用完全相同的超参数设置。 

我们的方法在COPA、RACE和ROCStories三个数据集上的性能都表现得特别好,这些数据集是用来测试常识推理和阅读理解的。我们的模型在这些数据集上获得了最优的结果。这些数据集的识别被认为需要多句推理和重要的世界知识,这表明我们的模型主要通过无监督学习来提高这些能力。以上表明,无监督的技术有希望开发复杂的语言理解能力。

为什么是无监督学习?

监督学习是大多数机器学习算法成功的核心。然而,它需要对大量的数据进行仔细的清理,创建的代价也极其昂贵,这样才能获得很好的效果。无监督学习的吸引力在于它有可能解决这些缺点。由于无监督的学习消除了人为显式标记的瓶颈,它也很好地扩展了当前的趋势,即增加了原始数据的计算能力和可用性。无监督学习是一个非常活跃的研究领域,但它的实际应用往往很有限。

最近的一次一项尝试是试图通过使用无监督学习来对具有大量未标记数据的系统进行增强,从而进一步提高模型的语言能力。通过无监督训练的单词表示可以使用包含万亿字节信息组成的大型数据集,当与有监督学习相结合时,可以提高各种NLP任务的性能。直到最近,这些无监督的NLP技术(例如GLoVe和word2vec)使用了简单的模型(词向量)和训练信号(单词的局部同时出现)。skip-Thought向量是一个很值得注意的早期想法,它展示了更复杂的方法如何进行改进的潜能。而现在正在使用新的技术将进一步提高实验性能。上述技术包括使用预训练的句子来表示模型,上下文化的词向量(特别是ELMo和CoVE),以及像我们提出来的方法:使用特定的模型架构来将无监督的预训练和有监督的微调融合在一起。

在大量文本的基础上对我们的模型进行预训练,极大地提高了它在具有挑战性的自然语言处理任务上的性能,比如Winograd模式解析。

我们还注意到,我们可以使用未训练的基础语言模型执行任务。例如,随着基础语言模型的改进,像选择多个正确答案这样任务的性能会稳步增加。虽然这些方法的绝对性能相对于最新的有监督技术而言仍然很低,(对于问答系统,它的表现优于简单的滑动窗口那样的基线系统)但是鼓舞人心的一点是,这种行为在广泛集合的任务中是具有鲁棒性的。使用这些启发式算法,不包含关于任务和世界的信息的随机初始化网络不会比包含这些信息的随机初始化方法获得更好的效果。这就提供了一些见解,告诉我们为什么生成预训练可以提高下游任务的性能。

我们还可以使用模型中现有的语言功能来执行情感分析。对于由正面和负面影评组成的斯坦福情绪Treebank数据集,我们可以通过使用语言模型在句子后面输入单词“very”来猜测评论是正面还是负面,还能看看这个模型是否具有预测“积极的”或“消极的”的倾向。 这种方法根本不需要根据任务调整模型,其性能与经典基线相当,准确度达到80%左右。

我们的工作也验证了迁移学习的鲁棒性和有效性,这表明它足够灵活,可以在不需要对复杂的任务进行定制或对超参数进行调优的情况下,在广泛数据的任务上获得最优的结果。

缺点

这个项目有一些问题还是值得注意的:

计算要求:许多以前的NLP任务方法都是从头开始,在单个GPU上训练相对较小的模型。 我们的方法需要昂贵的预训练步骤:在8个GPU上进行为期1个月的训练。幸运的是,这个训练只需要进行一次。我们正在发布我们的模型,这样其他人就不用再次训练这样的模型了。同时,与之前的工作相比,它也是一个大型模型,因此使用更多的计算和内存,我们使用了37层(12块)Transformer架构,并且我们训练的序列最多可达512个令牌。大多数实验都是在4个/8个GPU系统上进行的。该模型可以快速调整新任务,从而有助于减轻额外的资源需求。

学习到文本中所包含的世界局限性和数据倾斜:互联网上随时可用的书籍和文本不包含关于世界的完整乃至准确的信息。最近的工作表明,某些类型的信息很难通过文本学习,而其他工作表明模型学习且利用了数据分布中包含的倾斜。

脆弱的泛化能力:尽管我们的方法改善了广泛任务的性能,但目前的深度学习NLP模型的表现有时仍然是违反直觉并且令人震惊的,尤其是在以系统性,对抗性或分布式分布的方式进行评估时。尽管我们已经观察到一些进展的迹象,但我们的方法对这些问题并非免疫。相比较于以往纯文本的神经网络,我们的方法具有更优越的词法鲁棒性。在2018年Glockner等人介绍的数据集中,我们的模型准确率达到83.75%,表现类似于通过WordNet整合外部知识的KIM方法。

展望未来

扩展方法:我们已经观察到,语言模型性能的改进与下游任务的改进密切相关。目前我们正在使用一台包含8 GPU计算机作为硬件,并仅使用大概包含5GB文本的几千本书作为训练数据集。 根据经验表明,使用更多的计算性能和数据可以使算法有很大的改进空间。

改进微调:我们的方法目前非常简单。如果使用更复杂的适应和迁移技术(例如ULMFiT中探索的技术)可能会有实质性的改进。

更好地理解生成性预训练的原理会对模型有益:尽管我们已经讨论了一些我们在此讨论的想法,但更有针对性的实验和研究将有助于区分那些不同的解释。例如,我们观察到的性能提高有多少是得益于改进了处理更广泛背景的能力以及改进的世界知识?

原文标题:OpenAI最新研究:通过无监督学习提高语言理解能力

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
分享:

评论

相关推荐

详解谷歌最强NLP模型BERT

面我们介绍了 Word Embedding,怎么把一个词表示成一个稠密的向量。Embedding几乎....
的头像 电子发烧友网工程师 发表于 01-20 09:24 281次 阅读
详解谷歌最强NLP模型BERT

NLP中的4个主要开放问题

我们在小组讨论中讨论了这些问题。这篇文章主要是基于我们的专家的回答,以及小组成员Jade Abbot....
的头像 新智元 发表于 01-20 08:48 237次 阅读
NLP中的4个主要开放问题

中文自然语言处理的语料集合及其构建现状

本项目以采集公开的人民日报与参考消息为例进行历时的新闻采集为例, 公开网站中公开了1946-2003....
的头像 电子发烧友网工程师 发表于 01-15 10:38 792次 阅读
中文自然语言处理的语料集合及其构建现状

回顾2018自然语言处理NLP最全的应用与合作

2018年见证了 NLP 许多新的应用发展。Elvis Saravia 是计算语言学专家,也是201....
的头像 人工智能 发表于 01-13 09:08 471次 阅读
回顾2018自然语言处理NLP最全的应用与合作

2018年国际顶尖学术会议上发表的机器学习和NLP相关论文的数据统计

先来看看2012-2018年间统计收录的会议上的会议论文。大多数机器学习会议上发表的论文数量都呈现持....
的头像 新智元 发表于 01-12 09:42 484次 阅读
2018年国际顶尖学术会议上发表的机器学习和NLP相关论文的数据统计

探讨NLP技术落地的难点及如何降低开发者门槛的问题

AI 很火,但是 AI 的门槛也很高,普通的开发者想要搭上这波 AI 红利依然困难。
的头像 电子发烧友网工程师 发表于 01-10 09:06 441次 阅读
探讨NLP技术落地的难点及如何降低开发者门槛的问题

Topbots总结了2018年里10篇最为重要的AI研究论文

研究人员们发现,对于对抗性样本的防御,目前主要使用的是梯度模糊方法,但这种方法并不能带来真正的安全,....
的头像 人工智能 发表于 01-09 17:00 385次 阅读
Topbots总结了2018年里10篇最为重要的AI研究论文

回顾2018年深度学习NLP十大创新思路

Sebastian Ruder 是一位 NLP 方向的博士生、研究科学家,目前供职于一家做 NLP ....
的头像 人工智能学家 发表于 01-08 11:25 403次 阅读
回顾2018年深度学习NLP十大创新思路

AI今年最大进展是什么?2019年AutoML、GAN将扛大旗

KDnuggets邀请11位来自工业、学术和技术一线的人员,回顾2018年AI的进展,并展望2019....
发表于 12-26 17:39 2468次 阅读
AI今年最大进展是什么?2019年AutoML、GAN将扛大旗

2018年ML/AI领域最重要的进展是什么?

除了这些之外,还有其他一些进步,比如Facebook的多语言嵌入。而且,我们也看到了这些方法被整合到....
的头像 人工智能 发表于 12-26 14:56 572次 阅读
2018年ML/AI领域最重要的进展是什么?

浅析word2vec的安装和使用方法

NLP之word2vec:word2vec简介、安装、使用方法之详细攻略...
发表于 12-25 10:32 91次 阅读
浅析word2vec的安装和使用方法

2018年度完美收官的十篇机器学习文章都讲了哪些内容

本文的内容主要是对当前 NLP 领域的三大模型的综述。2018 年是自然语言处理领域(NLP) 取得....
的头像 电子发烧友网工程师 发表于 12-25 10:13 550次 阅读
2018年度完美收官的十篇机器学习文章都讲了哪些内容

2018人工智能技术总结与2019趋势预测报告

2018,仍是AI领域激动人心的一年。这一年成为NLP研究的分水岭,各种突破接连不断;CV领域同样精....
的头像 人工智能学家 发表于 12-23 09:12 3026次 阅读
2018人工智能技术总结与2019趋势预测报告

2018年下半年机器学习领域被密切关注的成果

希望研究者在发表论文的同时可以开源自己的代码实现。在过去 5 年的时间里,我们处理了60000 多篇....
的头像 电子发烧友网工程师 发表于 12-18 09:10 515次 阅读
2018年下半年机器学习领域被密切关注的成果

探析自然语言处理中的深度迁移学习

展示几种最先进的通用句子嵌入编码器,特别是在迁移学习任务的少量数据上与 Word embedding....
的头像 中国人工智能学会 发表于 12-13 15:52 1257次 阅读
探析自然语言处理中的深度迁移学习

推荐3本经典深度学习教程,会改文风的AI来了!

令人更加印象深刻的是,另一项测试中的研究人员使用该系统同时控制句子的多种属性,包括情绪,时态,声音和....
的头像 新智元 发表于 12-12 09:21 636次 阅读
推荐3本经典深度学习教程,会改文风的AI来了!

NVIDIA迁移学习工具包 :用于特定领域深度学习模型快速训练的高级SDK

对于设计和集成智能视频分析(IVA)端应用程序(如停车管理、安全基础设施、零售分析、物流管理和访问控....
的头像 中国人工智能学会 发表于 12-07 14:45 392次 阅读
NVIDIA迁移学习工具包 :用于特定领域深度学习模型快速训练的高级SDK

机器人私人助理已经从科幻变成现实

个人机器人已经从科幻变成现实——一部分已经走向顾客,更多地蓄势待发。我们现在的任务是让它们变得更具竞....
的头像 CEVA 发表于 12-06 14:36 413次 阅读
机器人私人助理已经从科幻变成现实

叽里呱啦用AI增值语言输出能力

谢尚毅说,AI 技术更多会服务具体的教学场景,增值语言输出的能力。
的头像 电子发烧友网工程师 发表于 12-04 08:41 447次 阅读
叽里呱啦用AI增值语言输出能力

如何在您自己的图像上运行示例脚本,并对您有助于控制训练过程的一些选项作进一步解释

任何训练在开始之前,需要一组图像来向网络传授您想要识别的新类别。本文后半部分会介绍该如何准备自己的图....
的头像 TensorFlow 发表于 11-22 14:52 427次 阅读
如何在您自己的图像上运行示例脚本,并对您有助于控制训练过程的一些选项作进一步解释

为何说Bert是近年来NLP重大进展的集大成者?

这么做有几个好处,首先,如果手头任务 C 的训练集合数据量较少的话,现阶段的好用的 CNN 比如 R....
的头像 电子发烧友网工程师 发表于 11-21 09:34 1272次 阅读
为何说Bert是近年来NLP重大进展的集大成者?

NLP-Progress库NLP的最新数据集、论文和代码

方向是自然语言处理的同学们有福啦,为了跟踪自然语言处理(NLP)的进展,有大量仁人志士在 Githu....
的头像 中国人工智能学会 发表于 11-17 09:21 383次 阅读
NLP-Progress库NLP的最新数据集、论文和代码

NLP学习:HanLP使用实验

在之前的实验中得到了不在词向量里的词与分词结果,结果有500多个词不在词向量里,解决方案就是重新分词,或再追加训练这些词到词...
发表于 11-14 11:07 629次 阅读
NLP学习:HanLP使用实验

Hanlp使用Bug记录

最近一直比较忙,好多私信也没时间回复。以后要完全从CV转NLP,所以博客内容可能要作调整了。 Hanlp是最近学习的一个自然...
发表于 11-07 09:33 517次 阅读
Hanlp使用Bug记录

其实自然语言交互就是个坑,为什么会出现这种情况?

第四,这个行业工作量很大,即便是小领域工作量也很大。有人说通用问答机器人我做不好,我做个法律、医疗、....
的头像 1号机器人网 发表于 11-06 11:50 538次 阅读
其实自然语言交互就是个坑,为什么会出现这种情况?

NLP如何帮AI摆脱智障之名 突破还乏善可陈

延续今年的突破,明年迁移学习在 NLP 的应用还会上一个台阶;NLG 方面今年已见曙光,期待明年的突....
的头像 电子发烧友网工程师 发表于 11-06 08:29 578次 阅读
NLP如何帮AI摆脱智障之名 突破还乏善可陈

BERT的官方代码终于来了

预训练(Pre-training)的成本是相当昂贵的(需要4到16个Cloud TPU训练4天),但....
的头像 新智元 发表于 11-05 17:17 1320次 阅读
BERT的官方代码终于来了

在应用层面了解迁移学习的原理及其优势

因为我们使用的是底层的构建块,我们可以轻松改变模型的某个单一部件(例如,将F.relu变为F.sig....
的头像 电子发烧友网工程师 发表于 10-27 10:20 1061次 阅读
在应用层面了解迁移学习的原理及其优势

谷歌BERT模型的主体结构和创新点介绍 双向语言模型的引入

通俗地说就是在输入一句话的时候,随机地选一些要预测的词,然后用一个特殊的符号来代替它们。尽管模型最终....
的头像 新智元 发表于 10-21 09:38 1073次 阅读
谷歌BERT模型的主体结构和创新点介绍 双向语言模型的引入

专访NLP领域的华人新星——加州大学圣巴巴拉分校助理教授王威廉

在 NLP 领域,实体标注等工作的结果都非常好了,基本上都超过 90% 的准确率。现在的一些工作,包....
的头像 电子发烧友网工程师 发表于 10-18 11:39 1606次 阅读
专访NLP领域的华人新星——加州大学圣巴巴拉分校助理教授王威廉

NLP领域取得最重大突破!BERT模型开启了NLP的新时代!

BERT 提出一种新的预训练目标:遮蔽语言模型(masked language model,MLM)....
的头像 新智元 发表于 10-18 10:55 801次 阅读
NLP领域取得最重大突破!BERT模型开启了NLP的新时代!

用NLP技术分析了一位出名却也具有争议的嘻哈歌手——Drake创作的歌词

有两种将 LDA 模型进行可视化的方法。第一个是通过写一个函数,输出为每个主题中最突出的单词。这个结....
的头像 电子发烧友网工程师 发表于 10-04 09:08 614次 阅读
用NLP技术分析了一位出名却也具有争议的嘻哈歌手——Drake创作的歌词

自然语言处理研究的基本问题及发展趋势

自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自....
的头像 Imagination Tech 发表于 09-21 14:22 1006次 阅读
自然语言处理研究的基本问题及发展趋势

对深度迁移学习的当前研究进行了回顾和分类

定义 1:(迁移学习)。给定一个基于数据 Dt 的学习任务 Tt,我们可以从 Ds 中获取对任务 T....
的头像 人工智能和机器人研究院 发表于 09-17 16:17 1527次 阅读
对深度迁移学习的当前研究进行了回顾和分类

讲解CNN+RNN的各种组合方式,以及CNN和RNN的对比

运用迁移学习,CNN特征,语句特征应用已有模型2. 最终的输出模型是LSTM,训练过程的参数设定:梯....
的头像 Imagination Tech 发表于 09-13 15:22 4157次 阅读
讲解CNN+RNN的各种组合方式,以及CNN和RNN的对比

研究人员开发解释多义词的神经网络

艾伦人工智能研究所和华盛顿大学的研究人员正在使用可以根据上下文来确定英文单词含义的神经网络。
的头像 英伟达NVIDIA企业解决方案 发表于 09-12 15:52 656次 阅读
研究人员开发解释多义词的神经网络

仔细讨论NLP模型的泛化问题

前段时间的文章《顶会见闻系列:ACL 2018,在更具挑战的环境下理解数据表征及方法评价》中,我们介....
的头像 人工智能学家 发表于 09-10 10:45 910次 阅读
仔细讨论NLP模型的泛化问题

如何使用TensorFlow Hub文本模块构建一个模型,以根据相关描述预测电影类型

您所选择的预训练文本嵌入是您模型中的一个超参数,所以最好用不同的文本嵌入进行试验,看看哪个的准确性最....
的头像 TensorFlow 发表于 09-07 17:13 785次 阅读
如何使用TensorFlow Hub文本模块构建一个模型,以根据相关描述预测电影类型

Richard Socher:NLP领域的发展要过三座大山

面对自然语言处理发展(NLP)存在的诸多难题,该领域的大牛、Salesforce的首席科学家Rich....
的头像 人工智能学家 发表于 09-06 11:40 959次 阅读
Richard Socher:NLP领域的发展要过三座大山

困扰NLP领域的这三座大山究竟是什么?

曾经被视为科幻的场景现在变为了现实,但为了维持真正的人机关系,机器必须能够与人进行更直观、理解上下文....
的头像 中国人工智能学会 发表于 09-05 15:32 668次 阅读
困扰NLP领域的这三座大山究竟是什么?

迁移学习、多任务学习领域的进展

如果我们想使用多任务学习,但只有一个任务,该怎么办呢?一篇名为 “Pseudo-task Augme....
的头像 电子发烧友网工程师 发表于 09-04 08:50 590次 阅读
迁移学习、多任务学习领域的进展

AI智能电销机器人是如何工作的?

AI智能机器人保证时刻保持100%的热情和礼貌去拨通每一个电话,专业真人话术配音交流。对客户的坏脾气....
发表于 09-03 08:00 159次 阅读
AI智能电销机器人是如何工作的?

一个two-stage框架,允许用户直接操作自然场景的高级属性

为了克服这一点,我们提出了一种结合神经图像生成和风格迁移的方法。首先,我们设计了一个条件图像合成模型....
的头像 论智 发表于 08-31 09:36 573次 阅读
一个two-stage框架,允许用户直接操作自然场景的高级属性

自然语言处理(NLP)知识结构总结

自然语言处理知识太庞大了,网上也都是一些零零散散的知识,比如单独讲某些模型,也没有来龙去脉,学习起来....
的头像 人工智能精选 发表于 08-29 09:58 1139次 阅读
自然语言处理(NLP)知识结构总结

最先进的NLP模型很脆弱!最先进的NLP模型是虚假的!

这两个问题都很棘手,显然,为期一天的研讨会肯定讨论不出什么结果。但是在会议现场,一些有远见卓识的NL....
的头像 论智 发表于 08-27 09:47 689次 阅读
最先进的NLP模型很脆弱!最先进的NLP模型是虚假的!

如何成为一名自然语言处理工程师

自然语言处理和大部分的机器学习或者人工智能领域的技术一样,是一个涉及到多个技能、技术和领域的综合体。....
的头像 人工智能精选 发表于 08-27 09:43 665次 阅读
如何成为一名自然语言处理工程师

释义思维:模仿人类语言识别的句子嵌入模块

精准的时间序列预告对交通、能源、金融、经济等领域都非常重要。但是现代技术都是通过时间数据来建立预测模....
的头像 论智 发表于 08-22 08:50 1414次 阅读
释义思维:模仿人类语言识别的句子嵌入模块

面向NLP任务的迁移学习新模型ULMFit

除了能够更快地进行训练之外,迁移学习也是特别有趣的,仅在最后一层进行训练,让我们可以仅仅使用较少的标....
的头像 新智元 发表于 08-22 08:11 1878次 阅读
面向NLP任务的迁移学习新模型ULMFit

浅析自然语言处理知识体系结构

自然语言处理知识太庞大了,网上也都是一些零零散散的知识,比如单独讲某些模型,也没有来龙去脉,学习起来....
的头像 电子发烧友网工程师 发表于 08-18 09:57 1722次 阅读
浅析自然语言处理知识体系结构

什么是迁移学习?NLP迁移学习的未来

只用了100个案例,他们就达到了和用2万个案例训练出的模型同样的错误率水平。除此之外,他们还提供了对....
的头像 论智 发表于 08-17 09:18 855次 阅读
什么是迁移学习?NLP迁移学习的未来

人工智能时代下,NLP技术赋予了机器自然语言识别能力

语言是人类特有的技能,是人类智慧的体现。在人工智能时代,自然语言处理(NLP)技术为机器赋予了这样的....
发表于 08-07 16:27 286次 阅读
人工智能时代下,NLP技术赋予了机器自然语言识别能力