0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

新的预训练方法——MASS!MASS预训练几大优势!

电子工程师 来源:lq 2019-05-11 09:34 次阅读

编者按:从2018年开始,预训练(pre-train) 毫无疑问成为NLP领域最热的研究方向。借助于BERT和GPT等预训练模型,人类在多个自然语言理解任务中取得了重大突破。然而,在序列到序列的自然语言生成任务中,目前主流预训练模型并没有取得显著效果。为此,微软亚洲研究院的研究员在ICML 2019上提出了一个全新的通用预训练方法MASS,在序列到序列的自然语言生成任务中全面超越BERT和GPT。在微软参加的WMT19机器翻译比赛中,MASS帮助中-英、英-立陶宛两个语言对取得了第一名的成绩。

BERT在自然语言理解(比如情感分类、自然语言推理、命名实体识别、SQuAD阅读理解等)任务中取得了很好的结果,受到了越来越多的关注。然而,在自然语言处理领域,除了自然语言理解任务,还有很多序列到序列的自然语言生成任务,比如机器翻译、文本摘要生成、对话生成、问答、文本风格转换等。在这类任务中,目前主流的方法是编码器-注意力-解码器框架,如下图所示。

编码器-注意力-解码器框架

编码器(Encoder)将源序列文本X编码成隐藏向量序列,然后解码器(Decoder)通过注意力机制(Attention)抽取编码的隐藏向量序列信息,自回归地生成目标序列文本Y。

BERT通常只训练一个编码器用于自然语言理解,而GPT的语言模型通常是训练一个解码器。如果要将BERT或者GPT用于序列到序列的自然语言生成任务,通常只有分开预训练编码器和解码器,因此编码器-注意力-解码器结构没有被联合训练,记忆力机制也不会被预训练,而解码器对编码器的注意力机制在这类任务中非常重要,因此BERT和GPT在这类任务中只能达到次优效果。

新的预训练方法——MASS

专门针对序列到序列的自然语言生成任务,微软亚洲研究院提出了新的预训练方法:屏蔽序列到序列预训练(MASS: Masked Sequence to Sequence Pre-training)。MASS对句子随机屏蔽一个长度为k的连续片段,然后通过编码器-注意力-解码器模型预测生成该片段。

屏蔽序列到序列预训练MASS模型框架

如上图所示,编码器端的第3-6个词被屏蔽掉,然后解码器端只预测这几个连续的词,而屏蔽掉其它词,图中“_”代表被屏蔽的词。

MASS预训练有以下几大优势:

(1)解码器端其它词(在编码器端未被屏蔽掉的词)都被屏蔽掉,以鼓励解码器从编码器端提取信息来帮助连续片段的预测,这样能促进编码器-注意力-解码器结构的联合训练;

(2)为了给解码器提供更有用的信息,编码器被强制去抽取未被屏蔽掉词的语义,以提升编码器理解源序列文本的能力;

(3)让解码器预测连续的序列片段,以提升解码器的语言建模能力。

统一的预训练框架

MASS有一个重要的超参数k(屏蔽的连续片段长度),通过调整k的大小,MASS能包含BERT中的屏蔽语言模型训练方法以及GPT中标准的语言模型预训练方法,使MASS成为一个通用的预训练框架。

当k=1时,根据MASS的设定,编码器端屏蔽一个单词,解码器端预测一个单词,如下图所示。解码器端没有任何输入信息,这时MASS和BERT中的屏蔽语言模型的预训练方法等价。

当k=m(m为序列长度)时,根据MASS的设定,编码器屏蔽所有的单词,解码器预测所有单词,如下图所示,由于编码器端所有词都被屏蔽掉,解码器的注意力机制相当于没有获取到信息,在这种情况下MASS等价于GPT中的标准语言模型。

MASS在不同K下的概率形式如下表所示,其中m为序列长度,u和v为屏蔽序列的开始和结束位置,x^u:v表示从位置u到v的序列片段,x^\u:v表示该序列从位置u到v被屏蔽掉。可以看到,当K=1或者m时,MASS的概率形式分别和BERT中的屏蔽语言模型以及GPT中的标准语言模型一致。

我们通过实验分析了屏蔽MASS模型中不同的片段长度(k)进行预训练的效果,如下图所示。

当k取大约句子长度一半时(50% m),下游任务能达到最优性能。屏蔽句子中一半的词可以很好地平衡编码器和解码器的预训练,过度偏向编码器(k=1,即BERT)或者过度偏向解码器(k=m,即LM/GPT)都不能在该任务中取得最优的效果,由此可以看出MASS在序列到序列的自然语言生成任务中的优势。

序列到序列自然语言生成任务实验

预训练流程

MASS只需要无监督的单语数据(比如WMT News Crawl Data、Wikipedia Data等)进行预训练。MASS支持跨语言的序列到序列生成(比如机器翻译),也支持单语言的序列到序列生成(比如文本摘要生成、对话生成)。当预训练MASS支持跨语言任务时(比如英语-法语机器翻译),我们在一个模型里同时进行英语到英语以及法语到法语的预训练。需要单独给每个语言加上相应的语言嵌入向量,用来区分不同的语言。我们选取了无监督机器翻译、低资源机器翻译、文本摘要生成以及对话生成四个任务,将MASS预训练模型针对各个任务进行精调,以验证MASS的效果。

无监督机器翻译

在无监督翻译任务上,我们和当前最强的Facebook XLM作比较(XLM用BERT中的屏蔽预训练模型,以及标准语言模型来分别预训练编码器和解码器),对比结果如下表所示。

可以看到,MASS的预训练方法在WMT14英语-法语、WMT16英语-德语一共4个翻译方向上的表现都优于XLM。MASS在英语-法语无监督翻译上的效果已经远超早期有监督的编码器-注意力-解码器模型,同时极大缩小了和当前最好的有监督模型之间的差距。

低资源机器翻译

低资源机器翻译指的是监督数据有限情况下的机器翻译。我们在WMT14英语-法语、WMT16英语-德语上的不同低资源场景上(分别只有10K、100K、1M的监督数据)验证我们方法的有效性,结果如下所示。

在不同的数据规模下,我们的预训练方法的表现均比不用预训练的基线模型有不同程度的提升,监督数据越少,提升效果越显著。

文本摘要生成

在文本摘要生成(Gigaword Corpus)任务上,我们将MASS同BERT+LM(编码器用BERT预训练,解码器用标准语言模型LM预训练)以及DAE(去噪自编码器)进行了比较。从下表可以看到,MASS的效果明显优于BERT+LM以及DAE。

对话生成

在对话生成(Cornell Movie Dialog Corpus)任务上,我们将MASS同BERT+LM进行了比较,结果如下表所示。MASS的PPL低于BERT+LM。

在不同的序列到序列自然语言生成任务中,MASS均取得了非常不错的效果。接下来,我们还将测试MASS在自然语言理解任务上的性能,并为该模型增加支持监督数据预训练的功能,以期望在更多自然语言任务中取得提升。未来,我们还希望将MASS的应用领域扩展到包含语音、视频等其它序列到序列的生成任务中。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1073

    浏览量

    40130
  • 编码器
    +关注

    关注

    41

    文章

    3352

    浏览量

    131411
  • 自然语言
    +关注

    关注

    1

    文章

    268

    浏览量

    13194

原文标题:ICML 2019:序列到序列自然语言生成任务超越BERT、GPT!微软提出通用预训练模型MASS | 技术头条

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    USB mass storage 设备读写问题

    的插拔时(mass storage),使用SetupDixxx类的API函数检测到的设备类型是DBT_DEVTYP_DEVICEINTERFACE。。但我在另一个地方看到一种重载WindowProc的方法,对同一mass sto
    发表于 08-22 22:20

    gensim增量训练方法

    使用gensim训练词向量
    发表于 07-31 14:12

    优化神经网络训练方法有哪些?

    优化神经网络训练方法有哪些?
    发表于 09-06 09:52

    Universal Serial Bus Mass Stor

    Universal Serial Bus Mass Storage Specification For Bootability 1 IntroductionWhen personal
    发表于 04-11 19:17 18次下载

    Mass Storage协议

    Mass Storage 协议 如果是按照Mass Storage Bulk-Only 传输协议提供的描述符,则当Bus Hound 中DI 阶段中的数据出现55 53 42 53 字样,说明已经开始
    发表于 04-13 22:45 1340次阅读
    <b class='flag-5'>Mass</b> Storage协议

    USB Mass Storage

    USB Mass Storage,PCB学习好资料,欢迎下载学习。
    发表于 03-23 10:46 0次下载

    2014_Mass_Select_20140609

    2014_Mass_Select_20140609 PCB设计大赛。
    发表于 05-17 11:09 0次下载

    Mass Virtual打开军事训练新篇章

    每一次技术革新都会受到军方的关注,VR也不例外,Mass Virtual目前专门为国防与安全产业生产了一款VR模拟器。 虚拟现实技术在进入普通消费者视野之前,已经作为军方进行军事模拟演习的工具并使用了很长一段时间。
    发表于 11-28 11:53 573次阅读

    09 Mass Storage设备

    09 Mass Storage设备
    发表于 10-11 09:15 11次下载
    09 <b class='flag-5'>Mass</b> Storage设备

    微软在ICML 2019上提出了一个全新的通用预训练方法MASS

    专门针对序列到序列的自然语言生成任务,微软亚洲研究院提出了新的预训练方法:屏蔽序列到序列预训练MASS: Masked Sequence to Sequence Pre-training
    的头像 发表于 05-11 09:19 3257次阅读
    微软在ICML 2019上提出了一个全新的通用预<b class='flag-5'>训练方法</b><b class='flag-5'>MASS</b>

    一种侧重于学习情感特征的预训练方法

    transformers编码表示)的基础上,提岀了一种侧重学习情感特征的预训练方法。在目标领域的预练阶段,利用情感词典改进了BERT的预训练任务。同时,使用基于上下文的词粒度情感预测任务对掩盖词情感极性进行分类,获取偏向情感特征的文本表
    发表于 04-13 11:40 4次下载
    一种侧重于学习情感特征的预<b class='flag-5'>训练方法</b>

    现代交互技术下的儿童语言表达训练方法

    现代交互技术下的儿童语言表达训练方法
    发表于 06-27 11:27 3次下载

    ZSSC3240 Mass Calibration 软件 Guide

    ZSSC3240 Mass Calibration 软件 Guide
    发表于 02-03 19:02 2次下载
    ZSSC3240 <b class='flag-5'>Mass</b> Calibration 软件 Guide

    ZSSC3240 Mass Calibration 软件 Guide

    ZSSC3240 Mass Calibration 软件 Guide
    发表于 07-04 19:34 0次下载
    ZSSC3240 <b class='flag-5'>Mass</b> Calibration 软件 Guide

    谷歌模型训练软件有哪些功能和作用

    谷歌模型训练软件主要是指ELECTRA,这是一种新的预训练方法,源自谷歌AI。ELECTRA不仅拥有BERT的优势,而且在效率上更胜一筹。
    的头像 发表于 02-29 17:37 375次阅读