0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软在ICML 2019上提出了一个全新的通用预训练方法MASS

DPVg_AI_era 来源:lq 2019-05-11 09:19 次阅读

微软亚洲研究院的研究员在 ICML 2019 上提出了一个全新的通用预训练方法 MASS,在序列到序列的自然语言生成任务中全面超越 BERT 和 GPT。本文带来论文作者的技术解读。

从 2018 年开始,预训练(pre-train) 毫无疑问成为 NLP 领域最热的研究方向。

借助于 BERT 和 GPT 等预训练模型,人类在多个自然语言理解任务中取得了重大突破。然而,在序列到序列的自然语言生成任务中,目前主流预训练模型并没有取得显著效果。

为此,微软亚洲研究院的研究员在 ICML 2019 上提出了一个全新的通用预训练方法 MASS,在序列到序列的自然语言生成任务中全面超越 BERT 和 GPT。在微软参加的 WMT19 机器翻译比赛中,MASS 帮助中 - 英、英 - 立陶宛两个语言对取得了第一名的成绩。

BERT 在自然语言理解(比如情感分类、自然语言推理、命名实体识别、SQuAD 阅读理解等)任务中取得了很好的结果,受到了越来越多的关注。然而,在自然语言处理领域,除了自然语言理解任务,还有很多序列到序列的自然语言生成任务,比如机器翻译、文本摘要生成、对话生成、问答、文本风格转换等。在这类任务中,目前主流的方法是编码器 - 注意力 - 解码器框架,如下图所示。

编码器 - 注意力 - 解码器框架

编码器(Encoder)将源序列文本 X 编码成隐藏向量序列,然后解码器(Decoder)通过注意力机制(Attention)抽取编码的隐藏向量序列信息,自回归地生成目标序列文本 Y。

BERT 通常只训练一个编码器用于自然语言理解,而 GPT 的语言模型通常是训练一个解码器。如果要将 BERT 或者 GPT 用于序列到序列的自然语言生成任务,通常只有分开预训练编码器和解码器,因此编码器 - 注意力 - 解码器结构没有被联合训练,记忆力机制也不会被预训练,而解码器对编码器的注意力机制在这类任务中非常重要,因此 BERT 和 GPT 在这类任务中只能达到次优效果。

新的预训练方法 ——MASS

专门针对序列到序列的自然语言生成任务,微软亚洲研究院提出了新的预训练方法:屏蔽序列到序列预训练(MASS: Masked Sequence to Sequence Pre-training)。MASS 对句子随机屏蔽一个长度为 k 的连续片段,然后通过编码器 - 注意力 - 解码器模型预测生成该片段。

屏蔽序列到序列预训练 MASS 模型框架

如上图所示,编码器端的第 3-6 个词被屏蔽掉,然后解码器端只预测这几个连续的词,而屏蔽掉其它词,图中 “_” 代表被屏蔽的词。

MASS 预训练有以下几大优势:

(1)解码器端其它词(在编码器端未被屏蔽掉的词)都被屏蔽掉,以鼓励解码器从编码器端提取信息来帮助连续片段的预测,这样能促进编码器 - 注意力 - 解码器结构的联合训练;

(2)为了给解码器提供更有用的信息,编码器被强制去抽取未被屏蔽掉词的语义,以提升编码器理解源序列文本的能力;

(3)让解码器预测连续的序列片段,以提升解码器的语言建模能力。

统一的预训练框架

MASS 有一个重要的超参数 k(屏蔽的连续片段长度),通过调整 k 的大小,MASS 能包含 BERT 中的屏蔽语言模型训练方法以及 GPT 中标准的语言模型预训练方法,使 MASS 成为一个通用的预训练框架。

当 k=1 时,根据 MASS 的设定,编码器端屏蔽一个单词,解码器端预测一个单词,如下图所示。解码器端没有任何输入信息,这时 MASS 和 BERT 中的屏蔽语言模型的预训练方法等价。

当 k=m(m 为序列长度)时,根据 MASS 的设定,编码器屏蔽所有的单词,解码器预测所有单词,如下图所示,由于编码器端所有词都被屏蔽掉,解码器的注意力机制相当于没有获取到信息,在这种情况下 MASS 等价于 GPT 中的标准语言模型。

MASS 在不同 K 下的概率形式如下表所示,其中 m 为序列长度,u 和 v 为屏蔽序列的开始和结束位置,x^u:v 表示从位置 u 到 v 的序列片段,x^\u:v 表示该序列从位置 u 到 v 被屏蔽掉。可以看到,当K=1 或者 m 时,MASS 的概率形式分别和 BERT 中的屏蔽语言模型以及 GPT 中的标准语言模型一致。

我们通过实验分析了屏蔽 MASS 模型中不同的片段长度(k)进行预训练的效果,如下图所示。

当 k 取大约句子长度一半时(50% m),下游任务能达到最优性能。屏蔽句子中一半的词可以很好地平衡编码器和解码器的预训练,过度偏向编码器(k=1,即 BERT)或者过度偏向解码器(k=m,即 LM/GPT)都不能在该任务中取得最优的效果,由此可以看出 MASS 在序列到序列的自然语言生成任务中的优势。

序列到序列自然语言生成任务实验

预训练流程

MASS 只需要无监督的单语数据(比如 WMT News Crawl Data、Wikipedia Data 等)进行预训练。MASS 支持跨语言的序列到序列生成(比如机器翻译),也支持单语言的序列到序列生成(比如文本摘要生成、对话生成)。当预训练 MASS 支持跨语言任务时(比如英语 - 法语机器翻译),我们在一个模型里同时进行英语到英语以及法语到法语的预训练。需要单独给每个语言加上相应的语言嵌入向量,用来区分不同的语言。我们选取了无监督机器翻译、低资源机器翻译、文本摘要生成以及对话生成四个任务,将 MASS 预训练模型针对各个任务进行精调,以验证 MASS 的效果。

无监督机器翻译

在无监督翻译任务上,我们和当前最强的 Facebook XLM 作比较(XLM 用 BERT 中的屏蔽预训练模型,以及标准语言模型来分别预训练编码器和解码器),对比结果如下表所示。

可以看到,MASS 的预训练方法在 WMT14 英语 - 法语、WMT16 英语 - 德语一共 4 个翻译方向上的表现都优于 XLM。MASS 在英语 - 法语无监督翻译上的效果已经远超早期有监督的编码器 - 注意力 - 解码器模型,同时极大缩小了和当前最好的有监督模型之间的差距。

低资源机器翻译

低资源机器翻译指的是监督数据有限情况下的机器翻译。我们在 WMT14 英语 - 法语、WMT16 英语 - 德语上的不同低资源场景上(分别只有 10K、100K、1M 的监督数据)验证我们方法的有效性,结果如下所示。

在不同的数据规模下,我们的预训练方法的表现均比不用预训练的基线模型有不同程度的提升,监督数据越少,提升效果越显著。

文本摘要生成

在文本摘要生成(Gigaword Corpus)任务上,我们将 MASS 同 BERT+LM(编码器用 BERT 预训练,解码器用标准语言模型 LM 预训练)以及 DAE(去噪自编码器)进行了比较。从下表可以看到,MASS 的效果明显优于 BERT+LM 以及 DAE。

对话生成

在对话生成(Cornell Movie Dialog Corpus)任务上,我们将 MASS 同 BERT+LM 进行了比较,结果如下表所示。MASS 的 PPL 低于 BERT+LM。

在不同的序列到序列自然语言生成任务中,MASS 均取得了非常不错的效果。接下来,我们还将测试 MASS 在自然语言理解任务上的性能,并为该模型增加支持监督数据预训练的功能,以期望在更多自然语言任务中取得提升。未来,我们还希望将 MASS 的应用领域扩展到包含语音、视频等其它序列到序列的生成任务中。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6239

    浏览量

    103076
  • 编码器
    +关注

    关注

    41

    文章

    3360

    浏览量

    131481
  • 自然语言
    +关注

    关注

    1

    文章

    269

    浏览量

    13203

原文标题:【ICML 2019】微软最新通用预训练模型MASS,超越BERT、GPT!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    谷歌模型训练软件有哪些功能和作用

    谷歌模型训练软件主要是指ELECTRA,这是一种新的预训练方法,源自谷歌AI。ELECTRA不仅拥有BERT的优势,而且在效率上更胜一筹。
    的头像 发表于 02-29 17:37 393次阅读

    混合专家模型 (MoE)核心组件和训练方法介绍

    ) 的 Transformer 模型在开源人工智能社区引起了广泛关注。在本篇博文中,我们将深入探讨 MoEs 的核心组件、训练方法,以及在推理过程中需要考量的各种因素。 让我们开始吧! 简短总结 混合专家模型 (MoEs
    的头像 发表于 01-13 09:37 492次阅读
    混合专家模型 (MoE)核心组件和<b class='flag-5'>训练方法</b>介绍

    【爱芯派 Pro 开发板试用体验】爱芯派部署ChatGLM3(

    提升了 36%、33%、179% 和 126%。得益于其独创的多阶段增强训练方法,以及更丰富的训练数据以及更优的训练方案。 2,更完整: ChatGLM3-6B 采用了
    发表于 12-17 22:54

    串馈天线阵列智能设计方案

    采用机器学习辅助优化的智能设计方法会面临“维数灾难”,导致训练和预测时间的增加以及预测精度的下降。 本文提出了一种先验知识指导的基单元建模(Base Element Modeling,BEM)
    发表于 12-17 09:15 289次阅读
    串馈天线阵列智能设计方案

    详细解读YOLOV7网络架构设计

    YOLOV7提出了辅助头的一个训练方法,主要目的是通过增加训练成本,提升精度,同时不影响推理的时间,因为辅助头只会出现在训练过程中。
    发表于 11-27 10:45 546次阅读
    详细解读YOLOV7网络架构设计

    ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法

    -标志物对齐标注的数据集,并提出实体-标志物对齐的自适应预训练方法,从而显著提高了智能体的导航性能。  ICCV 是“计算机视觉三大顶级会议”之一,ICCV 2023 于今年 10 月 2 日至 6 日在法国巴黎举行,本届会议共收到
    的头像 发表于 10-23 09:40 337次阅读
    ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预<b class='flag-5'>训练方法</b>

    中科院&amp;旷视提出DropPos:全新的自监督视觉预训练代理任务

    我们提出了一种全新的自监督代理任务 DropPos,首先在 ViT 前向过程中屏蔽掉大量的 position embeddings (PE),然后利用简单的 cross-entropy loss
    的头像 发表于 10-10 17:10 449次阅读
    中科院&amp;旷视<b class='flag-5'>提出</b>DropPos:<b class='flag-5'>全新</b>的自监督视觉预<b class='flag-5'>训练</b>代理任务

    种结构化道路环境中的视觉导航系统详解

    根据结构化道路环境的特点提出了种将边沿检测和道路环境知识相结合的机器视觉算法 , 并结合基于行为响应的路径规划方法和智能瞄控制方法 ,
    发表于 09-25 07:23

    K510或者K210是否支持设备训练

    K510或者K210是否支持设备训练(on-device training)?
    发表于 09-13 06:17

    基于生成模型的预训练方法

    with Deep Generative Models,我认为是个挺强挺有趣的自监督方面的工作。DreamTeacher 用于从预训练的生成网络向目标图像 Backbone 进行知识蒸馏,作为一种通用的预训练机制
    的头像 发表于 08-11 09:38 975次阅读
    基于生成模型的预<b class='flag-5'>训练方法</b>

    Gaudi Training系统介绍

    训练时都经过多次调整和更改,导致处理时间非常长,即使大规模多GPU系统也是如此。本文对培训过程作了进步的阐述。尽管近年来GPU硬件、
    发表于 08-04 06:48

    基于医学知识增强的基础模型预训练方法

          近年来,基于大数据预训练的多模态基础模型 (Foundation Model) 在自然语言理解和视觉感知方面展现出了前所未有的进展,在各领域中受到了广泛关注。在医疗领域中,由于其任务
    的头像 发表于 07-07 11:10 477次阅读
    基于医学知识增强的基础模型预<b class='flag-5'>训练方法</b>

    ZSSC3240 Mass Calibration 软件 Guide

    ZSSC3240 Mass Calibration 软件 Guide
    发表于 07-04 19:34 0次下载
    ZSSC3240 <b class='flag-5'>Mass</b> Calibration 软件 Guide

    类GPT模型训练提速26.5%,清华朱军等人用INT4算法加速神经网络训练

    我们知道,将激活、权重和梯度量化为 4-bit 对于加速神经网络训练非常有价值。但现有的 4-bit 训练方法需要自定义数字格式,而当代硬件不支持这些格式。在本文中,清华朱军等人提出了一种
    的头像 发表于 07-02 20:35 443次阅读
    类GPT模型<b class='flag-5'>训练</b>提速26.5%,清华朱军等人用INT4算法加速神经网络<b class='flag-5'>训练</b>

    ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

    大模型时代,模型压缩和加速显得尤为重要。传统监督学习可通过稀疏神经网络实现模型压缩和加速,那么同样需要大量计算开销的强化学习任务可以基于稀疏网络进行训练吗?本文提出了一种强化学习专用稀疏训练框架
    的头像 发表于 06-11 21:40 399次阅读
    ICLR 2023 Spotlight|节省95%<b class='flag-5'>训练</b>开销,清华黄隆波团队<b class='flag-5'>提出</b>强化学习专用稀疏<b class='flag-5'>训练</b>框架RLx2