0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软在ICML 2019上提出了一个全新的通用预训练方法MASS

DPVg_AI_era 来源:lq 2019-05-11 09:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

微软亚洲研究院的研究员在 ICML 2019 上提出了一个全新的通用预训练方法 MASS,在序列到序列的自然语言生成任务中全面超越 BERT 和 GPT。本文带来论文作者的技术解读。

从 2018 年开始,预训练(pre-train) 毫无疑问成为 NLP 领域最热的研究方向。

借助于 BERT 和 GPT 等预训练模型,人类在多个自然语言理解任务中取得了重大突破。然而,在序列到序列的自然语言生成任务中,目前主流预训练模型并没有取得显著效果。

为此,微软亚洲研究院的研究员在 ICML 2019 上提出了一个全新的通用预训练方法 MASS,在序列到序列的自然语言生成任务中全面超越 BERT 和 GPT。在微软参加的 WMT19 机器翻译比赛中,MASS 帮助中 - 英、英 - 立陶宛两个语言对取得了第一名的成绩。

BERT 在自然语言理解(比如情感分类、自然语言推理、命名实体识别、SQuAD 阅读理解等)任务中取得了很好的结果,受到了越来越多的关注。然而,在自然语言处理领域,除了自然语言理解任务,还有很多序列到序列的自然语言生成任务,比如机器翻译、文本摘要生成、对话生成、问答、文本风格转换等。在这类任务中,目前主流的方法是编码器 - 注意力 - 解码器框架,如下图所示。

编码器 - 注意力 - 解码器框架

编码器(Encoder)将源序列文本 X 编码成隐藏向量序列,然后解码器(Decoder)通过注意力机制(Attention)抽取编码的隐藏向量序列信息,自回归地生成目标序列文本 Y。

BERT 通常只训练一个编码器用于自然语言理解,而 GPT 的语言模型通常是训练一个解码器。如果要将 BERT 或者 GPT 用于序列到序列的自然语言生成任务,通常只有分开预训练编码器和解码器,因此编码器 - 注意力 - 解码器结构没有被联合训练,记忆力机制也不会被预训练,而解码器对编码器的注意力机制在这类任务中非常重要,因此 BERT 和 GPT 在这类任务中只能达到次优效果。

新的预训练方法 ——MASS

专门针对序列到序列的自然语言生成任务,微软亚洲研究院提出了新的预训练方法:屏蔽序列到序列预训练(MASS: Masked Sequence to Sequence Pre-training)。MASS 对句子随机屏蔽一个长度为 k 的连续片段,然后通过编码器 - 注意力 - 解码器模型预测生成该片段。

屏蔽序列到序列预训练 MASS 模型框架

如上图所示,编码器端的第 3-6 个词被屏蔽掉,然后解码器端只预测这几个连续的词,而屏蔽掉其它词,图中 “_” 代表被屏蔽的词。

MASS 预训练有以下几大优势:

(1)解码器端其它词(在编码器端未被屏蔽掉的词)都被屏蔽掉,以鼓励解码器从编码器端提取信息来帮助连续片段的预测,这样能促进编码器 - 注意力 - 解码器结构的联合训练;

(2)为了给解码器提供更有用的信息,编码器被强制去抽取未被屏蔽掉词的语义,以提升编码器理解源序列文本的能力;

(3)让解码器预测连续的序列片段,以提升解码器的语言建模能力。

统一的预训练框架

MASS 有一个重要的超参数 k(屏蔽的连续片段长度),通过调整 k 的大小,MASS 能包含 BERT 中的屏蔽语言模型训练方法以及 GPT 中标准的语言模型预训练方法,使 MASS 成为一个通用的预训练框架。

当 k=1 时,根据 MASS 的设定,编码器端屏蔽一个单词,解码器端预测一个单词,如下图所示。解码器端没有任何输入信息,这时 MASS 和 BERT 中的屏蔽语言模型的预训练方法等价。

当 k=m(m 为序列长度)时,根据 MASS 的设定,编码器屏蔽所有的单词,解码器预测所有单词,如下图所示,由于编码器端所有词都被屏蔽掉,解码器的注意力机制相当于没有获取到信息,在这种情况下 MASS 等价于 GPT 中的标准语言模型。

MASS 在不同 K 下的概率形式如下表所示,其中 m 为序列长度,u 和 v 为屏蔽序列的开始和结束位置,x^u:v 表示从位置 u 到 v 的序列片段,x^\u:v 表示该序列从位置 u 到 v 被屏蔽掉。可以看到,当K=1 或者 m 时,MASS 的概率形式分别和 BERT 中的屏蔽语言模型以及 GPT 中的标准语言模型一致。

我们通过实验分析了屏蔽 MASS 模型中不同的片段长度(k)进行预训练的效果,如下图所示。

当 k 取大约句子长度一半时(50% m),下游任务能达到最优性能。屏蔽句子中一半的词可以很好地平衡编码器和解码器的预训练,过度偏向编码器(k=1,即 BERT)或者过度偏向解码器(k=m,即 LM/GPT)都不能在该任务中取得最优的效果,由此可以看出 MASS 在序列到序列的自然语言生成任务中的优势。

序列到序列自然语言生成任务实验

预训练流程

MASS 只需要无监督的单语数据(比如 WMT News Crawl Data、Wikipedia Data 等)进行预训练。MASS 支持跨语言的序列到序列生成(比如机器翻译),也支持单语言的序列到序列生成(比如文本摘要生成、对话生成)。当预训练 MASS 支持跨语言任务时(比如英语 - 法语机器翻译),我们在一个模型里同时进行英语到英语以及法语到法语的预训练。需要单独给每个语言加上相应的语言嵌入向量,用来区分不同的语言。我们选取了无监督机器翻译、低资源机器翻译、文本摘要生成以及对话生成四个任务,将 MASS 预训练模型针对各个任务进行精调,以验证 MASS 的效果。

无监督机器翻译

在无监督翻译任务上,我们和当前最强的 Facebook XLM 作比较(XLM 用 BERT 中的屏蔽预训练模型,以及标准语言模型来分别预训练编码器和解码器),对比结果如下表所示。

可以看到,MASS 的预训练方法在 WMT14 英语 - 法语、WMT16 英语 - 德语一共 4 个翻译方向上的表现都优于 XLM。MASS 在英语 - 法语无监督翻译上的效果已经远超早期有监督的编码器 - 注意力 - 解码器模型,同时极大缩小了和当前最好的有监督模型之间的差距。

低资源机器翻译

低资源机器翻译指的是监督数据有限情况下的机器翻译。我们在 WMT14 英语 - 法语、WMT16 英语 - 德语上的不同低资源场景上(分别只有 10K、100K、1M 的监督数据)验证我们方法的有效性,结果如下所示。

在不同的数据规模下,我们的预训练方法的表现均比不用预训练的基线模型有不同程度的提升,监督数据越少,提升效果越显著。

文本摘要生成

在文本摘要生成(Gigaword Corpus)任务上,我们将 MASS 同 BERT+LM(编码器用 BERT 预训练,解码器用标准语言模型 LM 预训练)以及 DAE(去噪自编码器)进行了比较。从下表可以看到,MASS 的效果明显优于 BERT+LM 以及 DAE。

对话生成

在对话生成(Cornell Movie Dialog Corpus)任务上,我们将 MASS 同 BERT+LM 进行了比较,结果如下表所示。MASS 的 PPL 低于 BERT+LM。

在不同的序列到序列自然语言生成任务中,MASS 均取得了非常不错的效果。接下来,我们还将测试 MASS 在自然语言理解任务上的性能,并为该模型增加支持监督数据预训练的功能,以期望在更多自然语言任务中取得提升。未来,我们还希望将 MASS 的应用领域扩展到包含语音、视频等其它序列到序列的生成任务中。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6760

    浏览量

    108159
  • 编码器
    +关注

    关注

    45

    文章

    4022

    浏览量

    143728
  • 自然语言
    +关注

    关注

    1

    文章

    293

    浏览量

    14042

原文标题:【ICML 2019】微软最新通用预训练模型MASS,超越BERT、GPT!

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    后摩智能三篇论文入选ACL和ICML两大人工智能顶会

    后摩智能芯片算法团队提出BWLA(Binarized Weights and Low-bit Activations),这是首个无需重训练的后训练量化框架下,同时实现1-bit权重与
    的头像 发表于 05-12 17:00 764次阅读
    后摩智能三篇论文入选ACL和<b class='flag-5'>ICML</b>两大人工智能顶会

    百度发布文心5.1:训练成本降至行业6%

    5月9日,百度正式发布新代基础大模型文心5.1。该模型基于百度自研的"多维弹性训练"技术,大幅压缩参数规模的同时,实现了基础能力的显著提升。目前,文心5.1已在百度千帆模型广场及
    的头像 发表于 05-09 11:05 633次阅读

    VirtualLab Fusion:基于微软专利的蝴蝶型出瞳扩展光导

    入器到耦出器之间传播过程中分离视场的系统。种非常流行的方法是所谓的“蝴蝶光瞳扩展”,即两单独的EPE光栅区域用于视场的正负部分,这也应用于微软的Hololens 2。
    发表于 04-28 08:11

    川土微电子推出CA-IS1200C系列全新一通用隔离式运放

    川土微电子全新一代CA-IS1200C系列通用隔离式运放,继承CA-IS1200经典性能基础,实现了从精度、功耗到集成度的全面进化。
    的头像 发表于 04-14 15:20 2740次阅读
    川土微电子推出CA-IS1200C系列<b class='flag-5'>全新一</b>代<b class='flag-5'>通用</b>隔离式运放

    无法启动安装的 Ubuntu 23.10 服务器映像怎么解决?

    我最近收到了块 StarFive VisionFive 2 板。我能够使用 TFTP 方法成功刷新 U-Boot 和 SPL 固件,如《快速入门指南》第 3.8.1 条中所述。 我无法按照以下说明
    发表于 02-09 07:25

    deepin 25安装OpenClaw的步骤及飞书接入方法

    本篇将从普通用户视角,分享 deepin 25 安装 OpenClaw 的步骤及飞书接入方法
    的头像 发表于 02-05 15:17 2247次阅读
    <b class='flag-5'>在</b>deepin 25<b class='flag-5'>上</b>安装OpenClaw的步骤及飞书接入<b class='flag-5'>方法</b>

    是否可以将 Vision Five 2 配置为 SuperSpeed 的 USB 3.0 mass_storage小工具?

    是否可以将 Vision Five 2 配置为 SuperSpeed 的 USB 3.0 mass_storage小工具?到目前为止,我们只设法获得了 HighSpeed。
    发表于 01-30 07:59

    微软全新AI超级工厂Fairwater亚特兰大落成

    微软正式发布位于美国乔治亚州亚特兰大的 Azure AI 数据中心 Fairwater 站点。全新的数据中心将与威斯康星州的首个 Fairwater 站点、前几代 AI 超级计算机以及全球 Azure 数据中心深度互联,共同构建首个全球规模的 AI 超级工厂 Fairwa
    的头像 发表于 12-09 17:31 917次阅读

    喜报|华微软件AI研发持续推进,再添项核心专利

    实际使用中,许多智能系统仍依赖用户输入固定指令(如“开灯”“查询订单”)才能执行操作,定程度上限制了交互的灵活性,增加了使用负担。而本项专利提出了种基于大语言模型的新型控制
    的头像 发表于 11-27 15:02 256次阅读
    喜报|华<b class='flag-5'>微软</b>件AI研发持续推进,再添<b class='flag-5'>一</b>项核心专利

    Ubuntu20.04系统中训练神经网络模型的些经验

    本帖欲分享Ubuntu20.04系统中训练神经网络模型的些经验。我们采用jupyter notebook作为开发IDE,以TensorFlow2为训练框架,目标是
    发表于 10-22 07:03

    微软Visual Studio 2026 发布!AI 深度融合、性能提升

    与高效开发体验。  ”    微软刚刚放出了重磅炸弹: Visual Studio 2026 Insiders 预览版  已经正式发布! 这是
    的头像 发表于 09-16 11:17 2475次阅读
    <b class='flag-5'>微软</b>Visual Studio 2026 发布!AI 深度融合、性能提升

    基于大规模人类操作数据训练的VLA模型H-RDT

    近年来,机器人操作领域的VLA模型普遍基于跨本体机器人数据集训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统训练困难;现
    的头像 发表于 08-21 09:56 1291次阅读
    基于大规模人类操作数据<b class='flag-5'>预</b><b class='flag-5'>训练</b>的VLA模型H-RDT

    树莓派5的Gemma 2:如何打造高效的边缘AI解决方案?

    通用集成机器模型算法,第二版)是复杂的框架,专为可扩展和灵活的机器学习模型训练而设计,特别是分布式和资源受限的环境中。在其前身的基础
    的头像 发表于 06-20 16:57 1872次阅读
    树莓派5<b class='flag-5'>上</b>的Gemma 2:如何打造高效的边缘AI解决方案?

    【书籍评测活动NO.62】本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    亿参数的混合专家模型(MoE) ,每个token(模型处理文本的基本单位)激活 370 亿参数。该模型 14.8 万亿高质量 token上进行
    发表于 06-09 14:38

    基于RK3576开发板的yolov11-track多目标跟踪部署教程

    YOLO11是 Ultralytics YOLO系列实时物体检测器的最新版本,重新定义了尖端准确度、速度和效率方面的可能性。在前几代 YOLO 版本的显著进步基础,YOLO11 架构和
    的头像 发表于 05-24 15:07 2797次阅读
    基于RK3576开发板的yolov11-track多目标跟踪部署教程