0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

预训练语言模型设计的理论化认识

深度学习自然语言处理 来源:深度学习自然语言处理 作者:潘小小 2020-11-02 15:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在这篇文章中,我会介绍一篇最新的预训练语言模型的论文,出自MASS的同一作者。这篇文章的亮点是:将两种经典的预训练语言模型(MaskedLanguage Model, Permuted Language Model)统一到一个框架中,并且基于它们的优势和缺点,取长补短,提出了一个新的预训练语言模型----MPNet,其混合了MLM和PLM各自的优势,达到了比两者更好的效果,在Natural Language Understanding和NaturalLanguageGeneration任务中,都取得了较好的结果。实验表明MPNet在大量下游任务中超越了MLM和PLM,从而证明了pretrain方法中的2个关键点:

被预测的token之间的依赖关系 (MPNet vs MLM)

整个序列的位置信息 (MPNet vs PLM)

MPNet: Masked and Permuted Pre-training for Language Understanding(https://arxiv.org/pdf/2004.09297.pdf)

【小小说】这篇论文我很喜欢,读下来有一种打通了任督二脉一般行云流水的感觉。在本文中,我会从BERT和XLNet的统一理论框架讲起,然后引出作者如何得到MPNet这一训练方式,接着会介绍一下作者具体实现上用到的方法。希望本文可以让你对预训练语言模型的设计有一个更加理论化的认识。

1. BERT和XLNet各自的优缺点

既然是从BERT和XLNet到MPNet,那么当然是要先从这两者讲起。大家对BERT应该比较熟悉,它是划时代的工作,可以说从BERT开始,NLP领域正式进入了“预训练模型”的时代。而XLNet是随后的重磅之作,在这一节中,我们先来回顾一下它们。

「BERT」: Masked Language Model , 使用了双边的context信息,但是忽略了masked token之间的依赖关系

「XLNet」: Permuted Language Model , 保留了masked token之间的依赖关系,但是预测的时候每个token只能看到permuted sequence中的前置位的token的信息,不能看到所有token的信息。(p.s. 不知道XLNet的宝宝辛苦去复习 【论文串讲】从GPT和BERT到XLNet )

作者分别从input和output两个角度总结了两者的优缺点分别存在的地方:

「Input Discrepancy」: 在Natural Language Understanding的任务中,模型可以见到完整的input sentence,因此要求在预训练阶段,input要尽可能输入完整的信息

MLM中,token的语言信息是不完整的,不过位置信息是保留的(通过position embedding,p.s. 想具体了解如何通过position embedding保留的,请移步参考 【经典精读】Transformer模型深度解读 中"使用Positional Encoding带来的独特优势"这部分的内容)

PLM中,每个被预测的token只能“看”到被打乱的序列中位于它自己前面的token,而不能像MLM一样“看”到两侧的token。

「Output Dependency」:

MLM中,输出的token,即在input端被mask掉的token,是「互相独立的」。也就是说这些被mask掉的token之间是假定没有context层面的关系的。

PLM规避了MLM中的问题,被预测的token之间也存在context层面的关系。

「总结一下就是:」

「PLM在output dependency的问题上处理得比MLM好,但是预训练阶段和fine-tune阶段之间的差异比MLM的更大。」

2. 统一MLM和PLM的优化目标

了解了BERT和XLNet各自的优缺点和适用的场景后,本文的作者试图从一个统一的视角去总结这两种预训练模型,而这个总结,引出了后来的MPNet。

基于以上两点观察,本文的作者提出了统一Masked Language Model和Permuted Language Model的想法,并且起名叫「M」asked and「P」ermuted Language Model,缩写「MPNet」,意在取两者之长,避两者之短。

2.1. 统一优化目标的提出

MLM: 由于Masked Language Model中的独立性假设“每个被mask的位置的token之间是彼此独立的”,我们可以换一种方式看待Masked Language Model: 把Masked tokens统一挪到序列的末尾,这样做并不会改变模型的任何部分,只是我们的看待方式变了。

重新看待Masked Language Model

2. PLM: 原顺序 被打乱成

,然后最右边的两个token 和 就被选作要预测的token。

重新看待Permuted Language Model

基于上述的讨论,作者给出了统一MLM和PLM训练目标的框架:将没有被mask的token放在左边,而将需要被预测的token(被mask掉的)放在右边。

「MLM」

「PLM」

其中,是序列的其中一个permutation,表示在该permutation中的第 位,表示位置小于的所有位置。

2.2. 讨论

MLM和PLM的训练目标公式非常接近,唯一的区别在于,MLM条件概率的条件部分是 和 ; 而PLM的条件部分是,它们的区别是:

MLM比PLM多了 这个条件,也就是比PLM多了关于序列长度的信息(一个[M]就是一个位置)。

PLM比MLM多了被预测部分token之间的相关性:PLM的 是随着预测的进行(t的变化)而动态变化的,MLM的 对于整个模型预测过程进行是恒定不变的。

3. 提出MPNet

基于上一节的总结,作者按照相同的思路提出了MPNet的预训练目标

「a. MPNet的预训练目标」

我们既要像MLM那样,在预测时获取到序列长度的信息;又要像PLM那样,在预测后一个token时,以前面的所有token(包含前置位被预测出来的)为条件。MPNet做到了:

MPNet示意图

(b)图中灰色的部分是encoder端的bidirectional self-attention

(b)图中蓝色和绿色的部分分别是decoder端的two stream self-attention的content stream和query stream (two stream self-attention的具体定义请参考 【论文串讲】从GPT和BERT到XLNet ),这里提一下,content stream相当于query stream右移一步。

(a)图中黑色的线+绿色的线即对应了(b)图中的绿色点,(a)图中黑色的线+蓝色的线即对应了(b)图中的蓝色点。

(b)图中的行对应着query position,列对应着column position。

「b. ”位置补偿“」

由于用到了Permuted Language Model的思想,所以MPNet和XLNet一样,也要使用two-stream self-attention。想要实现预训练目标中的 ,在实现上作者提出了“位置补偿”(positioncompensation),也就是说,在预测过程的每一步,query stream和contentstream都可以看到N(N即序列长度)个token,具体结合图中的例子来说就是,

预测 时: 已知 , , , , , , , ,

预测 时: 已知 , , , , , , , , ,

预测 时: 已知 , , , , , , , , , ,

也就是说,无论预测到哪一步, , ,

, , , 这6个位置信息都可见。我们回顾一下XLNet,作一下对比:

预测 时: 已知 , , , , , ,

预测 时: 已知 , , , , , , , ,

预测 时: 已知 , , , , , , , , , ,

可以看出,在预测 时,比MPNet少了 , ,在预测 时,比MPNet少了 。

「c. 总结」

MPNet有效性来自于它保留了更多的信息

通过上面的详细讲解,相信到这儿大家也明白了:MPNet保留的信息是BERT和XLNet的并集,第一,它利用PLM的自回归特性,规避了MLM的独立性假设,在预测后面token时也利用了之前预测出来的token;第二,它利用MLM建模中自带的序列信息,规避了PLM在预测前面的token时不知道序列整体的长度的缺点。这两点保证了MPNet完美扬长避短,因此在下游任务中完美击败了前两者。

给我们的启发

致力于弥合pre-train阶段和下游任务fine-tune阶段的预训练目标,尽可能减少训练和预测过程中信息的损失,是研究预训练模型的重中之重,也是预训练模型领域整体的发展方向。读预训练系列论文的时候一定要抓住这个核心线索去读。

责任编辑:xj

原文标题:【论文串讲】从BERT和XLNet到MPNet

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • PLM
    PLM
    +关注

    关注

    2

    文章

    150

    浏览量

    22227
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23379
  • 训练模型
    +关注

    关注

    1

    文章

    37

    浏览量

    4090

原文标题:【论文串讲】从BERT和XLNet到MPNet

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度文心大模型5.1正式发布

    新一代基础大模型文心大模型 5.1正式发布!文心 5.1采用“多维弹性训练”技术,仅以业界同规模模型约6%的
    的头像 发表于 05-11 14:21 357次阅读
    百度文心大<b class='flag-5'>模型</b>5.1正式发布

    百度发布文心5.1:训练成本降至行业6%

    5月9日,百度正式发布新一代基础大模型文心5.1。该模型基于百度自研的"多维弹性训练"技术,在大幅压缩参数规模的同时,实现了基础能力的显著提升。目前,文心5.1已在百度千帆
    的头像 发表于 05-09 11:05 657次阅读

    零基础手写大模型资料2026

    Transformer核心结构的大模型,揭示大模型理论到落地的技术本质。 一、数学基础:大模型的三大基石 1. 矩阵运算:神经网络的语言
    发表于 05-01 17:44

    HM博学谷狂野AI大模型第四期

    ,抽象的数学概念将转化为具象的张量流动逻辑。开发者将不再被复杂的网络结构图所迷惑,而是能够清晰地看到数据在模型内部的流动轨迹,为后续的模型优化与定制打下坚实的算法地基。 二、 训练引擎解构:从
    发表于 05-01 17:30

    Edge Impulse 唤醒词模型训练 | 技术集结

    今天,将手把手带领学习如何训练一个语音关键词模型部署到嵌入式硬件上,采用Edgi-Talk平台适配EdgeImpulse,当然原理在其他的ARM嵌入式平台也是通用的。让我们看看如何让
    的头像 发表于 04-20 10:05 1815次阅读
    Edge Impulse 唤醒词<b class='flag-5'>模型</b><b class='flag-5'>训练</b> | 技术集结

    AI大模型微调企业项目实战课

    从零开始训练。事实上,微调技术的成熟,彻底打破了这一门槛。 微调的本质,是“举一反三”的迁移学习。就好比一个已经大学毕业的通用人才(基础大模型),只需在企业内部经过几个月的岗前培训(微调过程),就能迅速
    发表于 04-16 18:48

    人工智能多模态与视觉大模型开发实战 - 2026必会

    准确的视觉特征;而高性能 GPU 和分布式计算技术的应用,则大大缩短了模型训练时间,提高了训练效率。 实战演练:掌握核心技能的关键环节 特训课程不仅注重理论知识的传授,更强调实战能力
    发表于 04-15 16:06

    什么是大模型,智能体...?大模型100问,快速全面了解!

    ,LLM)是大模型中最主要的一类,专门用于处理和生成人类语言。大语言模型通过“阅读”海量的文本数据(如书籍、网页、文章等)进行
    的头像 发表于 02-02 16:36 1208次阅读
    什么是大<b class='flag-5'>模型</b>,智能体...?大<b class='flag-5'>模型</b>100问,快速全面了解!

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    , batch_size=512, epochs=20)总结 这个核心算法中的卷积神经网络结构和训练过程,是用来对MNIST手写数字图像进行分类的。模型将图像作为输入,通过卷积和池层提取图像的特征,然后通过全连接层进行分类预
    发表于 10-22 07:03

    基于大规模人类操作数据训练的VLA模型H-RDT

    近年来,机器人操作领域的VLA模型普遍基于跨本体机器人数据集训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统一训练困难;现有大规模机器人演示数据稀缺且质量参差不齐。得
    的头像 发表于 08-21 09:56 1305次阅读
    基于大规模人类操作数据<b class='flag-5'>预</b><b class='flag-5'>训练</b>的VLA<b class='flag-5'>模型</b>H-RDT

    ai_cube训练模型最后部署失败是什么原因?

    ai_cube训练模型最后部署失败是什么原因?文件保存路径里也没有中文 查看AICube/AI_Cube.log,看看报什么错?
    发表于 07-30 08:15

    沐曦MXMACA软件平台在大模型训练方面的优化效果

    在如今的人工智能浪潮中,大规模语言模型(上百亿乃至千亿参数)正迅速改变着我们的工作和生活。然而,训练这些庞大的模型往往面临“算力不足、显存不够用、通信太慢”等诸多挑战。
    的头像 发表于 07-03 14:09 2527次阅读
    沐曦MXMACA软件平台在大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>方面的优化效果

    龙芯中科与文心系列模型开展深度技术合作

    ”解决方案。 强强联合!自主架构赋能大模型训练 文心大模型 文心4.5系列模型均使用飞桨深度学习框架进行高效训练、推理和部署。在大
    的头像 发表于 07-02 16:53 1535次阅读

    兆芯率先展开文心系列模型深度技术合作

    对文心系列大模型的快速适配、无缝衔接。   文心大模型   文心4.5系列开源模型共10款,均使用飞浆深度学习框架进行高效训练、推理和部署。在大语言
    的头像 发表于 07-01 10:49 1153次阅读

    make sence成的XML文件能上传到自助训练模型上吗?

    make sence成的XML文件能上传到自助训练模型上吗
    发表于 06-23 07:38