0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

三种LM任务形式:单向LM,双向LM,序列到序列LM

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2021-01-03 09:25 次阅读

今天分享一个论文UniLM[1],核心点是掌握三种LM任务形式:单向LM,双向LM,序列到序列LM;

1. 生成任务

NLP任务大致可以分为NLU和NLG两种;Bert在NLU任务上效果很好,但是天生不适合处理生成任务。

原因在于Bert的预训练过程是使用的MLM,和生成任务的目标并不一致。

生成任务目标是每次蹦出来一个词,只能看到当前位置之前的词汇。

而Bert采用的是双向的语言模型,除了mask的单词,两个方向的词汇都可以被看到。

所以对Bert的一个改进思路就是让它在具有NLU能力的时候,同时兼备NLG能力。

2. 三种LM任务

UniLM做的就是这样一个事情。

具体的实现方式是设计了一系列的完形填空任务,这些完形填空任务的不同之处在于对上下文的定义。

从左到右的LM:使用mask单词的左侧单词来预测被遮掩的单词

从右到左的LM:和上面第一个相比就是方向的变化,使用mask单词的右侧单词来预测遮掩的单词

双向LM:就是当前mask的左右词汇都可以看到

sequence-to-sequence LM:这个就是UniLM能够具有生成能力的关键。我们的输入是source句子和target句子,mask单词在target上,那么当前mask的上下文就是source句子的所有单词和target句子中mask单词左侧的词汇可以被看到

我们把从左到右LM和从右到左LM我们归为一种任务叫单向LM;

有个点需要注意,三个任务是一起优化的,具体来讲是这样做的:

在训练的时候,1/3的时候使用双向LM,1/3的时候使用序列到序列 LM,1/6的时候使用从左到右的LM,1/6的时间使用从右到做的LM。

我们是使用不同的Mask矩阵来对应不同任务输入数据形式。

文中使用的是这样一张图来展示:

f1836372-4690-11eb-8b86-12bb97331649.jpg

UniLM不同mask

3. 其他细枝末节

Gelu 激励函数

24层TRM,最大长度512,1024Hidden Size,16Heads,340M参数

初始化使用Bert Large

15%被mask,其中80%真正替换mask,10%随机替换,10%不动。替换的时候,80% 的时候替换单个token,20%的时候替换bigram 或者 trigram

第四个步骤类似中文实体词的mask,也算是一点改进。

有个细节点需要注意的是,作者强调,不同的segment embedding用来区分不同LM任务。

Bert的时候,区分上下句子,我们使用0和1,在这里,我们使用这个segment embedding用来区分任务:

比如说,双向对应0和1;单向left-right对应2;单向right-left对应3;序列对应4和5;

4. 总结

掌握以下几个细节点就可以:

联合训练三种任务:单向LM,双向LM,序列LM

使用不同的attention矩阵控制三种任务形式的参与

segment embedding可以区分不同的任务形式

mask的时候15% 的有被替换的概率,其中80% 被真正替换。在这80%真正替换的里面有80%单个token被替换,20%的二元或者三元tokens被替换

参考资料

[1]

Unified Language Model Pre-training for Natural Language Understanding and Generation: https://arxiv.org/pdf/1905.03197.pdf,

责任编辑:xj

原文标题:如何让BERT具有文本生成能力

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自然语言
    +关注

    关注

    1

    文章

    269

    浏览量

    13203
  • nlp
    nlp
    +关注

    关注

    1

    文章

    463

    浏览量

    21819

原文标题:如何让BERT具有文本生成能力

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    具有可调节限流功能的LM25011、LM25011-Q1、LM25011A、LM25011A-Q1 42V、2A 恒定导通时间开关稳压器数据表

    电子发烧友网站提供《具有可调节限流功能的LM25011、LM25011-Q1、LM25011A、LM25011A-Q1 42V、2A 恒定导通时间开关稳压器数据表.pdf》资料免费下载
    发表于 04-18 10:03 0次下载
    具有可调节限流功能的<b class='flag-5'>LM</b>25011、<b class='flag-5'>LM</b>25011-Q1、<b class='flag-5'>LM</b>25011A、<b class='flag-5'>LM</b>25011A-Q1 42V、2A 恒定导通时间开关稳压器数据表

    多相双向电流控制器LM5170数据表

    电子发烧友网站提供《多相双向电流控制器LM5170数据表.pdf》资料免费下载
    发表于 04-11 11:29 0次下载
    多相<b class='flag-5'>双向</b>电流控制器<b class='flag-5'>LM</b>5170数据表

    多相双向电流控制器LM5170-Q1数据表

    电子发烧友网站提供《多相双向电流控制器LM5170-Q1数据表.pdf》资料免费下载
    发表于 04-10 10:25 0次下载
    多相<b class='flag-5'>双向</b>电流控制器<b class='flag-5'>LM</b>5170-Q1数据表

    LM340 LM340A and LM7805全系列VIN 1.5-A固定稳压器数据表

    电子发烧友网站提供《LM340 LM340A and LM7805全系列VIN 1.5-A固定稳压器数据表.pdf》资料免费下载
    发表于 04-08 09:43 0次下载
    <b class='flag-5'>LM</b>340 <b class='flag-5'>LM</b>340A and <b class='flag-5'>LM</b>7805全系列VIN 1.5-A固定稳压器数据表

    LM136-2.5-N、LM236-2.5-N和LM336-2.5-NV参考二极管数据表

    电子发烧友网站提供《LM136-2.5-N、LM236-2.5-N和LM336-2.5-NV参考二极管数据表.pdf》资料免费下载
    发表于 04-07 09:30 0次下载
    <b class='flag-5'>LM</b>136-2.5-N、<b class='flag-5'>LM</b>236-2.5-N和<b class='flag-5'>LM</b>336-2.5-NV参考二极管数据表

    双通道双向控制器LM5171-Q1数据表

    电子发烧友网站提供《双通道双向控制器LM5171-Q1数据表.pdf》资料免费下载
    发表于 03-28 16:43 0次下载
    双通道<b class='flag-5'>双向</b>控制器<b class='flag-5'>LM</b>5171-Q1数据表

    1A降压稳压器LM1575/LM2575/LM2575HV数据表

    电子发烧友网站提供《1A降压稳压器LM1575/LM2575/LM2575HV数据表.pdf》资料免费下载
    发表于 03-28 13:50 0次下载
    1A降压稳压器<b class='flag-5'>LM</b>1575/<b class='flag-5'>LM</b>2575/<b class='flag-5'>LM</b>2575HV数据表

    三电压轨简单电源序列发生器LM3880-Q1 数据表

    电子发烧友网站提供《三电压轨简单电源序列发生器LM3880-Q1 数据表.pdf》资料免费下载
    发表于 03-27 13:50 0次下载
    三电压轨简单电源<b class='flag-5'>序列</b>发生器<b class='flag-5'>LM</b>3880-Q1 数据表

    三电压轨简单电源序列发生器LM3880数据表

    电子发烧友网站提供《三电压轨简单电源序列发生器LM3880数据表.pdf》资料免费下载
    发表于 03-26 13:45 0次下载
    三电压轨简单电源<b class='flag-5'>序列</b>发生器<b class='flag-5'>LM</b>3880数据表

    lm358电压上限和下限比较 LM358和LM358P区别是什么

    LM358的电压上限为32V,而下限为0V。LM358与LM358P的主要区别在于它们的制造工艺和一些电气特性。
    的头像 发表于 01-28 17:16 3390次阅读
    <b class='flag-5'>lm</b>358电压上限和下限比较 <b class='flag-5'>LM</b>358和<b class='flag-5'>LM</b>358P区别是什么

    LM393与LM358的管脚功能一样,想知道能否直接互换?

    LM393与LM358的管脚功能一样,想知道能否直接互换? LM393和LM358是两款常用的集成电路芯片,虽然它们的外观相似,但在功能和应用上存在一些差异。在电子设计和电路布局中,正
    的头像 发表于 11-22 16:18 2465次阅读

    lm324和lm358的区别是什么?

    lm324和lm358的区别是什么? 首先,LM324和LM358都属于通用运放芯片。它们都可用于模拟信号放大、滤波、比较等功能。这两种芯片都是由美国NXP公司生产制造的,是目前市场上
    的头像 发表于 08-25 16:06 6104次阅读

    lm324和lm324DR有啥区别?

    lm324和lm324DR有啥区别? LM324和LM324DR都是四个运算放大器集成电路,它们的外观和脚位也几乎相同。但是,它们之间还是有一些区别的。 首先,它们的封装不同。
    的头像 发表于 08-25 16:06 1541次阅读

    lm324和lm324n有啥区别?

    lm324和lm324n有啥区别? LM324和LM324N是两种常用的运算放大器,其中LM324是更广泛使用的原型,而
    的头像 发表于 08-25 16:06 1838次阅读

    电磁炉lm339-lm339电压比较器电路图-lm339运放参数

    供应电磁炉lm339,提供lm339电压比较器电路图-lm339运放参数,广泛应用于消费类和工业类电子产品中,进行电平检波和低电平探测,更多产品手册、应用料资请向深圳市骊微电子申请。>>
    发表于 06-07 15:51 6次下载