0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

解读一下DeBERTa在BERT上有哪些改造

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2021-04-15 14:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DeBERTa刷新了GLUE的榜首,本文解读一下DeBERTa在BERT上有哪些改造

DeBERTa对BERT的改造主要在三点

分散注意力机制

为了更充分利用相对位置信息,输入的input embedding不再加入pos embedding, 而是input在经过transformer编码后,在encoder段与“decoder”端 通过相对位置计算分散注意力

增强解码器(有点迷)

为了解决预训练和微调时,因为任务的不同而预训练和微调阶段的gap,加入了一个增强decoder端,这个decoder并非transformer的decoder端(需要decoder端有输入那种),只是直观上起到了一个decoder作用

解码器前接入了绝对位置embedding,避免只有相对位置而丢失了绝对位置embedding

其实本质就是在原始BERT的倒数第二层transformer中间层插入了一个分散注意力计算

训练trick

训练时加入了一些数据扰动

mask策略中不替换词,变为替换成词的pos embedding

c5b1d7ee-9cd8-11eb-8b86-12bb97331649.jpg

分散注意力机制

motivation

BERT加入位置信息的方法是在输入embedding中加入postion embedding, pos embedding与char embedding和segment embedding混在一起,这种早期就合并了位置信息在计算self-attention时,表达能力受限,维护信息非常被弱化了

c5ed3c44-9cd8-11eb-8b86-12bb97331649.jpg

BERT embedding

本文的motivation就是将pos信息拆分出来,单独编码后去content 和自己求attention,增加计算 “位置-内容” 和 “内容-位置” 注意力的分散Disentangled Attention

Disentangled Attention计算方法

分散注意力机制首先在input中分离相对位置embedding,在原始char embedding+segment embedding经过编码成后,与相对位置计算attention,

即是内容编码,是相对的位置编码, attention的计算中,融合了位置-位置,内容-内容,位置-内容,内容-位置

相对位置的计算

限制了相对距离,相距大于一个阈值时距离就无效了,此时距离设定为一个常数,距离在有效范围内时,用参数用控制

c6002ffc-9cd8-11eb-8b86-12bb97331649.jpg

增强型解码器

强行叫做解码器

用 EMD( enhanced mask decoder) 来代替原 BERT 的 SoftMax 层预测遮盖的 Token。因为我们在精调时一般会在 BERT 的输出后接一个特定任务的 Decoder,但是在预训练时却并没有这个 Decoder;所以本文在预训练时用一个两层的 Transformer decoder 和一个 SoftMax 作为 Decoder。其实就是给后层的Transformer encoder换了个名字,千万别以为是用到了Transformer 的 Decoder端

绝对位置embedding

在decoder前有一个骚操作是在这里加入了一层绝对位置embedding来弥补一下只有相对位置的损失,比如“超市旁新开了一个商场”,当mask的词是“超市”,“商场”,时,只有相对位置时没法区分这两个词的信息,因此decoder中加入一层

一些训练tricks

将BERT的训练策略中,mask有10%的情况是不做任何替换,这种情况attention偏向自己会非常明显,DeBeta将不做替换改成了换位该位置词绝对位置的pos embedding, 实验中明显能看到这种情况下的attention对自身依赖减弱

c617b1d6-9cd8-11eb-8b86-12bb97331649.jpg

在训练下游任务时,给训练集做了一点扰动来增强模型的鲁棒性

效果

DeBERTa large目前是GLUE的榜首,在大部分任务上整体效果相比还是有一丢丢提升

c63aa8c6-9cd8-11eb-8b86-12bb97331649.jpg

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7348

    浏览量

    95017
  • 编码
    +关注

    关注

    6

    文章

    1040

    浏览量

    57135
  • Decoder
    +关注

    关注

    0

    文章

    25

    浏览量

    11112

原文标题:SOTA来啦!BERT又又又又又又魔改了!DeBERTa登顶GLUE~

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    我这个是微信小票机,请问里面可以添加什么芯片的?我想把它给改造一下,添加蓝牙或者WIFI或者蓝牙WIFI 2合

    我这个是微信小票机,请问里面可以添加什么芯片的?他送了两年流量过后,我不想充流量了,我想把它给改造一下,添加蓝牙或者WIFI或者蓝牙WIFI 2合
    发表于 04-21 02:20

    Atmel产品胶带和卷轴标签工艺变更通知解读

    Atmel产品胶带和卷轴标签工艺变更通知解读 作为电子工程师,我们经常会遇到产品的各种变更通知,这些通知对于我们的设计和生产工作有着重要的影响。今天就来详细解读一下Atmel的这份产品变更通知
    的头像 发表于 04-05 14:55 653次阅读

    微芯科技Micrel产品制造基地变更通知解读

    的通知(PCN - CYER - 31JLEX869),下面我们来详细解读一下这份通知。 文件下载: MIC5310-MGYMT-TR.pdf 、变更概述 此次变更主要是对部分Micrel产品的制造
    的头像 发表于 03-17 14:45 185次阅读

    想把部电话座机改造成子母机,请各位大佬帮忙

    有时忙其他事情的时候需要接电话,使用座机电话就比较不方便,所以想把电话座机改造成子母话机,座机作为发射端,子机作为接收端,但是需要做到子机接电话时座机不再继续响铃,且座机仍可继续接听,各位大佬有啥好的改造方案吗,需要各位大佬帮
    发表于 02-03 14:14

    能否详细介绍一下MOSFET电机控制中的作用是什么?

    能否详细介绍一下MOSFET电机控制中的作用?
    发表于 12-22 13:11

    【雷达模组】久坐提醒设备,“起来走动一下

    。之前申请的Rd-03 _ V2刚好满足,所以就通过Rd-03 _ V2实现感知人体存在。 由于主要考虑PC提醒所以这次上位机没有使用单片机,而是使用 USB转串口连接Rd-03 _ V2,使用上报模式来实现较为细致的行为检测。 之前做的都是方方正正的,这次想着美化一下。弄了个机械键
    的头像 发表于 12-16 09:20 531次阅读
    【雷达模组】久坐提醒设备,“起来走动<b class='flag-5'>一下</b>”

    请问一下,CW32L083VCT6的DeepSleep模式,功耗多少?

    请问一下,CW32L083VCT6的DeepSleep模式,功耗多少?
    发表于 12-03 06:14

    支付宝“碰一下”的革新背后:国民技术MCU的隐形力量

    该类别中唯的中国企业。短短两个月内,“碰一下”已连续获得三项国际奖项。此前,国际权威市场调研机构JuniperResearch公布的2025年度“未来数字奖”
    的头像 发表于 11-21 19:15 1478次阅读
    支付宝“碰<b class='flag-5'>一下</b>”的革新背后:国民技术MCU的隐形力量

    国民技术MCU芯片护航支付宝碰一下设备创新

    近日,全球顶尖金融科技盛会Money20/20公布首届创新大奖The Money Awards结果,“支付宝碰一下”从众多参赛企业中脱颖而出,凭借创新的解决方案和极致的用户体验摘得“支付”类别大奖,成为该类别中唯的中国企业。
    的头像 发表于 11-06 10:15 1311次阅读

    分享一下多点电极液位开关的特点与优势

    ,都是监测液位。工业生产中,会用到很多液体,他们的液位监测又由谁来守护呢?今天我们来了解一下,多点电极液位开关,聊聊它有什么特点和优势? 我们在生活中或是工业中,遇到的开关可能就
    的头像 发表于 09-24 18:15 806次阅读
    分享<b class='flag-5'>一下</b>多点电极液位开关的特点与优势

    奥比中光助力支付宝碰一下落地电梯场景

    近日,支付宝与分众传媒宣布联合推出“碰一下抢红包”服务。作为创新交互方式,“支付宝碰一下”首次被引入至电梯场景,并已在全国20余个城市的电梯铺设。奥比中光作为“支付宝碰一下”业务的核心供应商,为这
    的头像 发表于 08-12 11:32 1384次阅读

    “碰一下”支付终端应用在酒店:智能无卡入住与客房控制

    和数字化体验。消费者门店买单时,用手机碰一下付款笔笔有优惠、同步实现会员积分。但除了餐饮零售场景,“碰一下”终端和“碰一下”机具还有更多意想不到的应用场景。在前不
    的头像 发表于 07-04 09:57 986次阅读
    “碰<b class='flag-5'>一下</b>”支付终端应用在酒店:智能无卡入住与客房控制

    上电时GPIO控制的LED偶尔诡异地亮了一下

    快速上下电时,主控1.8V的GPIO控制的LED会亮一下。放久点再上电则不会异常亮。仔细排查发现1.8V比0.9V先上电,再深入排查发现快速上下电时1.8V电源的RC延时使能失效,上电时序异常,主控工作异常。
    的头像 发表于 06-18 14:16 1137次阅读
    上电时GPIO控制的LED偶尔诡异地亮了<b class='flag-5'>一下</b>

    一下终端,让自助售货机秒变 “家里的冰箱”

    继刷脸支付后,支付宝近日又推出了新的支付方式——碰一下支付。只需将手机轻轻靠近支付宝“碰一下”支付终端,即可完成支付,比以往要先解锁手机,调出APP的付款码再支付的操作环节要便捷和省时许多。“碰一下
    的头像 发表于 06-18 10:49 2102次阅读
    碰<b class='flag-5'>一下</b>终端,让自助售货机秒变 “家里的冰箱”

    复旦微电子与支付宝推出“碰一下”射频芯片

    近日,由支付宝主办的「碰一下·奇妙小镇」生态大会在杭州·运河文化发布中心隆重举办。大会场景覆盖餐饮、商圈MALL、出行、政务、医疗、物流等多个领域,以服务商、供应链伙伴和终端厂商为代表的生态伙伴共同参与,超300家头部合作伙伴创始人/CEO参加大会。
    的头像 发表于 04-28 09:46 1583次阅读