0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

解读一下DeBERTa在BERT上有哪些改造

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2021-04-15 14:44 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DeBERTa刷新了GLUE的榜首,本文解读一下DeBERTa在BERT上有哪些改造

DeBERTa对BERT的改造主要在三点

分散注意力机制

为了更充分利用相对位置信息,输入的input embedding不再加入pos embedding, 而是input在经过transformer编码后,在encoder段与“decoder”端 通过相对位置计算分散注意力

增强解码器(有点迷)

为了解决预训练和微调时,因为任务的不同而预训练和微调阶段的gap,加入了一个增强decoder端,这个decoder并非transformer的decoder端(需要decoder端有输入那种),只是直观上起到了一个decoder作用

解码器前接入了绝对位置embedding,避免只有相对位置而丢失了绝对位置embedding

其实本质就是在原始BERT的倒数第二层transformer中间层插入了一个分散注意力计算

训练trick

训练时加入了一些数据扰动

mask策略中不替换词,变为替换成词的pos embedding

c5b1d7ee-9cd8-11eb-8b86-12bb97331649.jpg

分散注意力机制

motivation

BERT加入位置信息的方法是在输入embedding中加入postion embedding, pos embedding与char embedding和segment embedding混在一起,这种早期就合并了位置信息在计算self-attention时,表达能力受限,维护信息非常被弱化了

c5ed3c44-9cd8-11eb-8b86-12bb97331649.jpg

BERT embedding

本文的motivation就是将pos信息拆分出来,单独编码后去content 和自己求attention,增加计算 “位置-内容” 和 “内容-位置” 注意力的分散Disentangled Attention

Disentangled Attention计算方法

分散注意力机制首先在input中分离相对位置embedding,在原始char embedding+segment embedding经过编码成后,与相对位置计算attention,

即是内容编码,是相对的位置编码, attention的计算中,融合了位置-位置,内容-内容,位置-内容,内容-位置

相对位置的计算

限制了相对距离,相距大于一个阈值时距离就无效了,此时距离设定为一个常数,距离在有效范围内时,用参数用控制

c6002ffc-9cd8-11eb-8b86-12bb97331649.jpg

增强型解码器

强行叫做解码器

用 EMD( enhanced mask decoder) 来代替原 BERT 的 SoftMax 层预测遮盖的 Token。因为我们在精调时一般会在 BERT 的输出后接一个特定任务的 Decoder,但是在预训练时却并没有这个 Decoder;所以本文在预训练时用一个两层的 Transformer decoder 和一个 SoftMax 作为 Decoder。其实就是给后层的Transformer encoder换了个名字,千万别以为是用到了Transformer 的 Decoder端

绝对位置embedding

在decoder前有一个骚操作是在这里加入了一层绝对位置embedding来弥补一下只有相对位置的损失,比如“超市旁新开了一个商场”,当mask的词是“超市”,“商场”,时,只有相对位置时没法区分这两个词的信息,因此decoder中加入一层

一些训练tricks

将BERT的训练策略中,mask有10%的情况是不做任何替换,这种情况attention偏向自己会非常明显,DeBeta将不做替换改成了换位该位置词绝对位置的pos embedding, 实验中明显能看到这种情况下的attention对自身依赖减弱

c617b1d6-9cd8-11eb-8b86-12bb97331649.jpg

在训练下游任务时,给训练集做了一点扰动来增强模型的鲁棒性

效果

DeBERTa large目前是GLUE的榜首,在大部分任务上整体效果相比还是有一丢丢提升

c63aa8c6-9cd8-11eb-8b86-12bb97331649.jpg

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7314

    浏览量

    93970
  • 编码
    +关注

    关注

    6

    文章

    1015

    浏览量

    56649
  • Decoder
    +关注

    关注

    0

    文章

    25

    浏览量

    11018

原文标题:SOTA来啦!BERT又又又又又又魔改了!DeBERTa登顶GLUE~

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    请问一下,CW32L083VCT6的DeepSleep模式,功耗多少?

    请问一下,CW32L083VCT6的DeepSleep模式,功耗多少?
    发表于 12-03 06:14

    支付宝“碰一下”的革新背后:国民技术MCU的隐形力量

    该类别中唯的中国企业。短短两个月内,“碰一下”已连续获得三项国际奖项。此前,国际权威市场调研机构JuniperResearch公布的2025年度“未来数字奖”
    的头像 发表于 11-21 19:15 1057次阅读
    支付宝“碰<b class='flag-5'>一下</b>”的革新背后:国民技术MCU的隐形力量

    国民技术MCU芯片护航支付宝碰一下设备创新

    近日,全球顶尖金融科技盛会Money20/20公布首届创新大奖The Money Awards结果,“支付宝碰一下”从众多参赛企业中脱颖而出,凭借创新的解决方案和极致的用户体验摘得“支付”类别大奖,成为该类别中唯的中国企业。
    的头像 发表于 11-06 10:15 806次阅读

    分享一下多点电极液位开关的特点与优势

    ,都是监测液位。工业生产中,会用到很多液体,他们的液位监测又由谁来守护呢?今天我们来了解一下,多点电极液位开关,聊聊它有什么特点和优势? 我们在生活中或是工业中,遇到的开关可能就
    的头像 发表于 09-24 18:15 512次阅读
    分享<b class='flag-5'>一下</b>多点电极液位开关的特点与优势

    奥比中光助力支付宝碰一下落地电梯场景

    近日,支付宝与分众传媒宣布联合推出“碰一下抢红包”服务。作为创新交互方式,“支付宝碰一下”首次被引入至电梯场景,并已在全国20余个城市的电梯铺设。奥比中光作为“支付宝碰一下”业务的核心供应商,为这
    的头像 发表于 08-12 11:32 979次阅读

    “碰一下”支付终端应用在酒店:智能无卡入住与客房控制

    和数字化体验。消费者门店买单时,用手机碰一下付款笔笔有优惠、同步实现会员积分。但除了餐饮零售场景,“碰一下”终端和“碰一下”机具还有更多意想不到的应用场景。在前不
    的头像 发表于 07-04 09:57 621次阅读
    “碰<b class='flag-5'>一下</b>”支付终端应用在酒店:智能无卡入住与客房控制

    上电时GPIO控制的LED偶尔诡异地亮了一下

    快速上下电时,主控1.8V的GPIO控制的LED会亮一下。放久点再上电则不会异常亮。仔细排查发现1.8V比0.9V先上电,再深入排查发现快速上下电时1.8V电源的RC延时使能失效,上电时序异常,主控工作异常。
    的头像 发表于 06-18 14:16 615次阅读
    上电时GPIO控制的LED偶尔诡异地亮了<b class='flag-5'>一下</b>

    一下终端,让自助售货机秒变 “家里的冰箱”

    继刷脸支付后,支付宝近日又推出了新的支付方式——碰一下支付。只需将手机轻轻靠近支付宝“碰一下”支付终端,即可完成支付,比以往要先解锁手机,调出APP的付款码再支付的操作环节要便捷和省时许多。“碰一下
    的头像 发表于 06-18 10:49 1438次阅读
    碰<b class='flag-5'>一下</b>终端,让自助售货机秒变 “家里的冰箱”

    带你参观一下射频工程师的试验台

    大家好,每个射频工程师都有个自己的试验台,别人的试验台究竟是什么样子的呢?君鉴科技今天带你参观一下别人的试验台。看,工作起来多认真!静电服定要穿上防尘帽也必须戴吗?远远地看着别人
    的头像 发表于 04-30 18:34 363次阅读
    带你参观<b class='flag-5'>一下</b>射频工程师的试验台

    复旦微电子与支付宝推出“碰一下”射频芯片

    近日,由支付宝主办的「碰一下·奇妙小镇」生态大会在杭州·运河文化发布中心隆重举办。大会场景覆盖餐饮、商圈MALL、出行、政务、医疗、物流等多个领域,以服务商、供应链伙伴和终端厂商为代表的生态伙伴共同参与,超300家头部合作伙伴创始人/CEO参加大会。
    的头像 发表于 04-28 09:46 1098次阅读

    厚声贴片电阻的功率降额曲线如何解读

    厚声贴片电阻的功率降额曲线是描述不同环境温度,电阻额定功率变化规律的重要工具。以下是对该曲线的详细解读、功率降额曲线的定义 功率降额曲线显示了
    的头像 发表于 02-26 14:23 1000次阅读
    厚声贴片电阻的功率降额曲线如何<b class='flag-5'>解读</b>?

    你家也有“隐形守护者”?Rd-03雷达模组了解一下

    想象一下,你走进间黑漆漆的楼道, 突然,灯“唰”地一下亮了, 明明没看到任何传感器 新科技悄无声息地守护着我们的生活。 快速发展的智能照明行业中, 雷达感应技术的性能更加稳定,功耗
    的头像 发表于 02-14 09:33 579次阅读
    你家也有“隐形守护者”?Rd-03雷达模组了解<b class='flag-5'>一下</b>

    请教一下,两片ADS8568PCB布线是应该注意什么

    请教一下,两片ADS8568PCB布线是应该注意什么,数字地和模拟地的组合方式,或者有多片ADC的布线文档没,急用,谢谢。
    发表于 01-21 08:25

    “碰一下”支付背后的4G技术

    不知道你是否有留意,近期,在线下支付场景中,多了个支付宝“碰一下”支付的设备,只需要“解锁手机—碰一下—确认”即可完成支付,对比打开付款码支付,步骤确实更加简洁。
    的头像 发表于 01-03 16:27 4997次阅读

    支付宝发布新代AI视觉搜索“探一下

    支付宝近日正式推出了基于自研多模态大模型技术的新代AI视觉搜索产品——“探一下”。这创新产品的问世,标志着支付宝AI技术应用领域迈出了重要
    的头像 发表于 12-31 10:49 938次阅读