0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

微软DeBERTa登顶SuperGLUE排行榜

深度学习自然语言处理 来源:机器之心 作者:机器之心 2021-02-05 09:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在最新的 NLU 测试基准 SuperGLUE 中,微软提出的 DeBERTa 登顶榜单,并超越人类。

去年 6 月,来自微软的研究者提出一种新型预训练语言模型 DeBERTa,该模型使用两种新技术改进了 BERT 和 RoBERTa 模型。8 月,该研究开源了模型代码,并提供预训练模型下载。最近这项研究又取得了新的进展。 微软最近通过训练更大的版本来更新 DeBERTa 模型,该版本由 48 个 Transformer 层组成,带有 15 亿个参数。本次扩大规模带来了极大的性能提升,使得单个 DeBERTa 模型 SuperGLUE 上宏平均(macro-average)得分首次超过人类(89.9 vs 89.8),整体 DeBERTa 模型在 SuperGLUE 基准排名中居于首位,以 90.3 的得分显著高出人类基线(89.8)。目前该模型以 90.8 的宏平均(macro-average)得分高居 GLUE 基准排名的首位。

SuperGLUE 排行榜,2021 年 1 月 6 日。 DeBERTa 是一种基于 Transformer,使用自监督学习在大量原始文本语料库上预训练的神经语言模型。像其他 PLM 一样,DeBERTa 旨在学习通用语言表征,可以适应各种下游 NLU 任务。DeBERTa 使用 3 种新技术改进了之前的 SOTA PLM(例如 BERT、RoBERTa、UniLM),这 3 种技术是:

分解注意力(disentangled attention)机制;

增强型掩码解码器;

一种用于微调的虚拟对抗训练方法。

ee5e6fae-603d-11eb-8b86-12bb97331649.png

DeBERTa 的架构。 最近该研究在 arXiv 上提交了 DeBERTa 的最新论文,文中详细介绍了 DeBERTa 模型的方法及最新的实验结果。

论文链接:https://arxiv.org/pdf/2006.03654v2.pdf 下面我们来详细看一下该模型用到的 3 种新技术。 分解注意力机制 与 BERT 不同,DeBERTa 中每个词使用两个对其内容和位置分别进行编码的向量来表示,使用分解矩阵分别根据词的内容和相对位置来计算词间的注意力权重。采用这种方法是因为:词对的注意力权重(衡量词与词之间的依赖关系强度)不仅取决于它们的内容,还取决于它们的相对位置。例如,「deep」和「learning」这两个词在同一个句子中接连出现时的依赖关系要比它们出现在不同句子中强得多。 增强型掩码解码器 与 BERT 一样,DeBERTa 也使用掩码语言建模(MLM)进行了预训练。DeBERTa 将语境词的内容和位置信息用于 MLM。分解注意力机制已经考虑了语境词的内容和相对位置,但并没有考虑这些词的绝对位置,但这在很多情况下对于预测至关重要。 例如句子「a new store opened beside the new mall」其中,「store」和「mall」在用于预测时被掩码操作。尽管两个词的局部语境相似,但是它们在句子中扮演的句法作用是不同的。(例如,句子的主角是「store」而不是「mall」)。

这些句法上的细微差别在很大程度上取决于词在句子中的绝对位置,因此考虑单词在语言建模过程中的绝对位置是非常重要的。DeBERTa 在 softmax 层之前合并了绝对词位置嵌入,在该模型中,模型根据词内容和位置的聚合语境嵌入对被掩码的词进行解码。 规模不变的微调 虚拟对抗训练是一种提升模型泛化性的正则化方法。它通过提高模型对对抗样本(adversarial examples)的鲁棒性来实现这一点,其中对抗样本是通过对输入进行细微的干扰而创建的。对模型进行正则化,以便在给出一种特定任务样本时,该模型产生的输出分布与在该样本的对抗型干扰版本上产生的输出分布相同。对于 NLU 任务,干扰被用于词嵌入,而不是原始的词序列。

但是,嵌入向量的值范围(范数)在不同的词和模型上有所不同。对于具有数十亿个参数的较大模型,方差会比较大,从而导致对抗训练不稳定性。受层归一化的启发,为了提高训练稳定性,该研究开发了一种规模不变的微调(Scale-Invariant-Fine-Tuning (SiFT))方法,该方法将干扰用于归一化的词嵌入。 实验 该研究用实验及结果评估了 DeBERTa 在 NLU 和 NLG 的各种 NLP 任务上的性能。 在 NLU 任务上的主要结果 受此前 BERT、 RoBERTa 和 XLNet 等论文的影响,该研究使用大型模型和基础模型进行结果展示。 大型模型性能结果如下表所示:

f06a7432-603d-11eb-8b86-12bb97331649.png

表 1:在 GLUE 开发集上的结果对比。 表 1 总结了 8 个 GLUE 任务的结果,其中将 DeBERTa 与具有类似 transformer 结构的一些模型进行了比较,这些模型包括 BERT、 RoBERTa、XLNet、ALBERT 以及 ELECTRA。注意,RoBERTa、 XLNet 以及 ELECTRA 训练数据的大小为 160G,而 DeBERTa 训练数据大小为 78G。 该研究还对 DeBERTa 进行了一些其他的基准评估:

问答:SQuAD v1.1、SQuAD v2.0、RACE、ReCoRD 以及 SWAG;

自然语言推理:MNLI;

命名体识别(NER):CoNLL-2003。

结果如表 2 所示。

f1d2e9ee-603d-11eb-8b86-12bb97331649.png

表 2:在 MNLI in/out-domain、 SQuAD v1.1、 SQuAD v2.0、 RACE、 ReCoRD、 SWAG、 CoNLL 2003 NER 开发集上的结果展示。 基础模型性能比较 基础模型预训练的设置与大型模型的设置类似,基础模型结构遵循 BERT 的基础模型结构,性能评估结果如表 3 所示。

f3227da0-603d-11eb-8b86-12bb97331649.png

表 3:在 MNLI in/out-domain (m/mm)、SQuAD v1.1 和 v2.0 开发集上的结果对比。 生成任务结果比较 该研究在数据集 Wikitext-103 上,进一步对带有自回归语言模型 (ARLM) 的 DeBERTa 模型进行了评估。

f38363ae-603d-11eb-8b86-12bb97331649.png

表 4:在 Wikitext-103 数据集上,不同语言模型对比结果。 DeBERTa_base 在开发集和测试集上都获得了比较好的 PPL 结果,MLM 和 ARLM 联合训练进一步降低了 PPL,这展示了 DeBERTa 的有效性。 模型分析 消融实验:为了验证实验设置,该研究从头开始预训练 RoBERTa 基础模型。并将重新预训练的 RoBERTa 称为 RoBERTa-ReImp_base。为了研究 DeBERTa 模型不同部分对性能的影响,研究人员设计了三种变体:

EMD 表示没有 EMD 的 DeBERTa 基础模型;

C2P 表示没有内容到位置 term 的 DeBERTa 基础模型;

P2C 表示没有位置到内容 term 的 DeBERTa 基础模型。由于 XLNet 也使用了相对位置偏差,所以该模型与 XLNet + EMD 模型比较接近。

f3edd4fa-603d-11eb-8b86-12bb97331649.png

表 5 总结了 DeBERTa 基础模型消融实验在四个基准数据集上的结果。 预训练效率 为了研究模型预训练的收敛性,该研究以预训练 step 数的函数的形式可视化微调下游任务的性能,如图 1 所示,对于 RoBERTa ReImp 基础模型和 DeBERTa 基础模型,该研究每 150K 个预训练 step 存储一个检查点,然后对两个有代表性的下游任务(MNLI 和 SQuAD v2.0)上的检查点进行微调,之后分别报告准确率和 F1 得分。

f5715fcc-603d-11eb-8b86-12bb97331649.png

图 1:DeBERTa 及其相似模型在 MNLI 、 SQuAD v2.0 开发集上的预训练性能曲线。 扩展至 15 亿参数 更大的预训练模型会显示出更好的泛化结果。因此,该研究建立了一个拥有 15 亿个参数的 DeBERTa,表示为 DeBERTa_1.5B,该模型有 48 层。在 160G 预训练数据集上训练 DeBERTa_1.5B,并且使用数据集构造了一个大小为 128K 的新词汇表。

f6a34504-603d-11eb-8b86-12bb97331649.png

表 6:DeBERTa_1.5B 和其他几种模型在 SuperGLUE 测试集上的结果。

原文标题:NLU新里程碑,微软DeBERTa登顶SuperGLUE排行榜,显著超越人类

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 微软
    +关注

    关注

    4

    文章

    6753

    浏览量

    108085
  • 神经网络
    +关注

    关注

    42

    文章

    4842

    浏览量

    108180

原文标题:NLU新里程碑,微软DeBERTa登顶SuperGLUE排行榜,显著超越人类

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    杰理科技蝉联2026中国IC设计Fabless 100排行榜

    近日,全球电子工程领域权威机构AspenCore正式发布2026中国IC设计 Fabless 100排行榜。凭借在无线连接、模拟芯片及端侧AI领域的持续创新与规模化落地,杰理科技连续多年入选无线连接芯片公司TOP10,再度印证其在国产无线连接芯片赛道的领军地位与行业认可度。
    的头像 发表于 04-10 10:24 243次阅读

    炬芯科技再度荣登2026中国IC设计Fabless 100排行榜TOP10无线连接芯片公司

    近日,备受瞩目的“2026 中国 IC 设计 Fabless 100 排行榜”正式揭晓。炬芯科技(Actions Technology)依托 AI、无线、音频等核心技术优势,持续以技术创新驱动 AIoT 领域市场发展,凭借出色的技术商业化落地成果,再度荣登“TOP 10 无线连接芯片公司”。
    的头像 发表于 04-09 14:45 2639次阅读
    炬芯科技再度荣登2026中国IC设计Fabless 100<b class='flag-5'>排行榜</b>TOP10无线连接芯片公司

    润石科技荣登2026中国IC设计Fabless100排行榜TOP10模拟芯片公司

    今日,全球电子工程领域权威技术媒体机构 AspenCore重磅揭晓了2026中国IC设计Fabless100排行榜,榜单覆盖MCU、AI芯片、电源管理(PMIC)、功率器件、存储器、处理器、无线连接
    的头像 发表于 04-01 14:22 3655次阅读
    润石科技荣登2026中国IC设计Fabless100<b class='flag-5'>排行榜</b>TOP10模拟芯片公司

    2026年通信电源品牌推荐排行榜:选购不踩雷指南

    在现代通信行业,稳定的电源系统是保障网络顺畅运行的关键。如果你正在为通信设备选购电源,或者打算升级现有的通信电源设备,那么这篇文章绝对能帮到你。本文整理了2026年通信电源品牌推荐排行榜,并结合权威资料与行业经验,帮助你快速做出决策。
    的头像 发表于 03-06 09:40 506次阅读
    2026年通信电源品牌推荐<b class='flag-5'>排行榜</b>:选购不踩雷指南

    奇瑞汽车位居2025年安徽发明专利排行榜榜首

    2月24日,春节假期后的首个工作日,“技术奇瑞”迎来开门红。在安徽省市场监督管理局(省知识产权局)联合省科学技术厅、省教育厅、省工业和信息化厅发布的“2025年安徽发明专利排行榜”中,奇瑞汽车股份有限公司排名第一,连续12年蝉联安徽发明专利排行榜榜首,彰显出企业深厚的研发
    的头像 发表于 02-27 15:36 560次阅读

    2026年通信电源排行榜:选择最佳通信电源的重要性

    在如今的科技环境中,通信电源作为通信设备正常运行的重要组成部分,其稳定性和可靠性直接影响到网络的性能和服务质量。2026年,随着技术的不断发展,市场上涌现出许多优秀的通信电源品牌和型号。那么,如何选择合适的通信电源呢?让我们一起看看2026年通信电源排行榜,帮助你做出明智选择。
    的头像 发表于 02-25 09:37 261次阅读
    2026年通信电源<b class='flag-5'>排行榜</b>:选择最佳通信电源的重要性

    全球电子制造服务厂商排行榜(Top100)

    全球电子制造服务厂商排行榜(Top100)来源:ittbank
    的头像 发表于 01-08 09:54 466次阅读
    全球电子制造服务厂商<b class='flag-5'>排行榜</b>(Top100)

    电话光端机品牌排行榜揭晓:为何广州邮科是专业用户的普遍选择?

    在寻找稳定可靠的电话光端机时,许多工程师和采购负责人都会下意识地搜索“ 电话光端机 品牌排行榜 ”,希望从市场口碑中寻找值得信赖的选择。虽然严格的官方排行并不多见,但在工业通信、专网及关键业务领域
    的头像 发表于 12-18 14:20 436次阅读
    电话光端机品牌<b class='flag-5'>排行榜</b>揭晓:为何广州邮科是专业用户的普遍选择?

    OPS 插拔式电脑排行榜,10 月份最新版

    的要求。本次10月最新排行榜,结合OPS2.0适配进度、第三季度实际交付数据及多行业反馈,聚焦“技术适配、生产可控、场景落地”三大核心维度,筛选出真正具备实用价值
    的头像 发表于 10-28 17:52 880次阅读
    OPS 插拔式电脑<b class='flag-5'>排行榜</b>,10 月份最新版

    公布2025年中国十大智能电表厂家品牌排行榜

    随着能源数字化转型的加速,智能电表作为电网智能化的重要基石,其技术与市场格局备受关注。2025年,中国智能电表行业在政策支持与技术迭代的双重驱动下,呈现出百花齐放的竞争态势。本文将结合行业数据、技术实力及用户口碑,为您揭晓本年度最具影响力的十大智能电表品牌排行榜
    的头像 发表于 10-22 15:48 4357次阅读
    公布2025年中国十大智能电表厂家品牌<b class='flag-5'>排行榜</b>

    智能水表品牌排行榜:2025年十大权威推荐

    影响力的十大品牌排行榜,为水务公司、房地产开发商及系统集成商提供专业选型参考。一、深圳合众致达科技有限公司作为智慧能源管理领域的创新企业,深圳合众致达科技有限公司凭
    的头像 发表于 10-18 15:23 3333次阅读
    智能水表品牌<b class='flag-5'>排行榜</b>:2025年十大权威推荐

    润和软件连续五年荣登IDC全球金融科技百强

    近日,2025 IDC全球金融科技排行榜(IDC FinTech Rankings Top 100)正式揭晓。江苏润和软件股份有限公司(以下简称“润和软件”)凭借其深厚的金融行业积淀、领先的技术能力
    的头像 发表于 09-22 10:24 966次阅读

    全球应用加速服务如何实现?网络服务推荐排行榜

    和提高访问速度,同时提供安全防护和负载均衡功能。本文将深入解析全球应用加速服务的实现方式,并为您呈现2025年网络服务提供商排行榜。一、全球应用加速服务的实现方式全球
    的头像 发表于 09-10 09:48 2031次阅读
    全球应用加速服务如何实现?网络服务推荐<b class='flag-5'>排行榜</b>

    如何挑选人脸识别终端?人脸识别一体机品牌排行榜

    考虑这些人脸识别终端的具体应用场景在哪里。下面,小编就总结了2025年最新的人脸识别一体机品牌排行榜:一、海康威视人脸门禁一体机优势:采用先进的人脸识别算法,能快速
    的头像 发表于 08-18 10:44 2392次阅读
    如何挑选人脸识别终端?人脸识别一体机品牌<b class='flag-5'>排行榜</b>

    软通动力荣登2025金融科技创新排行榜

    近日,DBC德本咨询“2025金融科技创新排行榜”正式发布,软通动力凭借在金融领域全栈智能化的创新实践,荣列榜单TOP3,这一荣誉不仅是对软通动力在金融科技领域深耕成果的高度认可,更凸显了其在推动行业智能化转型进程中的先行者地位。
    的头像 发表于 08-01 17:51 2185次阅读