0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是XLNet,它为什么比BERT效果好

电子设计 来源:电子设计 作者:电子设计 2020-12-10 19:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

介绍最基本的XLNet的原理,理解XLNet和BERT的直觉上的不同点。
作者:Xu LIANG
编译:ronghuaiyang
首发:AI公园公众号


在发布后不到一周,我周围的NLP领域的每个人似乎都在谈论XLNet

是的,“在20个任务上比BERT做得更好”确实吸引了我们的眼球。但更重要的是理解它是如何工作的,以及为什么它比BERT表现得更好。所以我写了这个博客来分享我读了这篇文章后的想法。

内容结构如下。

  • 什么是XLNet?
  • XLNet和BERT有什么不同?
  • XLNet是如何工作的?

什么是XLNet?

首先,XLNet是一个类似于bert的模型,而不是一个完全不同的模型。但它是一个非常有前途和潜力的。总之,XLNet是一种广义的自回归预训练方法。

那么,什么是自回归(AR)语言模型

AR语言模型是利用上下文单词预测下一个单词的一种模型。但是在这里,上下文单词被限制在两个方向,要么向前,要么向后。

GPT和GPT-2都是AR语言模型

AR语言模型的优点是擅长NLP生成任务。因为在生成上下文时,通常是正向的。AR语言模型在这类NLP任务中很自然地工作得很好。

但是AR语言模型有一些缺点,它只能使用前向上下文或后向上下文,这意味着它不能同时使用前向上下文和后向上下文

XLNet和BERT的区别是什么?

与AR语言模型不同,BERT被归类为自动编码器(AE)语言模型

AE语言模型的目的是从损坏的输入中重建原始数据

损坏的输入意味着我们使用在训练前阶段将原始tokeninto替换为 [MASK] 。我们的目标是预测into来得到原来的句子。

AE语言模型的优点是它可以在向前和向后两个方向上看到上下文。

但是AE语言模型也有其不足之处。它在预训练中使用了[MASK],但是这种人为的符号在finetune的时候在实际数据中时没有的,导致了预训练 — finetune的不一致。[MASK]的另一个缺点是它假设所预测的(mask掉的)token是相互独立的,给出的是未掩码的tokens。例如,我们有一句话“It shows that the housing crisis was turned into a banking crisis”。我们盖住了“banking”和“crisis”。注意这里,我们知道,盖住的“banking”与“crisis”之间隐含着相互关联。但AE模型是利用那些没有盖住的tokens试图预测“banking”,并独立利用那些没有盖住的tokens预测“crisis”。它忽视了“banking”与“crisis”之间的关系。换句话说,它假设预测的(屏蔽的)tokens是相互独立的。但是我们知道模型应该学习(屏蔽的)tokens之间的这种相关性来预测其中的一个token。

作者想要强调的是,XLNet提出了一种新的方法,让AR语言模型从双向的上下文中学习,避免了AE语言模型中mask方法带来的弊端。

XLNet如何工作?

AR语言模型只能使用前向或后向的上下文,如何让它学习双向上下文呢?语言模型由预训练阶段和调优阶段两个阶段组成。XLNet专注于预训练阶段。在预训练阶段,它提出了一个新的目标,称为重排列语言建模。 我们可以从这个名字知道基本的思想,它使用重排列。

这里我们用一个例子来解释。序列顺序是[x1, x2, x3, x4]。该序列的所有排列如下。

对于这4个tokens (N)的句子,有24个(N!)个排列。假设我们想要预测x3。24个排列中有4种模式,x3在第1位,第2位,第3位,第4位。

[x3, xx, xx, xx]
[xx, x3, xx, xx]
[xx, xx, x3, xx]
[xx, xx, xx, x3]


4种模式

在这里,我们将x3的位置设为第t位,它前面的t-1个tokens用来预测x3。

x3之前的单词包含序列中所有可能的单词和长度。直观地,模型将学习从两边的所有位置收集信息。

具体实现要比上面的解释复杂得多,这里就不讨论了。但是你应该对XLNet有最基本和最重要的了解。

来自XLNet的灵感

与BERT将mask方法公布于众一样,XLNet表明重排列法是一种很好的语言模型目标选择。可以预见,未来在语言模型目标方面的探索工作将会越来越多。

—END—

关注图像处理,自然语言处理,机器学习人工智能领域。
欢迎关注微信公众号

审核编辑 黄昊宇
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261444
  • 语言模型
    +关注

    关注

    0

    文章

    570

    浏览量

    11251
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    变频器U/f的测量

    变频器U/f的测量是电力电子技术领域中的重要环节,尤其在电机控制系统中,其准确性直接影响电机的运行效率和稳定性。U/f控制(电压频率控制)是变频器常用的控制方式之一,通过调整输出电压与频率
    的头像 发表于 11-22 07:31 66次阅读
    变频器U/f<b class='flag-5'>比</b>的测量

    如何评估电能质量在线监测装置的定制化和联动应用效果

    评估电能质量在线监测装置的定制化和联动应用效果,需围绕 “是否满足场景核心需求” 展开,通过 “量化指标 + 实际场景验证” 结合的方式,分别针对定制化(硬件、软件、数据、报告)和联动应用(系统
    的头像 发表于 10-23 09:28 270次阅读

    如何评估谐波治理措施的效果

    对新能源设备的损耗与危害。具体评估体系可拆解为 核心评估指标、关键评估方法、标准化评估流程 三部分,同时需结合新能源场景(光伏、风电、储能)的特性调整侧重点。 一、核心评估指标:明确 “效果” 的量化标准 评估的前提是确
    的头像 发表于 10-14 17:04 470次阅读

    峰均:你了解多少?

    峰均,或称峰值因数(crestfactor),简称PAR(peak-to-averageratio),或叫峰均功率(简称PARR,peak-to-averagepowerratio)。先说
    的头像 发表于 07-02 17:32 2124次阅读
    峰均<b class='flag-5'>比</b>:你了解多少?

    什么是共模抑制

    共模抑制详解在探头的数据手册上,共模抑制性能参数是核心指标之一。共模抑制又名CMRR,通常用分贝(dB)来表示,其计算公式为:其中其中本司光隔离产品CMRR在直流或低频下能达到120dB以上
    的头像 发表于 06-23 09:45 959次阅读
    什么是共模抑制<b class='flag-5'>比</b>?

    探索吉他音色与效果器的奇妙世界(3)- 时延和哇音效果

    本文是第二届电力电子科普征文大赛的获奖作品,来自上海科技大学李晨曦的投稿。时延类效果器如果失真类效果器是拿信号的幅值开刀,那么时延类效果器则是在信号的时域特性上做文章。根据原理的不同,可以将时延类
    的头像 发表于 06-14 10:00 1109次阅读
    探索吉他音色与<b class='flag-5'>效果</b>器的奇妙世界(3)- 时延和哇音<b class='flag-5'>效果</b>器

    伺服刚性和惯量调试

    的稳定性和响应速度。本文将深入探讨伺服刚性和惯量的概念、调试方法以及实际应用中的注意事项。 一、伺服刚性的概念与调试 伺服刚性反映了系统抵抗外力干扰的能力,通常表现为位置环增益(PG)和速度环增益(VG)的综合效果。高刚性系统能够快速响应指令并
    的头像 发表于 06-07 17:52 2975次阅读

    电源抑制

    电源抑制(PSRR),电源抑制(PSRR)是什么意思关键字:电源抑制(PSRR),电源抑制(PSRR)是什么意思电源抑制电源抑制
    发表于 04-08 13:30

    效果器的基础知识

    电子发烧友网站提供《效果器的基础知识.doc》资料免费下载
    发表于 03-26 14:30 6次下载

    异形拼接处理器可以实现的效果

    异形拼接处理器可以实现的效果非常多样化和创新,以下是对其可实现效果的进一步补充: 一、创意拼接显示 1、任意角度拼接:异形拼接处理器支持0~360度任意角度的拼接显示,使得显示屏可以以各种角度进行
    的头像 发表于 03-21 12:39 509次阅读
    异形拼接处理器可以实现的<b class='flag-5'>效果</b>

    智慧路灯的照明效果如何?

    引言 在智慧城市建设的进程中,叁仟智慧路灯已逐渐成为城市道路照明的主力军。其照明效果不仅关系到市民夜间出行的安全与便捷,更对城市的整体形象和生活品质有着深远影响。相较于传统路灯,叁仟智慧路灯借助
    的头像 发表于 03-16 16:10 624次阅读

    分压器分压计算_分压器变怎么算

    分压器的分压是指输出电压与输入电压的比值,其大小取决于分压器中各个元件(电阻或电容)的参数。以下是分压器分压的计算方法:
    的头像 发表于 01-28 13:49 3934次阅读

    示波器探头衰减的设置意义与操作方法

    在电子信号测试领域,示波器是对信号进行测试观察的重要工具。针对不同的信号,我们需要调整示波器及探头相关参数来优化测试效果,其中调整示波器探头的衰减尤为关键。示波器探头衰减的设置需要兼顾信号特性
    的头像 发表于 01-06 11:06 1763次阅读
    示波器探头衰减<b class='flag-5'>比</b>的设置意义与操作方法

    ADS1601的参考电压是内部给效果,还是外接好?

    请问一下ADS1601的参考电压是内部给效果,还是外接好?谢谢
    发表于 12-20 07:29