0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是XLNet,它为什么比BERT效果好

电子设计 来源:电子设计 作者:电子设计 2020-12-10 19:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

介绍最基本的XLNet的原理,理解XLNet和BERT的直觉上的不同点。
作者:Xu LIANG
编译:ronghuaiyang
首发:AI公园公众号


在发布后不到一周,我周围的NLP领域的每个人似乎都在谈论XLNet

是的,“在20个任务上比BERT做得更好”确实吸引了我们的眼球。但更重要的是理解它是如何工作的,以及为什么它比BERT表现得更好。所以我写了这个博客来分享我读了这篇文章后的想法。

内容结构如下。

  • 什么是XLNet?
  • XLNet和BERT有什么不同?
  • XLNet是如何工作的?

什么是XLNet?

首先,XLNet是一个类似于bert的模型,而不是一个完全不同的模型。但它是一个非常有前途和潜力的。总之,XLNet是一种广义的自回归预训练方法。

那么,什么是自回归(AR)语言模型

AR语言模型是利用上下文单词预测下一个单词的一种模型。但是在这里,上下文单词被限制在两个方向,要么向前,要么向后。

GPT和GPT-2都是AR语言模型

AR语言模型的优点是擅长NLP生成任务。因为在生成上下文时,通常是正向的。AR语言模型在这类NLP任务中很自然地工作得很好。

但是AR语言模型有一些缺点,它只能使用前向上下文或后向上下文,这意味着它不能同时使用前向上下文和后向上下文

XLNet和BERT的区别是什么?

与AR语言模型不同,BERT被归类为自动编码器(AE)语言模型

AE语言模型的目的是从损坏的输入中重建原始数据

损坏的输入意味着我们使用在训练前阶段将原始tokeninto替换为 [MASK] 。我们的目标是预测into来得到原来的句子。

AE语言模型的优点是它可以在向前和向后两个方向上看到上下文。

但是AE语言模型也有其不足之处。它在预训练中使用了[MASK],但是这种人为的符号在finetune的时候在实际数据中时没有的,导致了预训练 — finetune的不一致。[MASK]的另一个缺点是它假设所预测的(mask掉的)token是相互独立的,给出的是未掩码的tokens。例如,我们有一句话“It shows that the housing crisis was turned into a banking crisis”。我们盖住了“banking”和“crisis”。注意这里,我们知道,盖住的“banking”与“crisis”之间隐含着相互关联。但AE模型是利用那些没有盖住的tokens试图预测“banking”,并独立利用那些没有盖住的tokens预测“crisis”。它忽视了“banking”与“crisis”之间的关系。换句话说,它假设预测的(屏蔽的)tokens是相互独立的。但是我们知道模型应该学习(屏蔽的)tokens之间的这种相关性来预测其中的一个token。

作者想要强调的是,XLNet提出了一种新的方法,让AR语言模型从双向的上下文中学习,避免了AE语言模型中mask方法带来的弊端。

XLNet如何工作?

AR语言模型只能使用前向或后向的上下文,如何让它学习双向上下文呢?语言模型由预训练阶段和调优阶段两个阶段组成。XLNet专注于预训练阶段。在预训练阶段,它提出了一个新的目标,称为重排列语言建模。 我们可以从这个名字知道基本的思想,它使用重排列。

这里我们用一个例子来解释。序列顺序是[x1, x2, x3, x4]。该序列的所有排列如下。

对于这4个tokens (N)的句子,有24个(N!)个排列。假设我们想要预测x3。24个排列中有4种模式,x3在第1位,第2位,第3位,第4位。

[x3, xx, xx, xx]
[xx, x3, xx, xx]
[xx, xx, x3, xx]
[xx, xx, xx, x3]


4种模式

在这里,我们将x3的位置设为第t位,它前面的t-1个tokens用来预测x3。

x3之前的单词包含序列中所有可能的单词和长度。直观地,模型将学习从两边的所有位置收集信息。

具体实现要比上面的解释复杂得多,这里就不讨论了。但是你应该对XLNet有最基本和最重要的了解。

来自XLNet的灵感

与BERT将mask方法公布于众一样,XLNet表明重排列法是一种很好的语言模型目标选择。可以预见,未来在语言模型目标方面的探索工作将会越来越多。

—END—

关注图像处理,自然语言处理,机器学习人工智能领域。
欢迎关注微信公众号

审核编辑 黄昊宇
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1820

    文章

    50325

    浏览量

    266960
  • 语言模型
    +关注

    关注

    0

    文章

    575

    浏览量

    11343
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    DIY专属吉他效果器FunBox开源项目介绍

    想玩转吉他效果器,却被 Meris、Chase Bliss 等高端品牌的价格劝退?想 DIY 专属效果器,却找不到小巧适配、支持立体声的开源平台?要么功能单一满足不了演奏需求,要么硬件设计复杂复刻难,要么开发门槛高无配套固件支持?
    的头像 发表于 03-11 11:25 655次阅读
    DIY专属吉他<b class='flag-5'>效果</b>器FunBox开源项目介绍

    郎特科技 LED 灯管定制:管径规格如何影响照明效果

    郎特科技LED灯管定制:管径规格如何影响照明效果?在照明领域,LED灯管的管径规格是影响照明效果的关键因素之一。郎特科技提供多种管径规格的LED灯管定制服务,每种管径都因其独特的物理特性,在光通量
    的头像 发表于 02-12 13:08 733次阅读
    郎特科技 LED 灯管定制:管径规格如何影响照明<b class='flag-5'>效果</b>?

    功率因数与无功占的内在联系及如何选择目标功率因数

    功率因数提升对无功占的影响,提升初期效果显著,接近1时需更多补偿,提升至0.99可减少无功占至14%,选择合适的功率因数提高电能利用效率。
    的头像 发表于 01-29 21:34 1672次阅读
    功率因数与无功占<b class='flag-5'>比</b>的内在联系及如何选择目标功率因数

    三防漆哪种?别再问了!记住这个选型逻辑,品牌更重要

    “三防漆哪种?”——这是电子工程师、采购和制造从业者最高频的问题之一。但坦白说,这是一个“伪命题”。就像问“车哪种?”一样,没有前提条件,答案毫无意义。没有最好的三防漆,只有最适合您产品应用
    的头像 发表于 12-23 17:41 729次阅读
    三防漆哪种<b class='flag-5'>好</b>?别再问了!记住这个选型逻辑,<b class='flag-5'>比</b>品牌更重要

    变频器U/f的测量

    变频器U/f的测量是电力电子技术领域中的重要环节,尤其在电机控制系统中,其准确性直接影响电机的运行效率和稳定性。U/f控制(电压频率控制)是变频器常用的控制方式之一,通过调整输出电压与频率
    的头像 发表于 11-22 07:31 751次阅读
    变频器U/f<b class='flag-5'>比</b>的测量

    如何评估电能质量在线监测装置的定制化和联动应用效果

    评估电能质量在线监测装置的定制化和联动应用效果,需围绕 “是否满足场景核心需求” 展开,通过 “量化指标 + 实际场景验证” 结合的方式,分别针对定制化(硬件、软件、数据、报告)和联动应用(系统
    的头像 发表于 10-23 09:28 629次阅读

    如何评估谐波治理措施的效果

    对新能源设备的损耗与危害。具体评估体系可拆解为 核心评估指标、关键评估方法、标准化评估流程 三部分,同时需结合新能源场景(光伏、风电、储能)的特性调整侧重点。 一、核心评估指标:明确 “效果” 的量化标准 评估的前提是确
    的头像 发表于 10-14 17:04 1097次阅读

    锂电池和超级电容器哪个小效果

    锂电池与超级电容器各具优势:锂电池能量密度高,适合长期使用;超级电容器功率密度高,适合短时高功率需求,但成本较高。
    的头像 发表于 08-25 14:28 1966次阅读
    锂电池和超级电容器哪个小<b class='flag-5'>效果</b><b class='flag-5'>好</b>?

    M12航空接头的“防呆设计”:插错插对还难的秘密​

    这些设计看着简单,其实是“多保险”组合。德索精密工业的优势在于,不把防呆当附加功能,而是从设计源头就植进去——形状、插针、颜色、锁紧环环相扣,形成“想错都难”的闭环。就像老工程师说的:“的防呆设计,是让错误操作正确操作更费劲。”这也是德索的M12接头在复杂航空场景里让
    的头像 发表于 08-15 11:36 1456次阅读
    M12航空接头的“防呆设计”:插错<b class='flag-5'>比</b>插对还难的秘密​

    峰均:你了解多少?

    峰均,或称峰值因数(crestfactor),简称PAR(peak-to-averageratio),或叫峰均功率(简称PARR,peak-to-averagepowerratio)。先说
    的头像 发表于 07-02 17:32 3395次阅读
    峰均<b class='flag-5'>比</b>:你了解多少?

    什么是共模抑制

    共模抑制详解在探头的数据手册上,共模抑制性能参数是核心指标之一。共模抑制又名CMRR,通常用分贝(dB)来表示,其计算公式为:其中其中本司光隔离产品CMRR在直流或低频下能达到120dB以上
    的头像 发表于 06-23 09:45 1562次阅读
    什么是共模抑制<b class='flag-5'>比</b>?

    探索吉他音色与效果器的奇妙世界(3)- 时延和哇音效果

    本文是第二届电力电子科普征文大赛的获奖作品,来自上海科技大学李晨曦的投稿。时延类效果器如果失真类效果器是拿信号的幅值开刀,那么时延类效果器则是在信号的时域特性上做文章。根据原理的不同,可以将时延类
    的头像 发表于 06-14 10:00 1791次阅读
    探索吉他音色与<b class='flag-5'>效果</b>器的奇妙世界(3)- 时延和哇音<b class='flag-5'>效果</b>器

    伺服刚性和惯量调试

    的稳定性和响应速度。本文将深入探讨伺服刚性和惯量的概念、调试方法以及实际应用中的注意事项。 一、伺服刚性的概念与调试 伺服刚性反映了系统抵抗外力干扰的能力,通常表现为位置环增益(PG)和速度环增益(VG)的综合效果。高刚性系统能够快速响应指令并
    的头像 发表于 06-07 17:52 5473次阅读

    探索吉他音色与效果器的奇妙世界(2)- 失真类效果

    的音量下得到失真音色呢?随着半导体技术的发展,失真类效果器应运而生。在介绍失真类效果器之前,需要先简单介绍一下二极管削波电路。二极管削波电路通常由一个或多个二极管、
    的头像 发表于 06-07 08:34 1748次阅读
    探索吉他音色与<b class='flag-5'>效果</b>器的奇妙世界(2)- 失真类<b class='flag-5'>效果</b>器