谷歌大脑CMU联手推出XLNet,20项任务全面超越BERT-电子发烧友网

谷歌大脑和CMU联合团队提出面向NLP预训练新方法XLNet，性能全面超越此前NLP领域的黄金标杆BERT，在20个任务上实现了性能的大幅提升，刷新了18个任务上的SOTA结果，可谓全面屠榜！

近日，谷歌大脑主任科学家Quoc V. Le在Twitter上放出一篇重磅论文，立即引发热议：

这篇论文提出一种新的NLP模型预训练方法XLNet，在20项任务上(如SQuAD、GLUE、RACE) 的性能大幅超越了此前NLP黄金标杆BERT。

XLNet：克服BERT固有局限，20项任务性能强于BERT

本文提出的XLNet是一种广义自回归预训练方法，具有两大特点：（1）通过最大化分解阶的所有排列的预期可能性来学习双向语境，（2）由于其自回归的性质，克服了BERT的局限性。

此外，XLNet将最先进的自回归模型Transformer-XL的创意整合到预训练过程中。实验显示，XLNet在20个任务上的表现优于BERT，而且大都实现了大幅度性能提升，并在18个任务上达到了SOTA结果，这些任务包括问答、自然语言推理、情感分析和文档排名等。

与现有语言预训练目标相比，本文提出了一种广义的自回归方法，同时利用了AR语言建模和AE的优点，同时避免了二者的局限性。首先是不再像传统的AR模型那样，使用固定的前向或后向分解顺序，而是最大化序列的预期对数似然性分解顺序的所有可能排列。每个位置的上下文可以包含来自该位置前后的令牌，实现捕获双向语境的目标。

作为通用AR语言模型，XLNet不依赖于数据损坏。因此，XLNet不会受到BERT受到的预训练和微调后的模型之间差异的影响。同时以自然的方式使用乘积规则，分解预测的令牌的联合概率，从而消除了在BERT中做出的独立性假设。

除了新的预训练目标外，XLNet还改进了预训练的架构设计。 XLNet将Transformer-XL的分段重复机制和相对编码方案集成到预训练中，从而凭经验改进了性能，对于涉及较长文本序列的任务效果尤其明显。

图1：在给定相同输入序列x，但分解顺序不同的情况下，对置换语言建模目标的预测结果

图2：（a）：内容流注意力机制，与标准的自注意力机制相同。（b）查询流注意力，其中不含关于内容xzt的访问信息。（c）：使用双信息流注意力机制的置换语言建模训练示意图。

全面屠榜：大幅刷新18项任务数据集SOTA性能

表1：与阅读理解任务RACE测试集的最新结果的比较。 *表示使用聚集模型。 RACE中的“Middle”和“High”是代表初中和高中难度水平的两个子集。所有BERT和XLNet结果均采用大小相似的模型（又称BERT-Large），模型为24层架构。我们的XLNet单一模型在精确度方面高出了7.6分

表2：单XLNet模型在SQuAD1.1数据集上的性能优于分别优于真人表现和最佳聚集模型性能达7.6 EM和2.5 EM。

表3：与几个文本分类数据集的测试集上错误率SOTA结果的比较。所有BERT和XLNet结果均采用具有相似大小的24层模型架构（BERT-Large）

表4：GLUE数据集上的结果。所有结果都基于具有相似模型尺寸的24层架构（也称BERT-Large）。可以将最上行与BERT和最下行中的结果直接比较。

表5：与文档排名任务ClueWeb09-B的测试集上的最新结果的比较。 †表示XLNet的结果。

表6：我们使用BERT官方实现方案和XLNet超参数搜索空间在其他数据集上运行BERT，结果如图所示，其中K是控制优化难度的超参数。所有模型都在相同的数据上进行预训练。

从实验结果可以看出，说XLNet全面超越BERT其实一点都不夸张。

知乎热议：512TPU训练，家里没矿真搞不起

有热心网友一早将这篇“屠榜”论文发在了知乎上，从网友的评论上看，一方面承认谷歌和CMU此项成果的突破，同时也有人指出，这样性能强劲的XLNet，还是要背靠谷歌TPU平台的巨额算力资源，“大力出奇迹”果然还是深度学习界的第一真理吗？

比如，网友“Towser”在对论文核心部分内容的简要回顾中，提到了XLNet的优化方法，其中引人注目的一点是其背后的谷歌爸爸的海量算力资源的支持：

512个TPU训练了2.5天，训练总计算量是BERT的5倍！要知道作为谷歌的亲儿子，BERT的训练计算量已经让多数人望尘莫及了。没钱，搞什么深度学习？

难怪NLP领域的专家、清华大学刘知远副教授对XLNet一句评价被毫无悬念地顶到了知乎最高赞：

目前，XLNet的代码和预训练模型也已经在GitHub上放出。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
5858

浏览量
103251
nlp

nlp

+关注

关注
1

文章
463

浏览量
21821

原文标题：NLP新标杆！谷歌大脑CMU联手推出XLNet，20项任务全面超越BERT

文章出处：【微信号：aicapital，微信公众号：全球人工智能】欢迎添加关注！文章转载请注明出处。

微软、谷歌联手多家科技巨头保护儿童安全

　4 月 24 日消息，随着生成式 AI 的快速发展，如何保障儿童安全成为了焦点。微软、谷歌日前与 Thorn、All Tech Is Human 等专业机构联手，以期在生成 AI 技术中实施更严格的儿童安全措施。

发表于 04-24 10:50 •211次阅读

谷歌发布Axion新款数据中心AI芯片，性能超越x86及云端

谷歌预计将通过Google Cloud提供Axion AI芯片给客户。谷歌强调这款基于ARM的CPU产品具有优越的性能表现，甚至超越了传统的x86芯片及云端通用ARM芯片。

发表于 04-10 16:32 •461次阅读

Anthropic推出Claude 3大型语言模型，在认知任务性能上创新高

据官方披露，Claude 3 旗舰 Opus 在大学生和研究生范畴的学术知识、复杂数理任务了解部分超越 OpenAI 的 GPT-4 以及谷歌的 Gemini 1.0 Ultra。

发表于 03-05 11:16 •188次阅读

谷歌模型软件有哪些功能

谷歌模型软件通常指的是谷歌推出的一系列人工智能模型和软件工具，其中最具代表性的是Google Gemini。Google Gemini是谷歌DeepMind团队开发的一款大型语言模型，

发表于 03-01 16:20 •208次阅读

谷歌模型训练软件有哪些功能和作用

谷歌模型训练软件主要是指ELECTRA，这是一种新的预训练方法，源自谷歌AI。ELECTRA不仅拥有BERT的优势，而且在效率上更胜一筹。

发表于 02-29 17:37 •395次阅读

Groq推出大模型推理芯片超越了传统GPU和谷歌TPU

Groq推出了大模型推理芯片，以每秒500tokens的速度引起轰动，超越了传统GPU和谷歌TPU。

发表于 02-26 10:24 •386次阅读

Groq<b class='flag-5'>推出</b>大模型推理芯片 <b class='flag-5'>超越</b>了传统GPU和<b class='flag-5'>谷歌</b>TPU

大语言模型背后的Transformer，与CNN和RNN有何不同

for Language Understanding》，BERT模型横空出世，并横扫NLP领域11项任务的最佳成绩。而在BERT中发挥重要作用的结构就是Transformer，之后又相继出现

发表于 12-25 08:36 •1573次阅读

基于BERT算法搭建一个问答搜索引擎

鼎鼎大名的 Bert 算法相信大部分同学都听说过，它是Google推出的NLP领域“王炸级”预训练模型，其在NLP任务中刷新了多项记录，并取得state of the art的成绩。但是有很多深度

发表于 10-30 11:46 •341次阅读

谷歌量子计算机新突破可几秒内完成47年的任务

谷歌内部的研究人员在ArXiv上发布了一篇论文，宣布在量子计算领域取得了重大突破。他们声称，谷歌最新的量子计算技术已经超越了现有的经典超级计算机的能力。

发表于 07-05 17:51 •1355次阅读

Multi-CLS BERT：传统集成的有效替代方案

在 GLUE 和 SuperGLUE 数据集上进行了实验，证明了 Multi-CLS BERT 在提高整体准确性和置信度估计方面的可靠性。它甚至能够在训练样本有限的情况下超越更大的 BERT 模型。最后还提供了 Multi-CL

发表于 07-04 15:47 •456次阅读

PyTorch教程-16.7。自然语言推理：微调 BERT

节）。现在我们通过微调 BERT 重新审视这个任务。正如16.6 节所讨论的，自然语言推理是一个序列级文本对分类问题，微调 BERT 只需要一个额外的基于 MLP 的架构，如图

发表于 06-05 15:44 •997次阅读

PyTorch教程-16.6. 针对序列级和令牌级应用程序微调 BERT

和 MLPs。当存在空间或时间限制时，这些模型很有用，但是，为每个自然语言处理任务制作一个特定模型实际上是不可行的。在 15.8 节中，我们介绍了一种预训练模型 BERT，它需要对各种自然语言处理任务进行

发表于 06-05 15:44 •265次阅读

PyTorch教程-15.9。预训练 BERT 的数据集

实验室在 SageMaker Studio Lab 中打开笔记本为了预训练第 15.8 节中实现的 BERT 模型，我们需要以理想的格式生成数据集，以促进两项预训练任务：掩码语言建模和下一句预测

发表于 06-05 15:44 •551次阅读

PyTorch教程15.9之预训练BERT的数据集

电子发烧友网站提供《PyTorch教程15.9之预训练BERT的数据集.pdf》资料免费下载

发表于 06-05 11:06 •0次下载

PyTorch教程15.10之预训练BERT

电子发烧友网站提供《PyTorch教程15.10之预训练BERT.pdf》资料免费下载

发表于 06-05 10:53 •0次下载

搜索历史

谷歌大脑CMU联手推出XLNet,20项任务全面超越BERT

评论

微软、谷歌联手多家科技巨头保护儿童安全

谷歌发布Axion新款数据中心AI芯片，性能超越x86及云端

Anthropic推出Claude 3大型语言模型，在认知任务性能上创新高

谷歌模型软件有哪些功能

谷歌模型训练软件有哪些功能和作用

Groq推出大模型推理芯片超越了传统GPU和谷歌TPU

大语言模型背后的Transformer，与CNN和RNN有何不同

基于BERT算法搭建一个问答搜索引擎

谷歌量子计算机新突破可几秒内完成47年的任务

Multi-CLS BERT：传统集成的有效替代方案

PyTorch教程-16.7。自然语言推理：微调 BERT

PyTorch教程-16.6. 针对序列级和令牌级应用程序微调 BERT

PyTorch教程-15.9。预训练 BERT 的数据集

PyTorch教程15.9之预训练BERT的数据集

PyTorch教程15.10之预训练BERT