Multi-CLS BERT：传统集成的有效替代方案-电子发烧友网

在本文中，介绍了Multi-CLS BERT，这是传统集成方法的有效替代方案。

这种基于 CLS 的预测任务的新颖方法旨在提高准确性，同时最大限度地减少计算和内存需求。

通过利用具有不同参数化和目标的多个 CLS token，提出的方法无需微调集成中的每个 BERT 模型，从而实现更加简化和高效的流程。

在 GLUE 和 SuperGLUE 数据集上进行了实验，证明了 Multi-CLS BERT 在提高整体准确性和置信度估计方面的可靠性。它甚至能够在训练样本有限的情况下超越更大的 BERT 模型。最后还提供了 Multi-CLS BERT 的行为和特征的分析。

Multi-CLS BERT和传统集成方法不同点是？

Multi-CLS BERT与传统的集成方法不同之处在于它使用多个CLS token，并通过参数化和目标函数来鼓励它们的多样性。这样一来，就不需要对集成中的每个BERT模型进行微调，从而使整个过程更加简化和高效。相比之下，传统的集成方法需要对集成中的每个模型进行微调，并在测试时同时运行它们。Multi-CLS BERT在行为和特性上与典型的BERT 5-way集成模型非常相似，但计算和内存消耗几乎减少了4倍。

在所提出的方法中使用多个 CLS tokens有哪些优点？

在所提出的方法中，使用多个CLS token的优点在于可以鼓励它们的多样性，从而提高模型的准确性和置信度估计。相比于传统的单个CLS token，使用多个CLS token可以更好地捕捉输入文本的不同方面和特征。

此外，Multi-CLS BERT的使用还可以减少计算和内存消耗，因为它不需要对集成中的每个BERT模型进行微调，而是只需要微调单个Multi-CLS BERT模型并在测试时运行它。

GLUE 和 SuperGLUE 数据集上的实验结果

GLUE和SuperGLUE是两个广泛使用的自然语言理解基准测试数据集。

在所提出的方法中，作者使用GLUE和SuperGLUE数据集来评估Multi-CLS BERT的性能。在GLUE数据集上，作者使用100个、1,000个和完整数据集进行了实验，并在SuperGLUE数据集上使用了相同的设置。

实验结果表明，Multi-CLS BERT在GLUE和SuperGLUE数据集上都能够可靠地提高整体准确性和置信度估计。在GLUE数据集中，当只有100个训练样本时，Multi-CLS BERT Base模型甚至可以胜过相应的BERT Large模型。在SuperGLUE数据集上，Multi-CLS BERT也取得了很好的表现。

总结

在这项工作中，作者建议使用 K 个 CLS 嵌入来表示输入文本，而不是在 BERT 中使用单个 CLS 嵌入。与 BERT 相比，Multi-CLS BERT 显着提高了 GLUE 和 SuperGLUE 分数，并减少了 GLUE 中的预期校准误差，而其唯一增加的成本是将最大文本长度减少了 K 并增加了一些额外的时间来计算插入的线性变换。因此，建议广泛使用多个 CLS 嵌入，以获得几乎免费的性能增益。

为了解决 CLS 嵌入的崩溃问题，作者修改了预训练损失、BERT 架构和微调损失。消融研究表明，所有这些修改都有助于 Multi-CLS BERT 性能的提高。在调查改进来源的分析中，发现 a) 集成原始 BERT 比集成 Multi-CLS BERT 带来更大的改进，b) 不同 CLS 嵌入的不一致与 BERT 模型的不一致高度相关不同的微调种子。这两项发现都支持作者的观点，即 Multi-CLS BERT 是一种有效的集成方法。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
2704

浏览量
47696
数据集

数据集

+关注

关注
4

文章
1179

浏览量
24356
自然语言

自然语言

+关注

关注
1

文章
270

浏览量
13207

原文标题：ACL2023 | Multi-CLS BERT：传统集成的有效替代方案

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

WAN架构3个替代方案和挑战

如今，网络组织面临着大量且不断增长的WAN架构选择。在本文中，我将讨论网络组织面临的其他WAN架构替代方案和挑战。动态多路径能够通过多个WAN链路对流量进行负载均衡并不是一项新功能。但是，在传统

发表于 08-16 13:39

便于设备编程的12Gbps多通道BERT板设计包括BOM及层图

描述This reference design is a 12-Gbps low-cost bit error tester (BERT) capable of generating

发表于 09-19 08:38

如何将代码集成到Multi IDE Project？

我想知道是否可以使用PinMap向导生成C代码以与Multi IDE Green Hill编译器一起使用，如果可以的话，如何将代码集成到Multi IDE Project？提前致谢，多米尼克

发表于 06-21 10:05

BERT原理详解

BERT原理详解

发表于 07-02 16:45

串行BERT用户指南

A guide on using the Serial BERT

发表于 09-23 11:01

串行BERT编程指南

A guide on programming the Serial BERT

发表于 09-24 17:15

J-BERT N4903A高性能串行BERT手册

Brochure for the Keysight J-BERT N4903A High-Performance Serial BERT: 4 pages

发表于 09-26 12:17

BERT中的嵌入层组成以及实现方式介绍

介绍在本文中，我将解释BERT中嵌入层的实现细节，即token嵌入、Segment嵌入和Position嵌入。简介这是一张来自论文的图，它恰当地描述了BERT中每一个嵌入层的功能:与大多数旨在

发表于 11-02 15:14

华为云发布Multi cloud混合云灾备解决方案

7月24号，华为云中国行第三站北京站，华为云发布国内首个完整的公有云容灾备份解决方案——华为云Multi cloud混合云灾备解决方案。华为云EI产品部总经理贾永利现场发布华为云Multi

发表于 07-29 09:31 •8134次阅读

BERT模型的PyTorch实现

BertModel是一个基本的BERT Transformer模型，包含一个summed token、位置和序列嵌入层，然后是一系列相同的self-attention blocks（BERT-base是12个blocks, BERT

发表于 11-13 09:12 •1.4w次阅读

图解BERT预训练模型！

BERT的发布是这个领域发展的最新的里程碑之一，这个事件标志着NLP 新时代的开始。BERT模型打破了基于语言处理的任务的几个记录。在 BERT 的论文发布后不久，这个团队还公开了模型的代码，并提供了模型的下载版本

发表于 11-24 10:08 •3291次阅读

自然语言处理BERT中CLS的效果如何？

要说自然语言处理在18年最夺目闪耀的是什么事情，那当属 BERT 刷新各个任务的记录了，至今已经过去了近两年半的时间，但其影响力未曾衰减，无论学术界还是工业界，很多的工作与部署都围绕其展开，对很多

发表于 04-04 17:01 •8815次阅读

DK-DEV-3CLS200N设备原理图套件

DK-DEV-3CLS200N设备原理图套件

发表于 05-13 14:57 •0次下载

台信铁氟龙电容式接近开关CLS2-16M30ADOB

台信铁氟龙电容式接近开关CLS2-16M30ADOB

发表于 08-23 11:15 •1次下载

什么是BERT？为何选择BERT？

由于绝大多数 BERT 参数专门用于创建高质量情境化词嵌入，因此该框架非常适用于迁移学习。通过使用语言建模等自我监督任务（不需要人工标注的任务）训练 BERT，可以利用 WikiText 和 BookCorpus 等大型无标记数据集

发表于 04-26 14:24 •3610次阅读

搜索历史

Multi-CLS BERT：传统集成的有效替代方案

评论

WAN架构3个替代方案和挑战

便于设备编程的12Gbps多通道BERT板设计包括BOM及层图

如何将代码集成到Multi IDE Project？

BERT原理详解

串行BERT用户指南

串行BERT编程指南

J-BERT N4903A高性能串行BERT手册

BERT中的嵌入层组成以及实现方式介绍

华为云发布Multi cloud混合云灾备解决方案

BERT模型的PyTorch实现

图解BERT预训练模型！

自然语言处理BERT中CLS的效果如何？

DK-DEV-3CLS200N设备原理图套件

台信铁氟龙电容式接近开关CLS2-16M30ADOB

什么是BERT？为何选择BERT？