0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Multi-CLS BERT:传统集成的有效替代方案

深度学习自然语言处理 来源:深度学习自然语言处理 2023-07-04 15:47 次阅读

fe05f4e0-1981-11ee-962d-dac502259ad0.png

在本文中,介绍了Multi-CLS BERT,这是传统集成方法的有效替代方案。

这种基于 CLS 的预测任务的新颖方法旨在提高准确性,同时最大限度地减少计算和内存需求。

通过利用具有不同参数化和目标的多个 CLS token,提出的方法无需微调集成中的每个 BERT 模型,从而实现更加简化和高效的流程。

fe1e31d6-1981-11ee-962d-dac502259ad0.png

在 GLUE 和 SuperGLUE 数据集上进行了实验,证明了 Multi-CLS BERT 在提高整体准确性和置信度估计方面的可靠性。它甚至能够在训练样本有限的情况下超越更大的 BERT 模型。最后还提供了 Multi-CLS BERT 的行为和特征的分析。

fe441f5e-1981-11ee-962d-dac502259ad0.png

Multi-CLS BERT和传统集成方法不同点是?

Multi-CLS BERT与传统的集成方法不同之处在于它使用多个CLS token,并通过参数化和目标函数来鼓励它们的多样性。这样一来,就不需要对集成中的每个BERT模型进行微调,从而使整个过程更加简化和高效。相比之下,传统的集成方法需要对集成中的每个模型进行微调,并在测试时同时运行它们。Multi-CLS BERT在行为和特性上与典型的BERT 5-way集成模型非常相似,但计算和内存消耗几乎减少了4倍。

在所提出的方法中使用多个 CLS tokens有哪些优点?

在所提出的方法中,使用多个CLS token的优点在于可以鼓励它们的多样性,从而提高模型的准确性和置信度估计。相比于传统的单个CLS token,使用多个CLS token可以更好地捕捉输入文本的不同方面和特征。

此外,Multi-CLS BERT的使用还可以减少计算和内存消耗,因为它不需要对集成中的每个BERT模型进行微调,而是只需要微调单个Multi-CLS BERT模型并在测试时运行它。

GLUE 和 SuperGLUE 数据集上的实验结果

GLUE和SuperGLUE是两个广泛使用的自然语言理解基准测试数据集。

在所提出的方法中,作者使用GLUE和SuperGLUE数据集来评估Multi-CLS BERT的性能。在GLUE数据集上,作者使用100个、1,000个和完整数据集进行了实验,并在SuperGLUE数据集上使用了相同的设置。

fe614f5c-1981-11ee-962d-dac502259ad0.png

fe9bb624-1981-11ee-962d-dac502259ad0.png

febe4e46-1981-11ee-962d-dac502259ad0.png

实验结果表明,Multi-CLS BERT在GLUE和SuperGLUE数据集上都能够可靠地提高整体准确性和置信度估计。在GLUE数据集中,当只有100个训练样本时,Multi-CLS BERT Base模型甚至可以胜过相应的BERT Large模型。在SuperGLUE数据集上,Multi-CLS BERT也取得了很好的表现。

fed96dde-1981-11ee-962d-dac502259ad0.png

总结

在这项工作中,作者建议使用 K 个 CLS 嵌入来表示输入文本,而不是在 BERT 中使用单个 CLS 嵌入。与 BERT 相比,Multi-CLS BERT 显着提高了 GLUE 和 SuperGLUE 分数,并减少了 GLUE 中的预期校准误差,而其唯一增加的成本是将最大文本长度减少了 K 并增加了一些额外的时间来计算插入的线性变换。因此,建议广泛使用多个 CLS 嵌入,以获得几乎免费的性能增益。

为了解决 CLS 嵌入的崩溃问题,作者修改了预训练损失、BERT 架构和微调损失。消融研究表明,所有这些修改都有助于 Multi-CLS BERT 性能的提高。在调查改进来源的分析中,发现 a) 集成原始 BERT 比集成 Multi-CLS BERT 带来更大的改进,b) 不同 CLS 嵌入的不一致与 BERT 模型的不一致高度相关不同的微调种子。这两项发现都支持作者的观点,即 Multi-CLS BERT 是一种有效的集成方法。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47696
  • 数据集
    +关注

    关注

    4

    文章

    1179

    浏览量

    24356
  • 自然语言
    +关注

    关注

    1

    文章

    270

    浏览量

    13207

原文标题:ACL2023 | Multi-CLS BERT:传统集成的有效替代方案

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    WAN架构3个替代方案和挑战

    如今,网络组织面临着大量且不断增长的WAN架构选择。在本文中,我将讨论网络组织面临的其他WAN架构替代方案和挑战。动态多路径能够通过多个WAN链路对流量进行负载均衡并不是一项新功能。但是,在传统
    发表于 08-16 13:39

    便于设备编程的12Gbps多通道BERT板设计包括BOM及层图

    描述This reference design is a 12-Gbps low-cost bit error tester (BERT) capable of generating
    发表于 09-19 08:38

    如何将代码集成Multi IDE Project?

    我想知道是否可以使用PinMap向导生成C代码以与Multi IDE Green Hill编译器一起使用,如果可以的话,如何将代码集成Multi IDE Project? 提前致谢, 多米尼克
    发表于 06-21 10:05

    BERT原理详解

    BERT原理详解
    发表于 07-02 16:45

    串行BERT用户指南

    A guide on using the Serial BERT
    发表于 09-23 11:01

    串行BERT编程指南

    A guide on programming the Serial BERT
    发表于 09-24 17:15

    J-BERT N4903A高性能串行BERT手册

    Brochure for the Keysight J-BERT N4903A High-Performance Serial BERT: 4 pages
    发表于 09-26 12:17

    BERT中的嵌入层组成以及实现方式介绍

    介绍在本文中,我将解释BERT中嵌入层的实现细节,即token嵌入、Segment嵌入和Position嵌入。简介这是一张来自论文的图,它恰当地描述了BERT中每一个嵌入层的功能:与大多数旨在
    发表于 11-02 15:14

    华为云发布Multi cloud混合云灾备解决方案

    7月24号,华为云中国行第三站北京站,华为云发布国内首个完整的公有云容灾备份解决方案——华为云Multi cloud混合云灾备解决方案。 华为云EI产品部总经理贾永利现场发布华为云Multi
    的头像 发表于 07-29 09:31 8134次阅读

    BERT模型的PyTorch实现

    BertModel是一个基本的BERT Transformer模型,包含一个summed token、位置和序列嵌入层,然后是一系列相同的self-attention blocks(BERT-base是12个blocks, BERT
    的头像 发表于 11-13 09:12 1.4w次阅读

    图解BERT预训练模型!

    BERT的发布是这个领域发展的最新的里程碑之一,这个事件标志着NLP 新时代的开始。BERT模型打破了基于语言处理的任务的几个记录。在 BERT 的论文发布后不久,这个团队还公开了模型的代码,并提供了模型的下载版本
    的头像 发表于 11-24 10:08 3291次阅读

    自然语言处理BERTCLS的效果如何?

    要说自然语言处理在18年最夺目闪耀的是什么事情,那当属 BERT 刷新各个任务的记录了,至今已经过去了近两年半的时间,但其影响力未曾衰减,无论学术界还是工业界,很多的工作与部署都围绕其展开,对很多
    的头像 发表于 04-04 17:01 8815次阅读
    自然语言处理<b class='flag-5'>BERT</b>中<b class='flag-5'>CLS</b>的效果如何?

    DK-DEV-3CLS200N设备原理图套件

    DK-DEV-3CLS200N设备原理图套件
    发表于 05-13 14:57 0次下载
    DK-DEV-3<b class='flag-5'>CLS</b>200N设备原理图套件

    台信铁氟龙电容式接近开关CLS2-16M30ADOB

    台信铁氟龙电容式接近开关CLS2-16M30ADOB
    发表于 08-23 11:15 1次下载

    什么是BERT?为何选择BERT

    由于绝大多数 BERT 参数专门用于创建高质量情境化词嵌入,因此该框架非常适用于迁移学习。通过使用语言建模等自我监督任务(不需要人工标注的任务)训练 BERT,可以利用 WikiText 和 BookCorpus 等大型无标记数据集
    的头像 发表于 04-26 14:24 3610次阅读