0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

自然语言处理BERT中CLS的效果如何?

深度学习自然语言处理 来源:AI自然语言处理与知识图谱 作者:Elesdspline 2021-04-04 17:01 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

要说自然语言处理在18年最夺目闪耀的是什么事情,那当属 BERT 刷新各个任务的记录了,至今已经过去了近两年半的时间,但其影响力未曾衰减,无论学术界还是工业界,很多的工作与部署都围绕其展开,对很多的下游任务都有举足轻重的作用,真的是里程碑啊。

相信大家都有过BERT、ALBERT等预训练语言模型应用在自己任务上的实践经历,可能是情感分析、分类、命名实体识别、阅读理解、相似度计算等等,使用的方法也无非是在自己任务上 fine-tune 或者作为预训练Embedding,使用的预训练模型大多是公开的,大佬们(财大气粗、资源无数)训练好的。(有钱真好)

在用预训练模型的时候,根据任务的不同,用到信息也不同,有的需要是词表示,比如命名实体识别、词性标注等任务,有的需要的是句子表示,比如分类、句子语意匹配等。这里我要说的句子表示这一类的任务,大家经常会用到的 [CLS] 特征信息作为句子向量表示,CLS 作为 BERT/ALBERT序列信息中特殊的一个存在,在最开始设计模型的时候便考虑将其作为后续文本分类的表示,然而直接使用 CLS 的效果真的会满足我们的预期嘛?相信大家在实践的过程中都有所体会~,另外 ALBERT 和 BERT 在下游任务应用上面孰好孰坏,是否有一个定论?

我最近看到了一篇 Arxiv 的文章,题目是 《Evaluation of BERT and ALBERT Sentence Embedding Performance on Downstream NLP Tasks》,这篇文章在 BERT/ALBERT 提取信息作为句子信息表示应用在下游任务,对其效果进行了评测,或许会解答我们实践中的疑惑,也或者会给我们一些预训练模型在下游任务应用的启发,让我们来看下~

评测对比

有一系列的对比实验,来看在下游任务上面的效果~

[CLS] embeddings

CLS 通过 Self-Attention 机制来获取句子级别的信息表示,在不同的任务上 Fine-tune 之后,CLS 会捕捉特定环境下的上下文信息表示。

Pooled embeddings

将文本中的所有词做 Avg-pooling 或者 max-pooling。

Sentence-X(SBERT/ALBERT)

BERT 在语义相似度任务上面也取得了很不错的效果,然后其内部的结构在计算过程中会导致非常耗时,不适合做语义相似度匹配任务,特别是在工业界,BERT 的耗时无法满足上线的需要。针对这个问题,有人提出 Sentence-BERT,采用孪生网络模型框架,将不同的句子输入到参数共享的两个BERT模型中,获取句子信息表示,用于语义相似度计算,最终相比BERT效率大大提升,满足工业界线上需要。SBERT 从65小时降到5秒,具体详见参考资料2。

99cb1f6c-88e9-11eb-8b86-12bb97331649.png

CNN-SBERT/SALBERT

在上图中,SBERT 采用 Avg-pooling 获取句子向量表示,本文将其替换成 CNN 网络结构获取句子向量表示。

99fe6886-88e9-11eb-8b86-12bb97331649.png

结果分析

评测任务

STS:Semantic Textual Similarity

NLI:Natural Language Inference

评测指标

Pearson and Spearman’s rank coefficients(皮尔逊和斯皮尔曼相关系数)

评测数据

Semantic Textual Similarity benchmark(STSb)

Multi-Genre Natural Language Inference(MultiNLI)

Stanford Natural Language Inference(SNLI)

上面列出来相关的评测任务、评测指标以及评测所用到的数据,下面先给出一张结果表,然后再详细分析~

9a3609a8-88e9-11eb-8b86-12bb97331649.png

详细分析

微调有效:这个是符合我们认知的,肯定是微调的效果要好。

CLS 效果:CLS 的效果要逊色很多,无论是在微调上面,还是不微调上面,CLS的效果都要远逊色于平均池化操作或者其他方法。

不同方法效果:总体上来看,CNN-BERT > SBERT > Avg pooling > CLS

BERT 与 ALBERT:从上图中大概能够看出,不微调的情况下,两者的效果差不多,但是微调之后,ALBERT的效果要比BERT差很多,仅仅在STSb上微调的时候,CLS 和平均池化的方法要好于BERT。

CNN的效果

从上图来看,最好的结果是采用了 CNN 网络结构,说明 CNN 起到了正向的作用,仔细观察发现,CNN 对 ALBERT 的改进要远大于对 BERT 的改善提高。ALBERT 由于内部参数共享,可能存在不稳定性,CNN 网络结构或许可以减缓这种不稳定性。

下图也进行了一些对比,在几个不同的数据集上验证 CNN 的有效性,从最终的 Avg 结果来看,CNN 网络结构对 ALBERT 有改善提升。

9a91a5e2-88e9-11eb-8b86-12bb97331649.png

以上是根据实验结果进行的简单分析,其中有一些结论和对比可以在我们日常的实践中借鉴并尝试,说不定会有不错的效果~

原文标题:【BERT】BERT中CLS效果真的好嘛?这篇文章告诉你答案

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49765

    浏览量

    261703
  • 自然语言
    +关注

    关注

    1

    文章

    292

    浏览量

    13926

原文标题:【BERT】BERT中CLS效果真的好嘛?这篇文章告诉你答案

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Neway电机方案在实际应用效果如何?

    Neway电机方案在实际应用效果如何?Neway电机方案是深圳市立维创展科技有限公司推出的电机驱动与控制系统解决方案,具有高稳定性、高性价比、小型化等特点,Neway电机方案在实际应用效果
    发表于 12-03 09:23

    云知声论文入选自然语言处理顶会EMNLP 2025

    近日,自然语言处理(NLP)领域国际权威会议 ——2025 年计算语言学与自然语言处理国际会议(EMNLP 2025)公布论文录用结果,云知
    的头像 发表于 11-10 17:30 545次阅读
    云知声论文入选<b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>顶会EMNLP 2025

    LCD屏幕无法正确显示效果如何解决?

    : 4.通过修改link文件将LCD缓存数组定义到SDRAM里面去: 5.在main线程初始化和写一个小方块函数: 6.下载后效果不理想。 这块驱动是正点的官方例程,在裸机的时候是没有问题
    发表于 09-25 08:16

    HarmonyOSAI编程自然语言代码生成

    安装CodeGenie后,在下方对话框内,输入代码需求描述,将根据描述智能生成代码,生成内容可一键复制或一键插入至编辑区当前光标位置。 提问示例 使用ArkTs语言写一段代码,在页面中间部分
    发表于 09-05 16:58

    【HZ-T536开发板免费体验】5- 无需死记 Linux 命令!用 CangjieMagic 在 HZ-T536 开发板上搭建 MCP 服务器,自然语言轻松控板

    引言:为什么需要 “自然语言控板”? 痛点引入 :嵌入式开发,开发者常需通过 SSH 等工具登录开发板,手动输入复杂的 Linux 命令(如ls -l、gpio readall、ifconfig等
    发表于 08-23 13:10

    超声波清洗设备的清洗效果如何?

    超声波清洗设备是一种常用于清洗各种物体的技术,它通过超声波振荡产生的微小气泡在液体破裂的过程来产生高能量的冲击波,这些冲击波可以有效地去除表面和细微裂缝的污垢、油脂、污染物和杂质。超声波清洗设备
    的头像 发表于 06-06 16:04 607次阅读
    超声波清洗设备的清洗<b class='flag-5'>效果如</b>何?

    云知声四篇论文入选自然语言处理顶会ACL 2025

    近日,第63届国际计算语言学年会ACL 2025(Annual Meeting of the Association for Computational Linguistics,简称ACL)论文接收
    的头像 发表于 05-26 14:15 1060次阅读
    云知声四篇论文入选<b class='flag-5'>自然语言</b><b class='flag-5'>处理</b>顶会ACL 2025

    自然语言处理的发展历程和应用场景

    你是否曾经对着手机说:“嘿,Siri,今天天气怎么样?”或者在出国旅行时,打开翻译软件,对着菜单说:“请把这道菜翻译成英文”。
    的头像 发表于 04-17 11:40 1154次阅读

    自然语言提示原型在英特尔Vision大会上首次亮相

    在英特尔Vision大会上,Network Optix首次展示了自然语言提示原型,该方案将重新定义视频管理,为各行各业由AI驱动的洞察和效率提速。
    的头像 发表于 04-09 09:30 796次阅读

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的多模态人工智能模型,能够理解并生成与视觉内容相关的自然语言。以下
    的头像 发表于 03-17 15:32 7662次阅读
    ​VLM(视觉<b class='flag-5'>语言</b>模型)​详细解析

    智慧路灯的照明效果如何?

    引言 在智慧城市建设的进程,叁仟智慧路灯已逐渐成为城市道路照明的主力军。其照明效果不仅关系到市民夜间出行的安全与便捷,更对城市的整体形象和生活品质有着深远影响。相较于传统路灯,叁仟智慧路灯借助
    的头像 发表于 03-16 16:10 638次阅读

    中科驭数DPU助力大模型训练和推理

    随着深度学习技术的快速发展,大模型(如GPT、BERT等)在自然语言处理、计算机视觉等领域取得了显著成果。然而,大模型的参数量和计算量极其庞大,传统的硬件架构或者单台设备(如单个GPU)难以满足其计算需求。
    的头像 发表于 02-19 09:48 1081次阅读
    中科驭数DPU助力大模型训练和推理

    语言模型的解码策略与关键优化总结

    的技术参考。主要涵盖贪婪解码、束搜索、采样技术等核心解码方法,以及温度参数、惩罚机制等关键优化手段。大型语言模型的技术基础大型语言模型是当代自然语言处理技术的核心
    的头像 发表于 02-18 12:00 1080次阅读
    大<b class='flag-5'>语言</b>模型的解码策略与关键优化总结

    微软重磅推出《GraphRAG实践应用白皮书》

    在全球数字化浪潮的推动下,大语言模型凭借其卓越的自然语言处理能力,引领着自然语言理解与生成的新纪元。但与此同时,数据随之呈爆炸式增长,也为企业带来了空前的机遇与挑战。如何在海量数据中高
    的头像 发表于 01-13 15:20 1612次阅读

    AI芯片在智能手机具体怎么用?

    物,并允许用户单独编辑每个部分。 语音识别和智能助手:AI芯片可以实现对用户语音的实时识别和处理,提供智能助手功能。通过语音识别,用户可以更方便地与手机进行交互,实现语音搜索、语音命令等功能。 自然语言处理:AI芯片能够快
    的头像 发表于 01-03 14:02 1892次阅读