0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从BERT得到最强句子Embedding的打开方式

深度学习自然语言处理 来源:夕小瑶的卖萌屋 作者:夕小瑶的卖萌屋 2020-12-31 10:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

你有尝试从 BERT 提取编码后的 sentence embedding 吗?很多小伙伴的第一反应是:不就是直接取顶层的[CLS] token的embedding作为句子表示嘛,难道还有其他套路不成?

nono,你知道这样得到的句子表示捕捉到的语义信息其实很弱吗?今天向大家介绍一篇来自于 CMU 和字节跳动合作,发表在 EMNLP2020 的 paper, 详尽地分析了从预训练模型得到 sentence embedding 的常规方式的缺陷和最佳打开方式,是一篇非常实用、轻松帮助大家用BERT刷分的文章。论文质量蛮高,分析和发现很有趣,通读之后感觉收获多多。

自2018年BERT惊艳众人之后,基于预训练模型对下游任务进行微调已成为炼丹的标配。然而近两年的研究却发现,没有经过微调,直接由BERT得到的句子表示在语义文本相似性方面明显薄弱,甚至会弱于GloVe得到的表示。此篇论文中首先从理论上探索了masked language model 跟语义相似性任务上的联系,并通过实验分析了BERT的句子表示,最后提出了BERT-Flow来解决上述问题。

为什么BERT的句子Embeddings表现弱?

由于Reimers等人之前已实验证明 context embeddings 取平均要优于[CLS] token的embedding。因而在文章中,作者都以最后几层文本嵌入向量的平均值来作为BERT句子的表示向量。

语义相似性与BERT预训练的联系

为了探究上述问题,作者首先将语言模型(LM)与掩盖语言模型(MLM) 统一为: 给定context(c)预测得到 token(x) 的概率分布,即

这里 是context的embedding, 表示 的word embedding。进一步,由于将 embedding 正则化到单位超球面时,两个向量的点积等价于它们的cosine 相似度,我们便可以将BERT句子表示的相似度简化为文本表示的相似度,即 。

另外,考虑到在训练中,当 c 与 w 同时出现时,它们对应的向量表示也会更接近。换句话说,context-context 的相似度可以通过 context-words 之间的相似度推出或加强。

各向异性嵌入空间

Jun Gao, Lingxiao Wang 等人在近几年的ICLR paper中有提到语言模型中最大似然目标的训练会产生各向异性的词向量空间,即向量各个方向分布并不均匀,并且在向量空间中占据了一个狭窄的圆锥体,如下图所示~

这种情况同样也存在于预训练好的基于Transformer的模型中,比如BERT,GPT-2。而在这篇paper中,作者通过实验得到以下两个发现:

词频率影响词向量空间的分布:文中通过度量BERT词向量表示与原点 l_2 距离的均值得到以下的图表。我们可以看到高频的词更接近原点。由于word embedding在训练过程中起到连接文本embedding的作用,我们所需的句子表示向量可能会相应地被单词频率信息误导,且其保留的语义信息可能会被破坏。

2c10abf8-4a92-11eb-8b86-12bb97331649.png

低频词分布偏向稀疏:文中度量了词向量空间中与K近邻单词的 l_2 距离的均值。我们可以看到高频词分布更集中,而低频词分布则偏向稀疏。然而稀疏性的分布会导致表示空间中存在很多“洞”,这些洞会破坏向量空间的“凸性”。考虑到BERT句子向量的产生保留了凸性,因而直接使用其句子embeddings会存在问题。

Flow-based 生成模型

那么,如何无监督情况下充分利用BERT表示中的语义信息?为了解决上述存在的问题,作者提出了一种将BERT embedding空间映射到一个标准高斯隐空间的方法(如下图所示),并称之为“BERT-flow”。而选择 Gaussian 空间的动机也是因为其自身的特点:

标准高斯分布满足各向同性

高斯分布区域没有“洞”,即不存在破坏“凸性”的情况

上图中 表示隐空间, 表示观测到的空间,f: 是可逆的变换。根据概率密度函数中变量替换的定理,我们可以得到观测变量的概率密度函数如下:

进一步,作者通过最大化BERT句子表示的边缘似然函数来学习基于流的生成模型,即通过如下的公式来训练flow的参数:

其中 表示数据集分布, 为神经网络。需要注意的是,在训练中,不需要任何人工标注!另外,BERT的参数保持不变,仅有流的参数进行优化更新。其次,在实验中,作者基于Glow (Dinh et al., 2015)的设计(多个可逆变换组合)进行改动,比如将仿射耦合(affine coupling)替换为了加法耦合(additive coupling)。

实验及结果

论文的实验部分在7个数据集上进行衡量语义文本相似性任务的效果。

实验步骤:

通过句子encoder得到每个句子的向量表示。

计算句子之间的cosine similarity 作为模型预测的相似度。

计算Spearman系数。

实验结果:

2f9febe4-4a92-11eb-8b86-12bb97331649.png

上图汇报了sentence embeddings的余弦相似度同多个数据集上真实标签之间的Spearman等级相关性得分(),其中flow-target 表示在完整的目标数据集(train+validation+test)上进行学习,flow-NLI 表示模型在NLI(natual language inference)任务的测试,绿色箭头表示相对于BERT的baseline,模型的效果有提升,红色反之。

我们可以注意到模型的改进对于效果的提升还是很显著滴!文章同样还在无监督问答任务证明模型的有效性,并将BERT-flow得到的语义相似度同词法相似度(通过编辑距离来衡量)进行对比,结果同样证明模型在引入流的可逆映射后减弱了语义相似性与词法相似性之间的联系!具体信息大家可查阅paper~

小结

总之,这篇paper探究了BERT句子表示对于语义相似性上潜在的问题,并提出了基于流的可逆映射来改进在对应任务上的表现。想多了解的童鞋可以看看原文,相信你们也会喜欢上这篇paper!

原文标题:还在用[CLS]?从BERT得到最强句子Embedding的打开方式!

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7768

    浏览量

    92704
  • 模型
    +关注

    关注

    1

    文章

    3653

    浏览量

    51729

原文标题:还在用[CLS]?从BERT得到最强句子Embedding的打开方式!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    “华秋显眼包” 开奖!50 位幸运儿速来认领!

    谁能想到,华秋在高交会上的“显眼包”能火成「现场社交硬通货」!展会上观众背着华秋“显眼包”,主打一个走到哪亮到哪——既实用又自带“电子人专属标识”,更有N种脑洞大开的“显眼包”打开方式,等你来一起
    的头像 发表于 12-09 18:02 938次阅读
    “华秋显眼包” 开奖!50 位幸运儿速来认领!

    系统视角选时钟:一张“应用分层地图”讲清 TCXO / OCXO / SAW 的正确打开方式

    ,强调相位噪声、抖动、老化与 Holdover 的关键性,并提出“天线到主时钟”的预算联动方法,适用于 GNSS 授时、卫星通信、电信同步及相干系统的架构规划与器件
    的头像 发表于 12-08 15:03 3674次阅读
    <b class='flag-5'>从</b>系统视角选时钟:一张“应用分层地图”讲清 TCXO / OCXO / SAW 的正确<b class='flag-5'>打开方式</b>

    Node-RED太烧钱?你可能需要换个打开方式

    Node-RED作为开源可视化编程工具,确实能快速搭建物联网应用。但当你准备把它用到生产环境时,就会发现这些隐形开销:硬件成本首当其冲。工业现场需要能扛得住高温高湿、电压波动、电磁干扰的设备。普通工控机在车间里经常"闹脾气",而专业的工业服务器价格让人肉疼。
    的头像 发表于 09-05 16:12 642次阅读
    Node-RED太烧钱?你可能需要换个<b class='flag-5'>打开方式</b>

    选型避坑!电流互感器的正确打开方式,看完这篇不踩雷

      考虑精度等级:对于测量和计量应用,精度非常重要。不同精度等级的电流互感器适用于不同的场合,如 0.5 级精度适用于一般测量,0.2 级适用于精密测量。应根据具体的测量精度要求来选择合适的精度等级。 程瑜  187 0211 2087  确定额定负载 :确保二次回路的总负荷不应超过互感器的额定负荷。如果二次回路所接的仪表、继电器等设备较多,或者线路较长,就需要考虑互感器的额定负载是否能够满足要求,否则会影响测量精度。 考虑绝缘等级和电压
    发表于 08-19 10:49 478次阅读
    选型避坑!电流互感器的正确<b class='flag-5'>打开方式</b>,看完这篇不踩雷

    短距离不用加?加了总没错?终端电阻的正确“打开方式

    前言 RS-485作为一种广泛应用于工业场景的差分信号通信标准,其通信效果的升级始终是工控领域人士不断探索的重要课题。 在RS-485通信系统的实际应用中,一个备受关注且极具探讨价值的问题是:是否需要使用终端电阻?今天,我们就围绕这一话题展开交流。 想象一下,你在一条长长的走廊里大声喊话,如果没有任何缓冲,声音会在两端来回反射,变成一片嘈杂的回音。这就是没有终端电阻的总线通信环境——信号反射严重,数据传输失真。这种反射
    的头像 发表于 06-09 16:35 1010次阅读
    短距离不用加?加了总没错?终端电阻的正确“<b class='flag-5'>打开方式</b>”

    CSG船用隔离变压器真是船舶电气系统的“隐形守护者”?这些真相你必须知道! 开头

    。今天,我们就用三个真实场景,揭秘CSG船用隔离变压器的正确打开方式。核心分析场景一:抗干扰≠堆砌滤波器,接地设计才是根本某近海支援船在安装CSG船用隔离变压器后,
    的头像 发表于 06-09 09:29 584次阅读
    CSG船用隔离变压器真是船舶电气系统的“隐形守护者”?这些真相你必须知道! 开头

    岳信仪器告诉你榨汁机气密性检测仪的正确打开方式

    在榨汁机生产过程中,气密性是一项关键指标。而榨汁机气密性检测仪则是确保产品气密性达标的重要工具。那么,该如何正确使用它呢?下面就为大家详细介绍榨汁机气密性检测仪的正确打开方式。(1)检测前的准备工作
    的头像 发表于 05-29 15:52 349次阅读
    岳信仪器告诉你榨汁机气密性检测仪的正确<b class='flag-5'>打开方式</b>

    选型不迷茫!PCB分板机主轴的正确打开方式

    在电子制造领域,PCB(印刷电路板)分板机是实现高效、精准切割的关键设备。作为分板机的"心脏",主轴系统的性能直接影响加工效率、切割精度及设备寿命。德国Sycotec,作为高速电主轴的老品牌企业,凭借其百年技术积淀与持续创新,已成为全球高端分板机主轴的首选品牌。多年来持续生产研发出多款高速、高精度、高效的PCB分板机主轴,一起了解看看。Sycotec用于PC
    的头像 发表于 05-12 13:31 461次阅读
    选型不迷茫!PCB分板机主轴的正确<b class='flag-5'>打开方式</b>

    3分钟看懂锡膏在回流焊的正确打开方式

    本文揭秘锡膏在回流焊核心工艺:预热区“热身”(150-180℃)到回流区“巅峰熔融”(230-250℃),锡膏经历四段精密温控旅程,助焊剂活化、冶金反应、晶格定型的每一步都暗藏工艺玄机。文章以
    的头像 发表于 04-07 18:03 958次阅读
    3分钟看懂锡膏在回流焊的正确<b class='flag-5'>打开方式</b>

    一种很新的“工厂”打开方式---智慧工厂

           随着信息技术的不断进步,特别是数字化、网络化、智能化技术的快速发展,传统的工厂管理模式已经难以满足现代企业对于生产效率、安全管理以及决策支持等方面的需求,智能制造已成为全球制造业发展的主流趋势。        由于工厂实时数据的多样性、复杂性,包括数字化的传感器读数、机器和设备的操作状态、温度、湿度、压力等环境指标,以及生产计划、工作流程和相关人员信息等,因此需要深度结合客户场景,对工厂各个环节的数
    的头像 发表于 03-20 08:45 463次阅读

    接入AI大模型!利尔达蜂窝模组让设备秒变“机灵小话痨”

    各显神通。本期我们就来分享下应用平台对接大模型的秘籍,它具备高兼容性、低部署成本及灵活的多模态扩展能力等优势。下期将解锁更多"打开方式"——毕竟在AI应用生态里,通往罗
    的头像 发表于 02-12 19:05 797次阅读
    接入AI大模型!利尔达蜂窝模组让设备秒变“机灵小话痨”

    Giada杰和科技ISE展会直击|在巴塞罗那,遇见视听未来的N种打开方式

    欧洲专业视听设备与信息系统集成技术展览会当地时间2月7日,欧洲专业视听设备与信息系统集成技术展览会(以下简称ISE)在西班牙巴塞罗那落下帷幕。ISE是欧洲举办最成功的、全球观众人数最多的专业视听展览会,素有视听行业“风向标”之称。今年,杰和科技如约而至,连续第15年参展,再次携多款AI驱动、智能零售及工业级计算解决方案亮相,以硬核技术实力与场景化应用方案,向
    的头像 发表于 02-10 10:33 585次阅读
    Giada杰和科技ISE展会直击|在巴塞罗那,遇见视听未来的N种<b class='flag-5'>打开方式</b>

    【「基于大模型的RAG应用开发与优化」阅读体验】+Embedding技术解读

    理和理解这些数据。在自然语言处理中,Embedding常用于将文本数据中的单词、句子或文档映射为固定长度的实数向量,这些向量包含了丰富的语义信息。RAG技术是一种结合信息检索与文本生成能力的技术,它通过
    发表于 01-17 19:53