0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从BERT得到最强句子Embedding的打开方式

深度学习自然语言处理 来源:夕小瑶的卖萌屋 作者:夕小瑶的卖萌屋 2020-12-31 10:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

你有尝试从 BERT 提取编码后的 sentence embedding 吗?很多小伙伴的第一反应是:不就是直接取顶层的[CLS] token的embedding作为句子表示嘛,难道还有其他套路不成?

nono,你知道这样得到的句子表示捕捉到的语义信息其实很弱吗?今天向大家介绍一篇来自于 CMU 和字节跳动合作,发表在 EMNLP2020 的 paper, 详尽地分析了从预训练模型得到 sentence embedding 的常规方式的缺陷和最佳打开方式,是一篇非常实用、轻松帮助大家用BERT刷分的文章。论文质量蛮高,分析和发现很有趣,通读之后感觉收获多多。

自2018年BERT惊艳众人之后,基于预训练模型对下游任务进行微调已成为炼丹的标配。然而近两年的研究却发现,没有经过微调,直接由BERT得到的句子表示在语义文本相似性方面明显薄弱,甚至会弱于GloVe得到的表示。此篇论文中首先从理论上探索了masked language model 跟语义相似性任务上的联系,并通过实验分析了BERT的句子表示,最后提出了BERT-Flow来解决上述问题。

为什么BERT的句子Embeddings表现弱?

由于Reimers等人之前已实验证明 context embeddings 取平均要优于[CLS] token的embedding。因而在文章中,作者都以最后几层文本嵌入向量的平均值来作为BERT句子的表示向量。

语义相似性与BERT预训练的联系

为了探究上述问题,作者首先将语言模型(LM)与掩盖语言模型(MLM) 统一为: 给定context(c)预测得到 token(x) 的概率分布,即

这里 是context的embedding, 表示 的word embedding。进一步,由于将 embedding 正则化到单位超球面时,两个向量的点积等价于它们的cosine 相似度,我们便可以将BERT句子表示的相似度简化为文本表示的相似度,即 。

另外,考虑到在训练中,当 c 与 w 同时出现时,它们对应的向量表示也会更接近。换句话说,context-context 的相似度可以通过 context-words 之间的相似度推出或加强。

各向异性嵌入空间

Jun Gao, Lingxiao Wang 等人在近几年的ICLR paper中有提到语言模型中最大似然目标的训练会产生各向异性的词向量空间,即向量各个方向分布并不均匀,并且在向量空间中占据了一个狭窄的圆锥体,如下图所示~

这种情况同样也存在于预训练好的基于Transformer的模型中,比如BERT,GPT-2。而在这篇paper中,作者通过实验得到以下两个发现:

词频率影响词向量空间的分布:文中通过度量BERT词向量表示与原点 l_2 距离的均值得到以下的图表。我们可以看到高频的词更接近原点。由于word embedding在训练过程中起到连接文本embedding的作用,我们所需的句子表示向量可能会相应地被单词频率信息误导,且其保留的语义信息可能会被破坏。

2c10abf8-4a92-11eb-8b86-12bb97331649.png

低频词分布偏向稀疏:文中度量了词向量空间中与K近邻单词的 l_2 距离的均值。我们可以看到高频词分布更集中,而低频词分布则偏向稀疏。然而稀疏性的分布会导致表示空间中存在很多“洞”,这些洞会破坏向量空间的“凸性”。考虑到BERT句子向量的产生保留了凸性,因而直接使用其句子embeddings会存在问题。

Flow-based 生成模型

那么,如何无监督情况下充分利用BERT表示中的语义信息?为了解决上述存在的问题,作者提出了一种将BERT embedding空间映射到一个标准高斯隐空间的方法(如下图所示),并称之为“BERT-flow”。而选择 Gaussian 空间的动机也是因为其自身的特点:

标准高斯分布满足各向同性

高斯分布区域没有“洞”,即不存在破坏“凸性”的情况

上图中 表示隐空间, 表示观测到的空间,f: 是可逆的变换。根据概率密度函数中变量替换的定理,我们可以得到观测变量的概率密度函数如下:

进一步,作者通过最大化BERT句子表示的边缘似然函数来学习基于流的生成模型,即通过如下的公式来训练flow的参数:

其中 表示数据集分布, 为神经网络。需要注意的是,在训练中,不需要任何人工标注!另外,BERT的参数保持不变,仅有流的参数进行优化更新。其次,在实验中,作者基于Glow (Dinh et al., 2015)的设计(多个可逆变换组合)进行改动,比如将仿射耦合(affine coupling)替换为了加法耦合(additive coupling)。

实验及结果

论文的实验部分在7个数据集上进行衡量语义文本相似性任务的效果。

实验步骤:

通过句子encoder得到每个句子的向量表示。

计算句子之间的cosine similarity 作为模型预测的相似度。

计算Spearman系数。

实验结果:

2f9febe4-4a92-11eb-8b86-12bb97331649.png

上图汇报了sentence embeddings的余弦相似度同多个数据集上真实标签之间的Spearman等级相关性得分(),其中flow-target 表示在完整的目标数据集(train+validation+test)上进行学习,flow-NLI 表示模型在NLI(natual language inference)任务的测试,绿色箭头表示相对于BERT的baseline,模型的效果有提升,红色反之。

我们可以注意到模型的改进对于效果的提升还是很显著滴!文章同样还在无监督问答任务证明模型的有效性,并将BERT-flow得到的语义相似度同词法相似度(通过编辑距离来衡量)进行对比,结果同样证明模型在引入流的可逆映射后减弱了语义相似性与词法相似性之间的联系!具体信息大家可查阅paper~

小结

总之,这篇paper探究了BERT句子表示对于语义相似性上潜在的问题,并提出了基于流的可逆映射来改进在对应任务上的表现。想多了解的童鞋可以看看原文,相信你们也会喜欢上这篇paper!

原文标题:还在用[CLS]?从BERT得到最强句子Embedding的打开方式!

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7841

    浏览量

    93464
  • 模型
    +关注

    关注

    1

    文章

    3818

    浏览量

    52269

原文标题:还在用[CLS]?从BERT得到最强句子Embedding的打开方式!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    首选项的读写

    一、导入 直接拖入DevEco Studio中(提前解压好)(第一种打开方式) 在DevEco Studio打开代码包(第二种打开方式) 第一次打开代码包时会有提示,选择第一个就行
    发表于 03-03 19:37

    keil5使用中文路径安装.pack后缀报错的解决办法

    安装完成 此时首先需要在keil5文件安装路径上改正文件名 此时再次安装.pack后缀文件时可能会发现两个问题:一个是默认打开方式改变了: 解决办法是在keil5安装路径下找到
    发表于 01-22 06:50

    keil (MDK)的IDE支持包*.pack文件如何打开

    :...Keil_v5UV4PackUnzip.exe。 再次右键*.pack文件,在属性中更改打开方式,选择刚才找到的PackUnzip.exe程序即可。
    发表于 01-20 08:24

    千问APP与通义系列大模型,才是智能汽车的“黄金组合”

    座舱的正确打开方式;单点智能撬动的价值有限,完整的场景化体验是用户的最终选择。 在这种市场趋势下,阿里巴巴千问APP与通义系列大模型,具备成为智能汽车“黄金组合”的潜质。 模型层面看,通义系列大模型能力处于世界
    的头像 发表于 12-30 17:25 712次阅读

    “华秋显眼包” 开奖!50 位幸运儿速来认领!

    谁能想到,华秋在高交会上的“显眼包”能火成「现场社交硬通货」!展会上观众背着华秋“显眼包”,主打一个走到哪亮到哪——既实用又自带“电子人专属标识”,更有N种脑洞大开的“显眼包”打开方式,等你来一起
    的头像 发表于 12-09 18:02 1158次阅读
    “华秋显眼包” 开奖!50 位幸运儿速来认领!

    系统视角选时钟:一张“应用分层地图”讲清 TCXO / OCXO / SAW 的正确打开方式

    ,强调相位噪声、抖动、老化与 Holdover 的关键性,并提出“天线到主时钟”的预算联动方法,适用于 GNSS 授时、卫星通信、电信同步及相干系统的架构规划与器件
    的头像 发表于 12-08 15:03 4832次阅读
    <b class='flag-5'>从</b>系统视角选时钟:一张“应用分层地图”讲清 TCXO / OCXO / SAW 的正确<b class='flag-5'>打开方式</b>

    偷懒神器?我用乐鑫科技ESP32-S3开发板做了个会自己养鱼的智能鱼缸!低成本开源!

    自动换水、自动喂食,这才是现代人养鱼的正确打开方式!换水、喂食、清洁……这一系列繁琐的日常鱼缸养护让多少人的养鱼梦破碎。但现在,我们告诉你,你能彻底解放双手了!这一切的起因来自于前段时间我们
    的头像 发表于 11-18 18:03 1199次阅读
    偷懒神器?我用乐鑫科技ESP32-S3开发板做了个会自己养鱼的智能鱼缸!低成本开源!

    Node-RED太烧钱?你可能需要换个打开方式

    Node-RED作为开源可视化编程工具,确实能快速搭建物联网应用。但当你准备把它用到生产环境时,就会发现这些隐形开销:硬件成本首当其冲。工业现场需要能扛得住高温高湿、电压波动、电磁干扰的设备。普通工控机在车间里经常"闹脾气",而专业的工业服务器价格让人肉疼。
    的头像 发表于 09-05 16:12 1096次阅读
    Node-RED太烧钱?你可能需要换个<b class='flag-5'>打开方式</b>

    选型避坑!电流互感器的正确打开方式,看完这篇不踩雷

      考虑精度等级:对于测量和计量应用,精度非常重要。不同精度等级的电流互感器适用于不同的场合,如 0.5 级精度适用于一般测量,0.2 级适用于精密测量。应根据具体的测量精度要求来选择合适的精度等级。 程瑜  187 0211 2087  确定额定负载 :确保二次回路的总负荷不应超过互感器的额定负荷。如果二次回路所接的仪表、继电器等设备较多,或者线路较长,就需要考虑互感器的额定负载是否能够满足要求,否则会影响测量精度。 考虑绝缘等级和电压
    发表于 08-19 10:49 809次阅读
    选型避坑!电流互感器的正确<b class='flag-5'>打开方式</b>,看完这篇不踩雷

    短距离不用加?加了总没错?终端电阻的正确“打开方式

    前言 RS-485作为一种广泛应用于工业场景的差分信号通信标准,其通信效果的升级始终是工控领域人士不断探索的重要课题。 在RS-485通信系统的实际应用中,一个备受关注且极具探讨价值的问题是:是否需要使用终端电阻?今天,我们就围绕这一话题展开交流。 想象一下,你在一条长长的走廊里大声喊话,如果没有任何缓冲,声音会在两端来回反射,变成一片嘈杂的回音。这就是没有终端电阻的总线通信环境——信号反射严重,数据传输失真。这种反射
    的头像 发表于 06-09 16:35 1982次阅读
    短距离不用加?加了总没错?终端电阻的正确“<b class='flag-5'>打开方式</b>”

    CSG船用隔离变压器真是船舶电气系统的“隐形守护者”?这些真相你必须知道! 开头

    。今天,我们就用三个真实场景,揭秘CSG船用隔离变压器的正确打开方式。核心分析场景一:抗干扰≠堆砌滤波器,接地设计才是根本某近海支援船在安装CSG船用隔离变压器后,
    的头像 发表于 06-09 09:29 906次阅读
    CSG船用隔离变压器真是船舶电气系统的“隐形守护者”?这些真相你必须知道! 开头

    岳信仪器告诉你榨汁机气密性检测仪的正确打开方式

    在榨汁机生产过程中,气密性是一项关键指标。而榨汁机气密性检测仪则是确保产品气密性达标的重要工具。那么,该如何正确使用它呢?下面就为大家详细介绍榨汁机气密性检测仪的正确打开方式。(1)检测前的准备工作
    的头像 发表于 05-29 15:52 606次阅读
    岳信仪器告诉你榨汁机气密性检测仪的正确<b class='flag-5'>打开方式</b>

    选型不迷茫!PCB分板机主轴的正确打开方式

    在电子制造领域,PCB(印刷电路板)分板机是实现高效、精准切割的关键设备。作为分板机的"心脏",主轴系统的性能直接影响加工效率、切割精度及设备寿命。德国Sycotec,作为高速电主轴的老品牌企业,凭借其百年技术积淀与持续创新,已成为全球高端分板机主轴的首选品牌。多年来持续生产研发出多款高速、高精度、高效的PCB分板机主轴,一起了解看看。Sycotec用于PC
    的头像 发表于 05-12 13:31 801次阅读
    选型不迷茫!PCB分板机主轴的正确<b class='flag-5'>打开方式</b>