0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

快速了解文本语义相似度领域的研究脉络和进展

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2022-08-16 10:04 次阅读

本文旨在帮大家快速了解文本语义相似度领域的研究脉络和进展,其中包含了本人总结的文本语义相似度任务的处理步骤,文本相似度模型发展历程,相关数据集,以及重要论文分享。

文本相似度任务处理步骤

通过该领域的大量论文阅读,我认为处理文本相似度任务时可以分为一下三个步骤:

预处理:如数据清洗等。此步骤旨在对文本做一些规范化操作,筛选有用特征,去除噪音。

文本表示:当数据被预处理完成后,就可以送入模型了。在文本相似度任务中,需要有一个模块用于对文本的向量化表示,从而为下一步相似度比较做准备。这个部分一般会选用一些 backbone 模型,如 LSTM,BERT 等。

学习范式的选择:这个步骤也是文本相似度任务中最重要的模块,同时也是区别于 NLP 领域其他任务的一个模块。其主要原因在于相似度是一个比较的过程,因此我们可以选用各种各样的比较的方式来达成目标。可供选择的学习方式有:孪生网络模型,交互网络模型,对比学习模型等。

文本相似度模型发展历程

从传统的无监督相似度方法,到孪生模型,交互式模型,BERT,以及基于BERT的一些改进工作,如下图:

bbcb77b8-1cfb-11ed-ba43-dac502259ad0.png

总体来说,在 BERT 出现之前,文本相似度任务可以说是一个百花齐放的过程。大家通过各种方式来做相似度比较的都有。从 BERT 出现之后,由于 BERT 出色的性能,之后的工作主要是基于 BERT 的改进。在这个阶段,大家所采用的数据集,评价指标等也逐渐进行了统一。

数据集

在 BERT 以后,大家在文本相似度任务上逐渐统一了数据集的选择,分别为 STS12,STS13,STS14,STS15,STS16,STS-B,SICK-R 七个数据集。STS12-16 分别为 SemEval 比赛 2012~2016 年的数据集。此外,STS-B 和 SICK-R 也是 SemEval 比赛数据集。在这些数据集中,每一个文本对都有一个 0~5 分的人工打标相似度分数(也称为 gold label),代表这个文本对的相似程度。

评价指标

首先,对于每一个文本对,采用余弦相似度对其打分。打分完成后,采用所有余弦相似度分数和所有 gold label 计算 Spearman Correlation。

其中,Pearson Correlation 与 Spearman Correlation 都是用来计算两个分布之间相关程度的指标。Pearson Correlation 计算的是两个变量是否线性相关,而 Spearman Correlation 关注的是两个序列的单调性是否一致。并且论文《Task-Oriented Intrinsic Evaluation of Semantic Textual Similarity》证明,采用 Spearman Correlation 更适合评判语义相似度任务。Pearson Correlation 与 Spearman Correlation 的公式如下:

bbfbd610-1cfb-11ed-ba43-dac502259ad0.png

论文分享

Siamese Recurrent Architectures for Learning Sentence Similarity, AAAI 2016

https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12195/12023

bc1747ec-1cfb-11ed-ba43-dac502259ad0.png

Siamese LSTM 是一个经典的孪生网络模型,它将需要对比的两句话分别通过不同的 LSTM 进行编码,并采用两个 LSTM 最后一个时间步的输出来计算曼哈顿距离,并通过 MSE loss 进行反向传导。

Bilateral Multi-Perspective Matching for Natural Language Sentences, IJCAI 2017

https://arxiv.org/abs/1702.03814

bc263d10-1cfb-11ed-ba43-dac502259ad0.png

BiMPM 是一个经典的交互式模型,它将两句话用不同的 Bi-LSTM 模型分别编码,并通过注意力的方式使得当前句子的每一个词都和另一个句子中的每一个词建立交互关系(左右句子是对称的过程),从而学习到更深层次的匹配知识。在交互之后,再通过 Bi-LSTM 模型分别编码,并最终输出。

对于交互的过程,作者设计了四种交互方式,分别为:

句子 A 中每个词与句子 B 的最后一个词进行交互

句子 A 中每个词与句子 B 的每个词进行交互,并求 element-wise maximum

通过句子 A 中的词筛选句子 B 中的每一个词,并将句子 B 的词向量加权求和,最终于 A 词对比

与 c 几乎一致,只不过将加权求和操作变成 element-wise maximum

具体的交互形式是由加权的余弦相似度方式完成。

bc39e1da-1cfb-11ed-ba43-dac502259ad0.png

bc461d60-1cfb-11ed-ba43-dac502259ad0.png

其中,Wk 是参数矩阵,可以理解为 attention 的 query 或者 key,v1 和 v2 分别是要进行交互的两个词,这样计算 l 次余弦相似度,就会得到 m 向量(一个 l 维向量)。

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

https://arxiv.org/abs/1810.04805

BERT 可以认为是语义相似度任务的分水岭。BERT 论文中对 STS-B 数据集进行有监督训练,最终达到了 85.8 的 Spearman Correlation 值。这个分数相较于后续绝大部分的改进工作都要高,但 BERT 的缺点也很明显。对于语义相似度任务来说:

在有监督范式下,BERT 需要将两个句子合并成一个句子再对其编码,如果需要求很多文本两两之间的相似度,BERT 则需要将其排列组合后送入模型,这极大的增加了模型的计算量。

在无监督范式下,BERT 句向量中携带的语义相似度信息较少。从下图可以看出,无论是采用 CLS 向量还是词向量平均的方式,都还比不过通过 GloVe 训练的词向量求平均的方式要效果好。

bc559024-1cfb-11ed-ba43-dac502259ad0.png

基于以上痛点,涌现出一批基于 BERT 改进的优秀工作。

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, EMNLP 2019

https://arxiv.org/abs/1908.10084

Sentence-BERT 是一篇采用孪生 BERT 架构的工作。Sentence-BERT 作者指出,如果想用 BERT 求出 10000 个句子之间两两的相似度,排列组合的方式在 V100 GPU 上测试需要花费 65 小时;而如果先求出 10000 个句子,再计算余弦相似度矩阵,则只需要花费 5 秒左右。因此,作者提出了通过孪生网络架构训练 BERT 句向量的方式。

Sentence-BERT 一共采用了三种 loss,也就是三种不同的方式训练孪生 BERT 架构,分别为 Cross-entropy loss,MSE loss 以及 Triple loss,模型图如下:

bc673bb2-1cfb-11ed-ba43-dac502259ad0.png

On the Sentence Embeddings from Pre-trained Language Models, EMNLP 2020

https://arxiv.org/abs/2011.05864

BERT-flow 是一篇通过对 BERT 句向量做后处理的工作。作者认为,直接用 BERT 句向量来做相似度计算效果较差的原因并不是 BERT 句向量中不包含语义相似度信息,而是其中包含的相似度信息在余弦相似度等简单的指标下无法很好的体现出来。

首先,作者认为,无论是 Language Modelling 还是 Masked Language Modelling,其实都是在最大化给定的上下文与目标词的共现概率,也就是 Ct 和 Xt 的贡献概率。Language Modelling 与 Masked Language Modelling 的目标函数如下:

bc782e0e-1cfb-11ed-ba43-dac502259ad0.png

因此,如果两句话预测出的 Xt 一致,那么两句话的 Ct 向量很有可能也是相似的!考虑如下两句话:

今天中午吃什么?

今天晚上吃什么?

通过这两句话训练出的语言模型都通过上下文预测出了“吃“这个字,那说明这两句话的句向量也很可能是相似的,具有相似的语义信息。

其次,作者通过观察发现,BERT 的句向量空间是各向异性的,且高频词距离原点较近,低频词距离较远,且分布稀疏。因此 BERT 句向量无法体现出其中包含的相似度信息。

bc86c338-1cfb-11ed-ba43-dac502259ad0.png

因此,作者认为可以通过一个基于流的生成模型来对 BERT 句向量空间进行映射。具体来说,作者希望训练出一个标准的高斯分布,使得该分布中的点可以与 BERT 句向量中的点一一映射。由于该方法采用的映射方式是可逆的,因此就可以通过给定的 BERT 句向量去映射回标准高斯空间,然后再去做相似度计算。由于标准高斯空间是各向同性的,因此能够将句向量中的语义相似度信息更好的展现出来。

bc9ed608-1cfb-11ed-ba43-dac502259ad0.png

SimCSE: Simple Contrastive Learning of Sentence Embeddings, EMNLP 2021

https://arxiv.org/abs/2104.08821

SimCSE 是一篇基于对比学习的语义相似度模型。首先,对比学习相较于文本对之间的匹配,可以在拉近正例的同时,同时将其与更多负例之间的距离拉远,从而训练出一个更加均匀的超球体向量空间。作为一类无监督算法,对比学习中最重要的创新点之一是如何构造正样本对,去学习到类别内部的一些本质特征。

SimCSE 采用的是一个极其朴素,性能却又出奇的好的方法,那就是将一句话在训练的时候送入模型两次,利用模型自身的 dropout 来生成两个不同的 sentence embedding 作为正例进行对比。模型图如下:

bcaafb86-1cfb-11ed-ba43-dac502259ad0.png

ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer, ACL 2021

https://arxiv.org/abs/2105.11741

ConSERT 同样也是一篇基于对比学习的文本相似度工作。ConSERT 是采用多种数据增强的方式来构造正例的。其中包括对抗攻击,打乱文本中的词顺序,Cutoff以及 Dropout。这里需要注意的是,虽然 ConSERT 与 SimCSE 都采用了 Dropout,但 ConSERT 的数据增强操作只停留在 embedding layer,而 SimCSE 则是采用了 BERT 所有层中的 Dropout。此外,作者实验证明,在这四种数据增强方式中,Token Shuffling 和 Token Cutoff 是最有效的。

Exploiting Sentence Embedding for Medical Question Answering, AAAI 2018

https://arxiv.org/abs/1811.06156

注:由于本人工作中涉及的业务主要为智慧医疗,因此会有倾向的关注医疗人工智能领域的方法和模型。

MACSE 是一篇针对医学文本的句向量表征工作,虽然其主要关注的是 QA 任务,但他的句向量表征方式在文本相似度任务中同样适用。

医学文本区别于通用文本的一大特征就是包含复杂的多尺度信息,如下:

bcc39448-1cfb-11ed-ba43-dac502259ad0.png

因此,我们就需要一个能够关注到医学文本多尺度信息的模型。

bcd2bb6c-1cfb-11ed-ba43-dac502259ad0.png

在本文中,通过多尺度的卷积操作,就可以有效的提取到文本中的多尺度信息,并且通过注意力机制对多尺度信息进行加权,从而有效的关注到特定文本中在特定尺度上存在的重要信息。

实验结果汇总

以下为众多基于 BERT 改进的模型在标准数据集上测试的结果,出自 SimCSE 论文:

bcf801d8-1cfb-11ed-ba43-dac502259ad0.png

可以看到,BERT-flow 相较于原生 BERT 提升了将近 10 个点,而基于对比学习的工作又要比基于后处理的工作的效果好很多。此外需要注意的是,在这里 Sentence-BERT 被归为了有监督模型中。这是因为 Sentence-BERT 虽然没有用到 STS 标签,但训练时用的是 NLI 数据集,也用到了 NLI 中人工打标的标签,因此 SimCSE 作者将 Sentence-BERT 归为了有监督模型中。

好了,以上就是文本语义相似度领域的研究脉络和进展,希望能对大家有所帮助。当然 2022 年也有不少优秀的工作出现,不过这一部分就留到以后吧!

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47685
  • 语义
    +关注

    关注

    0

    文章

    21

    浏览量

    8630
  • 文本
    +关注

    关注

    0

    文章

    118

    浏览量

    16920

原文标题:一文详解文本语义相似度的研究脉络和最新进展

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    快速全面了解大模型长文本能力

    那关于LLM的长文本能力,目前业界通常都是怎么做的?有哪些技术点或者方向?今天我们就来总结一波,供大家快速全面了解
    发表于 02-22 14:04 293次阅读
    <b class='flag-5'>快速</b>全面<b class='flag-5'>了解</b>大模型长<b class='flag-5'>文本</b>能力

    综述:基于二维材料的气体传感器研究进展

    来源:MEMS,谢谢 编辑:感知芯视界 Link 二维材料作为一种极具潜力的气敏材料,在气体传感器领域受到广泛关注并取得快速发展。目前研究较多的二维材料有石墨烯、二维过渡金属硫化物(TMDs
    的头像 发表于 11-23 09:13 296次阅读

    基于二维材料的气体传感器研究进展

    二维材料作为一种极具潜力的气敏材料,在气体传感器领域受到广泛关注并取得快速发展。目前研究较多的二维材料有石墨烯、二维过渡金属硫化物(TMDs)、MXenes等。由于二维材料具有纳米尺寸的层状结构
    的头像 发表于 11-10 09:11 322次阅读
    基于二维材料的气体传感器<b class='flag-5'>研究进展</b>

    如何判别两个信号波形的相似

    获得两个波形,即两组数据,如何判别它们之间的相似
    发表于 10-18 06:49

    深度学习图像语义分割指标介绍

    深度学习在图像语义分割上已经取得了重大进展与明显的效果,产生了很多专注于图像语义分割的模型与基准数据集,这些基准数据集提供了一套统一的批判模型的标准,多数时候我们评价一个模型的性能会从执行时间、内存使用率、算法精度等方面进行考虑
    发表于 10-09 15:26 165次阅读
    深度学习图像<b class='flag-5'>语义</b>分割指标介绍

    微电子领域中陶瓷劈刀研究与应用进展

    微电子领域中陶瓷劈刀研究与应用进展
    的头像 发表于 09-07 11:27 421次阅读
    微电子<b class='flag-5'>领域</b>中陶瓷劈刀<b class='flag-5'>研究</b>与应用<b class='flag-5'>进展</b>

    先进封装中硅通孔(TSV)铜互连电镀研究进展

    先进封装中硅通孔(TSV)铜互连电镀研究进展
    的头像 发表于 09-06 11:16 587次阅读
    先进封装中硅通孔(TSV)铜互连电镀<b class='flag-5'>研究进展</b>

    超结IGBT的结构特点及研究进展

    超结IGBT的结构特点及研究进展
    发表于 08-08 10:11 0次下载

    基于语义域资源的多址技术

    我们从语义角度,以基于模型的人工智能方法,从信源中提取高维语义域特征,并针对信源和信道特征联合构建模型信息空间。
    发表于 07-17 15:02 327次阅读
    基于<b class='flag-5'>语义</b>域资源的多址技术

    面向结构化数据的文本生成技术研究

    今天我们要讲的文本生成是现在最流行的研究领域之一。文本生成的目标是让计算机像人类一样学会表达,目前看基本上接近实现。这些突然的技术涌现,使得计算机能够撰写出高质量的自然
    的头像 发表于 06-26 14:39 345次阅读
    面向结构化数据的<b class='flag-5'>文本</b>生成技术<b class='flag-5'>研究</b>

    基于文本到图像模型的可控文本到视频生成

    1. 论文信息 2. 引言   大规模扩散模型在文本到图像合成方面取得了巨大的突破,并在创意应用方面取得了成功。一些工作试图在视频领域复制这个成功,即在野外世界建模高维复杂视频分布。然而,训练这样
    的头像 发表于 06-14 10:39 585次阅读
    基于<b class='flag-5'>文本</b>到图像模型的可控<b class='flag-5'>文本</b>到视频生成

    下一代通信系统:面向语义通信的模分多址技术

    语义通信被认为是具有潜力的下一代通信系统新范式,自第一代基于文本语义通信系统提出以来,已出现面向各种不同信源的语义通信系统。
    发表于 06-06 10:48 2014次阅读
    下一代通信系统:面向<b class='flag-5'>语义</b>通信的模分多址技术

    PyTorch教程-14.9. 语义分割和数据集

    语义分割中标记的像素级边界明显更细粒度。 图 14.9.1语义分割中图像的狗、猫和背景的标签。¶ 14.9.1。图像分割和实例分割¶ 计算机视觉领域还有两个与语义
    的头像 发表于 06-05 15:44 412次阅读
    PyTorch教程-14.9. <b class='flag-5'>语义</b>分割和数据集

    大型语言模型能否捕捉到它们所处理和生成的文本中的语义信息

      大型语言模型能否捕捉到它们所处理和生成的文本中的语义信息?这一问题在计算机科学和自然语言处理领域一直存在争议。然而,MIT的一项新研究表明,仅基于
    的头像 发表于 05-25 11:34 483次阅读
    大型语言模型能否捕捉到它们所处理和生成的<b class='flag-5'>文本</b>中的<b class='flag-5'>语义</b>信息

    语义分割标注:从认知到实践

    随着人工智能技术的不断发展,语义分割标注已经成为计算机视觉领域的一个热门话题。语义分割是指将图像中的每个像素分配给一个预定义的语义类别,以便在计算机视觉应用中进行分类和分析。标注
    的头像 发表于 04-30 21:20 768次阅读