0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

快速了解文本语义相似度领域的研究脉络和进展

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2022-08-16 10:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文旨在帮大家快速了解文本语义相似度领域的研究脉络和进展,其中包含了本人总结的文本语义相似度任务的处理步骤,文本相似度模型发展历程,相关数据集,以及重要论文分享。

文本相似度任务处理步骤

通过该领域的大量论文阅读,我认为处理文本相似度任务时可以分为一下三个步骤:

预处理:如数据清洗等。此步骤旨在对文本做一些规范化操作,筛选有用特征,去除噪音。

文本表示:当数据被预处理完成后,就可以送入模型了。在文本相似度任务中,需要有一个模块用于对文本的向量化表示,从而为下一步相似度比较做准备。这个部分一般会选用一些 backbone 模型,如 LSTM,BERT 等。

学习范式的选择:这个步骤也是文本相似度任务中最重要的模块,同时也是区别于 NLP 领域其他任务的一个模块。其主要原因在于相似度是一个比较的过程,因此我们可以选用各种各样的比较的方式来达成目标。可供选择的学习方式有:孪生网络模型,交互网络模型,对比学习模型等。

文本相似度模型发展历程

从传统的无监督相似度方法,到孪生模型,交互式模型,BERT,以及基于BERT的一些改进工作,如下图:

bbcb77b8-1cfb-11ed-ba43-dac502259ad0.png

总体来说,在 BERT 出现之前,文本相似度任务可以说是一个百花齐放的过程。大家通过各种方式来做相似度比较的都有。从 BERT 出现之后,由于 BERT 出色的性能,之后的工作主要是基于 BERT 的改进。在这个阶段,大家所采用的数据集,评价指标等也逐渐进行了统一。

数据集

在 BERT 以后,大家在文本相似度任务上逐渐统一了数据集的选择,分别为 STS12,STS13,STS14,STS15,STS16,STS-B,SICK-R 七个数据集。STS12-16 分别为 SemEval 比赛 2012~2016 年的数据集。此外,STS-B 和 SICK-R 也是 SemEval 比赛数据集。在这些数据集中,每一个文本对都有一个 0~5 分的人工打标相似度分数(也称为 gold label),代表这个文本对的相似程度。

评价指标

首先,对于每一个文本对,采用余弦相似度对其打分。打分完成后,采用所有余弦相似度分数和所有 gold label 计算 Spearman Correlation。

其中,Pearson Correlation 与 Spearman Correlation 都是用来计算两个分布之间相关程度的指标。Pearson Correlation 计算的是两个变量是否线性相关,而 Spearman Correlation 关注的是两个序列的单调性是否一致。并且论文《Task-Oriented Intrinsic Evaluation of Semantic Textual Similarity》证明,采用 Spearman Correlation 更适合评判语义相似度任务。Pearson Correlation 与 Spearman Correlation 的公式如下:

bbfbd610-1cfb-11ed-ba43-dac502259ad0.png

论文分享

Siamese Recurrent Architectures for Learning Sentence Similarity, AAAI 2016

https://www.aaai.org/ocs/index.php/AAAI/AAAI16/paper/download/12195/12023

bc1747ec-1cfb-11ed-ba43-dac502259ad0.png

Siamese LSTM 是一个经典的孪生网络模型,它将需要对比的两句话分别通过不同的 LSTM 进行编码,并采用两个 LSTM 最后一个时间步的输出来计算曼哈顿距离,并通过 MSE loss 进行反向传导。

Bilateral Multi-Perspective Matching for Natural Language Sentences, IJCAI 2017

https://arxiv.org/abs/1702.03814

bc263d10-1cfb-11ed-ba43-dac502259ad0.png

BiMPM 是一个经典的交互式模型,它将两句话用不同的 Bi-LSTM 模型分别编码,并通过注意力的方式使得当前句子的每一个词都和另一个句子中的每一个词建立交互关系(左右句子是对称的过程),从而学习到更深层次的匹配知识。在交互之后,再通过 Bi-LSTM 模型分别编码,并最终输出。

对于交互的过程,作者设计了四种交互方式,分别为:

句子 A 中每个词与句子 B 的最后一个词进行交互

句子 A 中每个词与句子 B 的每个词进行交互,并求 element-wise maximum

通过句子 A 中的词筛选句子 B 中的每一个词,并将句子 B 的词向量加权求和,最终于 A 词对比

与 c 几乎一致,只不过将加权求和操作变成 element-wise maximum

具体的交互形式是由加权的余弦相似度方式完成。

bc39e1da-1cfb-11ed-ba43-dac502259ad0.png

bc461d60-1cfb-11ed-ba43-dac502259ad0.png

其中,Wk 是参数矩阵,可以理解为 attention 的 query 或者 key,v1 和 v2 分别是要进行交互的两个词,这样计算 l 次余弦相似度,就会得到 m 向量(一个 l 维向量)。

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

https://arxiv.org/abs/1810.04805

BERT 可以认为是语义相似度任务的分水岭。BERT 论文中对 STS-B 数据集进行有监督训练,最终达到了 85.8 的 Spearman Correlation 值。这个分数相较于后续绝大部分的改进工作都要高,但 BERT 的缺点也很明显。对于语义相似度任务来说:

在有监督范式下,BERT 需要将两个句子合并成一个句子再对其编码,如果需要求很多文本两两之间的相似度,BERT 则需要将其排列组合后送入模型,这极大的增加了模型的计算量。

在无监督范式下,BERT 句向量中携带的语义相似度信息较少。从下图可以看出,无论是采用 CLS 向量还是词向量平均的方式,都还比不过通过 GloVe 训练的词向量求平均的方式要效果好。

bc559024-1cfb-11ed-ba43-dac502259ad0.png

基于以上痛点,涌现出一批基于 BERT 改进的优秀工作。

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks, EMNLP 2019

https://arxiv.org/abs/1908.10084

Sentence-BERT 是一篇采用孪生 BERT 架构的工作。Sentence-BERT 作者指出,如果想用 BERT 求出 10000 个句子之间两两的相似度,排列组合的方式在 V100 GPU 上测试需要花费 65 小时;而如果先求出 10000 个句子,再计算余弦相似度矩阵,则只需要花费 5 秒左右。因此,作者提出了通过孪生网络架构训练 BERT 句向量的方式。

Sentence-BERT 一共采用了三种 loss,也就是三种不同的方式训练孪生 BERT 架构,分别为 Cross-entropy loss,MSE loss 以及 Triple loss,模型图如下:

bc673bb2-1cfb-11ed-ba43-dac502259ad0.png

On the Sentence Embeddings from Pre-trained Language Models, EMNLP 2020

https://arxiv.org/abs/2011.05864

BERT-flow 是一篇通过对 BERT 句向量做后处理的工作。作者认为,直接用 BERT 句向量来做相似度计算效果较差的原因并不是 BERT 句向量中不包含语义相似度信息,而是其中包含的相似度信息在余弦相似度等简单的指标下无法很好的体现出来。

首先,作者认为,无论是 Language Modelling 还是 Masked Language Modelling,其实都是在最大化给定的上下文与目标词的共现概率,也就是 Ct 和 Xt 的贡献概率。Language Modelling 与 Masked Language Modelling 的目标函数如下:

bc782e0e-1cfb-11ed-ba43-dac502259ad0.png

因此,如果两句话预测出的 Xt 一致,那么两句话的 Ct 向量很有可能也是相似的!考虑如下两句话:

今天中午吃什么?

今天晚上吃什么?

通过这两句话训练出的语言模型都通过上下文预测出了“吃“这个字,那说明这两句话的句向量也很可能是相似的,具有相似的语义信息。

其次,作者通过观察发现,BERT 的句向量空间是各向异性的,且高频词距离原点较近,低频词距离较远,且分布稀疏。因此 BERT 句向量无法体现出其中包含的相似度信息。

bc86c338-1cfb-11ed-ba43-dac502259ad0.png

因此,作者认为可以通过一个基于流的生成模型来对 BERT 句向量空间进行映射。具体来说,作者希望训练出一个标准的高斯分布,使得该分布中的点可以与 BERT 句向量中的点一一映射。由于该方法采用的映射方式是可逆的,因此就可以通过给定的 BERT 句向量去映射回标准高斯空间,然后再去做相似度计算。由于标准高斯空间是各向同性的,因此能够将句向量中的语义相似度信息更好的展现出来。

bc9ed608-1cfb-11ed-ba43-dac502259ad0.png

SimCSE: Simple Contrastive Learning of Sentence Embeddings, EMNLP 2021

https://arxiv.org/abs/2104.08821

SimCSE 是一篇基于对比学习的语义相似度模型。首先,对比学习相较于文本对之间的匹配,可以在拉近正例的同时,同时将其与更多负例之间的距离拉远,从而训练出一个更加均匀的超球体向量空间。作为一类无监督算法,对比学习中最重要的创新点之一是如何构造正样本对,去学习到类别内部的一些本质特征。

SimCSE 采用的是一个极其朴素,性能却又出奇的好的方法,那就是将一句话在训练的时候送入模型两次,利用模型自身的 dropout 来生成两个不同的 sentence embedding 作为正例进行对比。模型图如下:

bcaafb86-1cfb-11ed-ba43-dac502259ad0.png

ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer, ACL 2021

https://arxiv.org/abs/2105.11741

ConSERT 同样也是一篇基于对比学习的文本相似度工作。ConSERT 是采用多种数据增强的方式来构造正例的。其中包括对抗攻击,打乱文本中的词顺序,Cutoff以及 Dropout。这里需要注意的是,虽然 ConSERT 与 SimCSE 都采用了 Dropout,但 ConSERT 的数据增强操作只停留在 embedding layer,而 SimCSE 则是采用了 BERT 所有层中的 Dropout。此外,作者实验证明,在这四种数据增强方式中,Token Shuffling 和 Token Cutoff 是最有效的。

Exploiting Sentence Embedding for Medical Question Answering, AAAI 2018

https://arxiv.org/abs/1811.06156

注:由于本人工作中涉及的业务主要为智慧医疗,因此会有倾向的关注医疗人工智能领域的方法和模型。

MACSE 是一篇针对医学文本的句向量表征工作,虽然其主要关注的是 QA 任务,但他的句向量表征方式在文本相似度任务中同样适用。

医学文本区别于通用文本的一大特征就是包含复杂的多尺度信息,如下:

bcc39448-1cfb-11ed-ba43-dac502259ad0.png

因此,我们就需要一个能够关注到医学文本多尺度信息的模型。

bcd2bb6c-1cfb-11ed-ba43-dac502259ad0.png

在本文中,通过多尺度的卷积操作,就可以有效的提取到文本中的多尺度信息,并且通过注意力机制对多尺度信息进行加权,从而有效的关注到特定文本中在特定尺度上存在的重要信息。

实验结果汇总

以下为众多基于 BERT 改进的模型在标准数据集上测试的结果,出自 SimCSE 论文:

bcf801d8-1cfb-11ed-ba43-dac502259ad0.png

可以看到,BERT-flow 相较于原生 BERT 提升了将近 10 个点,而基于对比学习的工作又要比基于后处理的工作的效果好很多。此外需要注意的是,在这里 Sentence-BERT 被归为了有监督模型中。这是因为 Sentence-BERT 虽然没有用到 STS 标签,但训练时用的是 NLI 数据集,也用到了 NLI 中人工打标的标签,因此 SimCSE 作者将 Sentence-BERT 归为了有监督模型中。

好了,以上就是文本语义相似度领域的研究脉络和进展,希望能对大家有所帮助。当然 2022 年也有不少优秀的工作出现,不过这一部分就留到以后吧!

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3648

    浏览量

    51695
  • 语义
    +关注

    关注

    0

    文章

    22

    浏览量

    8793
  • 文本
    +关注

    关注

    0

    文章

    119

    浏览量

    17738

原文标题:一文详解文本语义相似度的研究脉络和最新进展

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Progress-Think框架赋能机器人首次实现语义进展推理

    在视觉语言导航(VLN)中,机器人长期缺乏一种关键能力:它能持续前进,却无法判断自己的任务推进到了哪一步。导航在空间中不断展开,画面节节推进,但模型并不知道自己在自然语言指令里处于什么阶段,因此容易漂移、兜圈,或做出难以解释的决策。我们认为,引入语义进展推理,是破解长程导
    的头像 发表于 12-03 09:27 119次阅读
    Progress-Think框架赋能机器人首次实现<b class='flag-5'>语义</b><b class='flag-5'>进展</b>推理

    SGS为TCL华星自然光MNT显示颁发高自然光相似 Performance Tested Mark

    华星27"自然光MNT显示颁发"高自然光相似Performance Tested Mark",这是继2025年9月1日TCL华星12.1"教育平板显示获得全球首张SGS高自然光相似
    的头像 发表于 10-19 20:26 236次阅读
    SGS为TCL华星自然光MNT显示颁发高自然光<b class='flag-5'>相似</b><b class='flag-5'>度</b> Performance Tested Mark

    大华股份入选2025年物联网领域十大科技进展

    近日,由中国电子学会、中国通信学会联合主办的2025物联网大会在江苏无锡举办。会上发布了“2025年物联网领域十大科技进展”,由浙江大学、中国电信集团有限公司、中国移动通信集团浙江有限公司、中国
    的头像 发表于 09-09 16:22 3870次阅读

    格灵深瞳视觉基础模型Glint-MVT的发展脉络

    此前,8月28-30日,2025百云智大会在北京举办。在算力平台专题论坛上,格灵深瞳技术副总裁、算法研究院院长冯子勇分享了《视觉基座:通向世界模型之路——格灵深瞳Glint-MVT让AI看懂世界
    的头像 发表于 09-05 17:13 1298次阅读
    格灵深瞳视觉基础模型Glint-MVT的发展<b class='flag-5'>脉络</b>

    微双重驱动的新型直线电机研究

    摘罢:大行程、高精度,同时易于小型化的移动机构是先进制造业等领域要解决的关键问题之一,综述了现有宏/微双重驱动机构和直线超声电机的研究进展和存在问题,提出了一种宏微双重驱动新型直线压电电机,使其既能
    发表于 06-24 14:17

    氧化镓射频器件研究进展

    ,首先介绍了 Ga2O3在射频器件领域的优势和面临的挑战,然后综述了近年来 Ga2O3射频器件在体掺杂沟道、AlGaO/Ga2O3调制 掺杂异质结以及与高导热衬底异质集成方面取得的进展,并对研究结果进行了讨论,最后展望了未来 G
    的头像 发表于 06-11 14:30 1933次阅读
    氧化镓射频器件<b class='flag-5'>研究进展</b>

    【「零基础开发AI Agent」阅读体验】+Agent的案例解读

    在Agent开发平台扣子上,有许多成功的案例,例如识典古籍就是基于扣子搭建智能助手所提供的古籍智能化检索、图文对照、语义分析等功能,它极大地提升了用户的阅读和研究效率。 客户及开发背景​ 识典古籍
    发表于 05-14 11:23

    在AI领域的最新进展

    近日,我们在武汉举办了Create2025百AI开发者大会,与全球各地的5000多名开发者,分享了百在AI领域的新进展
    的头像 发表于 04-30 10:14 1092次阅读

    兰州大学:研究团队在温度传感用发光材料领域取得新进展

      近日,兰州大学材料与能源学院王育华教授课题组在温度传感用发光材料领域取得了新进展。相关研究成果以“Luminescence Thermometry via MultiParameter
    的头像 发表于 04-25 15:23 460次阅读
    兰州大学:<b class='flag-5'>研究</b>团队在温度传感用发光材料<b class='flag-5'>领域</b>取得新<b class='flag-5'>进展</b>

    电机检测快速安装试验台轨迹研究

    效率,缩短装机时间是急需解决的间题 纯分享帖,需要者可点击附件获取完整资料~~~ *附件:电机检测快速安装试验台轨迹研究.pdf 【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容!
    发表于 04-11 09:52

    《AI Agent 应用与项目实战》阅读心得3——RAG架构与部署本地知识库

    。RAG技术建立在向量数据库的基础上,通过高维向量空间中的相似计算来实现语义层面的匹配,这比传统的关键词搜索更能捕捉文本的深层语义关联。
    发表于 03-07 19:49

    爱立信在电信领域取得重大进展

    近日,爱立信宣布在电信领域取得了一项重大进展——将大幅提高移动运营商在管理不同环境中的用户连接体验的能力。
    的头像 发表于 02-12 10:34 7114次阅读

    【「基于大模型的RAG应用开发与优化」阅读体验】+Embedding技术解读

    与文档库中每个文档向量的相似,来检索最相关的文档。这一过程依赖于Embedding模型对文本语义的准确捕捉。检索到的文档与用户的问题一起被Embedding模型转换为向量,形成新的上
    发表于 01-17 19:53

    SparseViT:以非语义为中心、参数高效的稀疏化视觉Transformer

      背景简介 随着图像编辑工具和图像生成技术的快速发展,图像处理变得非常方便。然而图像在经过处理后不可避免的会留下伪影(操作痕迹),这些伪影可分为语义和非语义特征。因此目前几乎所有的图像篡改检测模型
    的头像 发表于 01-15 09:30 808次阅读
    SparseViT:以非<b class='flag-5'>语义</b>为中心、参数高效的稀疏化视觉Transformer

    上海光机所在激光模式调控技术领域取得进展

    航空航天大学的研究人员在激光模式调控技术领域取得了突破性进展。通过一种创新的方法——选择性模式结构破缺(mode structure breaking),研究团队成功在单个激光腔中实现
    的头像 发表于 01-03 06:27 617次阅读
    上海光机所在激光模式调控技术<b class='flag-5'>领域</b>取得<b class='flag-5'>进展</b>