自然语言任务方案思考：句子相似度和匹配-电子发烧友网

0 小系列初衷

自己接触的项目大都是初创，没开始多久的项目，从0到1的不少，2020年快结束，感觉这个具有一定个人特色的技术经验可以在和大家分享一下。

计划篇章：

（已完成）文本分类篇。针对NLP文本分类任务。

（已完成）序列标注（NER）篇。针对命名实体识别、序列标注任务。

文本匹配篇。针对语义相似度计算、向量匹配等问题。

人工特征学习篇。针对多特征的机器、深度学习方案。

开始我把这个标题叫做语义匹配，后来感觉还是不能叫这个名字，应该把问题放大为句子相似度和匹配问题。

1 语义匹配的场景

语义匹配的核心其实是评价两个query之间的相似度，可以看看现在常用的场景：

搜索领域，语义向量召回是一个比较新潮的召回方式，灵活性更高，下游的精排部分也可以通过语义相似度来进行排序。

智能客服，之前的阿里小蜜的文章也提过，对于长尾的结果，可以通过向量召回的方式来进行处理。

对话领域，可以说是智能客服的眼神，闲聊类的，可以通过语义匹配完成闲聊的回复，当然多轮也有多轮的玩法。

可以看到，各种领域，其实语义匹配的舞台非常大，了解这方面的方案对NLP技术栈的了解非常有用。

2 方法选型

2.1 文本层面的相似

最简单的方法往往就是最浅层的方案，所以还是文本层面的相似，方法逐步升级是这样的：

编辑距离，这应该是最严格的一种相似了。

cqr，分子是句子1和句子2词汇的交集词汇量，分母是句子1和句子2的并集词汇量。

加权的cqr，可以做一个简单的词权重，然后做加权的cqr。

BM25。传统搜索的常用方法。

文本层面的方法，在搜索领域已经非常成熟，BM25已经具有很高的准度，结合上游常用的一些改写，其实已经能够达到很好的效果，这也是经典搜索最常用的一套范式。

2.2 向量表征作召回

向量召回是当前比较流行的一种新的搜索技术，这里以来两个关键技术点，向量索引和句子表征技术。

向量索引的是指就是一种向量最近邻的搜索方案，最常用的场景就是KNN，而在我们的场景中，就是把句子表征成一个向量，构建索引，新来一个句子，用同样的放哪个还是构建一个向量，就可以完成相似度召回，常用的构建索引方式推荐两种，这两种都已经有开源工具支持。

annoy，一种基于树的构造方法。

hnsw，一种基于图的构造方法，这应该是目前我已知速度最快的方法了。

说完了向量索引，就要说向量表征了，只有足够好的向量表征，上面说的向量召回，召回的东西才会足够好，为什么我说好呢，就是因为这里涉及的好的维度多：

准确率足够高，召回的内容真的是和句子足够接近。

有比较强的泛化能力，这也是语义向量召回相比传统搜索的相似召回最突出的优势，只要语义足够接近，“查询”和“查看”就可能匹配到，“幂幂”和“杨幂”也能打中，这样能降低我们挖掘数据带来的成本。

好的相似度匹配能识别关键词，只需要模型端到端处理，不需要单独抽关键词。

那么，这个语义表征，一般都是什么方法呢，这里也是提几个：

word2vector预训练。如果语料不足甚至没有语料，我们其实可以用开源的预训练好的w2v词向量作为基线，取均值就能拿到句向量。

如果有一些平行样本，可以开始考虑用一些平行预料（sentence1,setence2,label）进行finetuning，说白了就是两个向量分别去词向量后均值，最终用余弦或者欧氏距离计算相似度就行。

数据量足够后，就可以开始在上面搭积木了，CNN、LSTM之类的都可以尝试，当然经验之谈，self-attention可以尝试。

数据量再多点，我们就可以上bert之类的大家伙了。

现在的语义相似度，更多是通过优化交互特征来提升相似度计算的效果，但是在向量召回这里，由于目前只能支持简单的相似度召回，两个query只有在计算相似度的最后一步才能够见面，因此query之间的交互特征是无法提取的，所以很多现在流行的方法是用不了的。

2.3 语义相似度

如果语义相似度要被用在后续的精排，无论是搜索、对话甚至是推荐，在经历初筛之后，我们往往有更多时间和经历来比对剩余的结果和用户query之间的相似程度，此时我们就可以使用交互特征逐一匹配，完成最后的精排，这些方案往往在大量比赛中就有提到，以DSSM为基，升级很多方案，包括很多人知道的EISM等，当然比赛的经验也告诉我们，模型本身还可以加入更多的文本特征来协助衡量语义相似度，因此在用语义相似度模型的同时，可以加入一些人工特征来协助优化，这也是推荐系统的wide&deep中所提到的深浅层特征均用的思想。

这里给一篇蚂蚁金服比赛的文章吧，大家可以根据这个思路去参考优化：https://blog.csdn.net/u014732537/article/details/81038260

3 优化手段

当然，上面的方式是让大家用最快的速度去完成一个demo或者说baseline，然后我们需要一系列的手段进行优化，在这里也给大家介绍一些有用的方案。

如果你的场景里需要一些英文，可以加入一些英文文本去finetuning，开放域的。

针对问答场景，由于用户的问题都有明显意图，因此做一些词权重、attention的操作有利于效果提升，包括提槽，当然在浅层模型的情况下，词的归一化也有好处。

通过传统的搜索，用ES召回之类而方式，可以召回很多文本接近但是语义遥远的case，通过人工标注的样本对效果的提升很有好处。

同样是hard case挖掘，用自己的语义模型做召回，召回在阈值附近的case，做一下人工的复核，这样做样本也对效果提升有好处，这其实用的是主动学习的思想。

4 小结

做完搜索，后来又开始做向量表征和召回，感觉就很奇妙，能够理解传统搜索和相对新潮的向量表征召回之间的关系，这两者之间的关系还是挺微妙地，互相借鉴的过程中能够产生一些火花，例如向量检索之前可以召回一些相似的、标准的query然后来检索，这样能大幅提升准确率，也一定程度降低了对模型深度的要求。（隐约感觉是时候写一篇有关模型和规则特征之间关系的文章了？）

责任编辑：xj

原文标题：任务方案思考：句子相似度和匹配

文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

语义

语义

+关注

关注
0

文章
21

浏览量
8630
自然语言处理

自然语言处理

+关注

关注
1

文章
509

浏览量
13099

原文标题：任务方案思考：句子相似度和匹配

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

一种基于自然语言的轨迹修正方法

本研究提出了ExTraCT框架，利用自然语言进行轨迹校正。该框架结合了大型语言模型（LLMs）用于自然语言理解和轨迹变形函数。ExTraCT能够根据场景在线生成轨迹修改特征及其自然语言

发表于 01-19 10:45 •179次阅读

2023年科技圈热词“大语言模型”，与自然语言处理有何关系

电子发烧友网报道（文/李弯弯）大语言模型（LLM）是基于海量文本数据训练的深度学习模型。它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务，如文本摘要、问答、翻译

发表于 01-02 09:28 •1379次阅读

硬件加速自然语言理解解决方案

电子发烧友网站提供《硬件加速自然语言理解解决方案.pdf》资料免费下载

发表于 09-13 10:45 •0次下载

硬件加速<b class='flag-5'>自然语言</b>理解解决<b class='flag-5'>方案</b>

自然语言处理和人工智能的区别

　　自然语言处理(Natural Language Processing，NLP)是人工智能(AI)中的一个分支，它利用计算机技术对自然语言进行处理，使得电脑能够理解和操作人类语言。自然语言

发表于 08-28 17:32 •927次阅读

自然语言处理和人工智能的概念及发展史 自然语言处理和人工智能的区别

自然语言处理(Natural Language Processing, NLP)的定义是通过电脑软件程序实现人们日常语言的机器自动处理。为了帮助计算机理解，掌握自然语言处理的基本原理，需要涉及到

发表于 08-23 18:22 •527次阅读

自然语言处理的概念和应用 自然语言处理属于人工智能吗

　　自然语言处理(Natural Language Processing)是一种人工智能技术，它是研究自然语言与计算机之间的交互和通信的一门学科。自然语言处理旨在研究机器如何理解人类语言

发表于 08-23 17:31 •845次阅读

自然语言处理的优缺点有哪些 自然语言处理包括哪些内容

自然语言处理（Natural Language Processing）是一种人工智能的技术及领域，它致力于让计算机理解及处理人类语言。它可以帮助计算机对人类语言进行处理、理解和生成，使得计算机可以像人类一样与人们进行交互，如智能

发表于 08-23 17:26 •2531次阅读

亚马逊云科技结合大语言模型和自然语言问答，加速的数据决策

。该功能很快将在Amazon QuickSight上线，帮助企业轻松探索数据、发现并分享洞察。借助Amazon QuickSight中新增的生成式BI功能，业务分析师能够使用自然语言轻松执行日常任务

发表于 08-14 19:04 •388次阅读

自然语言处理包括哪些内容 自然语言处理技术包括哪些

Classification and Clustering)：将文本按照相似性进行分类或聚类。信息提取(Information Extraction)：从文本中提取有用的信息。 自然语言生成(Natural Language Generation)：生成

发表于 08-03 16:22 •3878次阅读

PyTorch教程-16.7。自然语言推理：微调 BERT

实验室在 SageMaker Studio Lab 中打开笔记本在本章前面的部分中，我们为 SNLI 数据集上的自然语言推理任务（如第 16.4 节所述）设计了一个基于注意力的架构（第16.5

发表于 06-05 15:44 •996次阅读

PyTorch教程-16.4。自然语言推理和数据集

从另一个句子推断出来，或者通过识别语义等同的句子来消除冗余时，知道如何对一个文本序列进行分类是不够的。相反，我们需要能够对成对的文本序列进行推理。 16.4.1。自然语言推理¶ 自然语

发表于 06-05 15:44 •336次阅读

PyTorch教程-16.5。自然语言推理：使用注意力

实验室在 SageMaker Studio Lab 中打开笔记本我们在16.4 节介绍了自然语言推理任务和 SNLI 数据集。鉴于许多基于复杂和深层架构的模型， Parikh等人。( 2016

发表于 06-05 15:44 •338次阅读

PyTorch教程16.4之自然语言推理和数据集

电子发烧友网站提供《PyTorch教程16.4之自然语言推理和数据集.pdf》资料免费下载

发表于 06-05 10:57 •0次下载

PyTorch教程16.7之自然语言推理：微调BERT

电子发烧友网站提供《PyTorch教程16.7之自然语言推理：微调BERT.pdf》资料免费下载

发表于 06-05 10:52 •0次下载

PyTorch教程16.5之自然语言推理：使用注意力

电子发烧友网站提供《PyTorch教程16.5之自然语言推理：使用注意力.pdf》资料免费下载

发表于 06-05 10:49 •0次下载

搜索历史

自然语言任务方案思考：句子相似度和匹配

评论

一种基于自然语言的轨迹修正方法

2023年科技圈热词“大语言模型”，与自然语言处理有何关系

硬件加速自然语言理解解决方案

自然语言处理和人工智能的区别

自然语言处理和人工智能的概念及发展史自然语言处理和人工智能的区别

自然语言处理的概念和应用自然语言处理属于人工智能吗

自然语言处理的优缺点有哪些自然语言处理包括哪些内容

亚马逊云科技结合大语言模型和自然语言问答，加速的数据决策

自然语言处理包括哪些内容自然语言处理技术包括哪些

PyTorch教程-16.7。自然语言推理：微调 BERT

PyTorch教程-16.4。自然语言推理和数据集

PyTorch教程-16.5。自然语言推理：使用注意力

PyTorch教程16.4之自然语言推理和数据集

PyTorch教程16.7之自然语言推理：微调BERT

PyTorch教程16.5之自然语言推理：使用注意力