0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

文本匹配任务中常用的孪生网络

深度学习自然语言处理 来源:NLP情报局 作者:NLP情报局 2021-03-05 15:47 次阅读

文本匹配是自然语言处理领域一个基础且重要的方向,一般研究两段文本之间的关系。文本相似度、自然语言推理、问答系统、信息检索都可以看作针对不同数据和场景的文本匹配应用。

本文总结了文本匹配任务中的经典网络Siamse Network,它和近期预训练语言模型的组合,一些调优技巧以及在线下数据集上的效果检验。

Siamese 孪生网络

在正式介绍前,我们先来看一个有趣的故事。

孪生网络的由来

“Siamese”中的“Siam”是古时泰国的称呼,中文译作暹罗,所以“Siamese”就是指“暹罗”人或“泰国”人。“Siamese”在英语中同时表示“孪生”,这又是为什么呢?

十九世纪,泰国出生了一对连体婴儿“恩”和“昌”,当时的医学技术无法使他们分离出来,于是两人顽强地生活了一生。

1829年他们被英国商人发现,进入马戏团,在全世界各地演出。1839年他们访问美国北卡罗莱那州成为“玲玲马戏团” 的台柱,最后成为美国公民。1843年4月13日跟英国一对姐妹结婚,恩生了10个小孩,昌生了12个。1874年,两人因病均于63岁离开了人间。他们的肝至今仍保存在费城的马特博物馆内。

从此之后,“暹罗双胞胎”(Siamese twins)就成了连体人的代名词,也因为这对双胞胎全世界开始重视这项特殊疾病。

孪生网络

由于结构具有鲜明的对称性,就像两个孪生兄弟,所以下图这种神经网络结构被研究人员称作“Siamese Network”,即孪生网络。

其中最能体现“孪生”的地方,在于网络具有相同的编码器(sentence encoder),即将文本转换为高维向量的部分。网络随后对两段文本的特征进行交互,最后完成分类/相似预测。“孪生网络”结构简单,训练稳定,是很多文本任务不错的baseline模型。

孪生网络的具体用途是衡量两个输入文本的相似程度。

例如,现在我们有文本1和2,首先把它们分别输入 sentence encoder 进行特征提取和编码,将输入映射到新的空间得到特征向量u和v;最终通过u、v的拼接组合,经过下游网络来计算文本1和2的相似性。

整个过程有2个值得关注的点:

在训练和测试中,模型的编码器是权重共享的(“孪生”);编码器的选择非常广泛,传统的CNN、RNN和Attention、Transformer都可以

得到特征u、v后,可以直接使用cosine距离、欧式距离得到两个文本的相似度;不过更通用的做法是,基于u和v构建用于匹配两者关系的特征向量,然后用额外的模型学习通用的文本关系映射;毕竟我们的场景不一定只是衡量相似度,可能还有问答、蕴含等复杂任务

‍‍‍‍‍‍‍‍三连体网络‍‍‍‍‍‍‍‍

基于孪生网络,还有人提出了 Triplet network 三连体网络。顾名思义,输入由三部分组成,文本1,和1相似的文本2,和1不相似的文本3。

训练的目标非常朴素,期望让相同类别间的距离尽可能的小,让不同类别间的距离尽可能的大,即减小类内距,增大类间距。

3205d0b2-7c22-11eb-8b86-12bb97331649.jpg

Sentence-BERT

自从2018年底Bert等预训练语言模型横空出世,NLP届的游戏规则某种程度上被大幅更改了。在计算资源允许的条件下,Bert成为解决很多问题的首选。甚至有时候拿Bert跑一跑baseline,发现问题已经解决了十之八九。

但是Bert的缺点也很明显,1.1亿参数量使得推理速度明显比CNN等传统网络慢了不止一个量级,对资源要求更高,也不适合处理某些任务。

例如,从10,000条句子中找到最相似的一对句子,由于可能的组合众多,需要完成49,995,000次推理;在一块现代V100GPU上使用Bert计算,将消耗65小时。

考虑到孪生网络的简洁有效,有没有可能将它和Bert强强联合呢?

当然可以,这正是论文《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》的工作,首次提出了Sentence-Bert模型(以下简称SBert)。

SBert在众多文本匹配工作中(包括语义相似性、推理等)都取得了最优结果。更让人惊讶的是,前文所述的从10,000条句子寻找最相似pair任务,SBert仅需5秒就能完成!

基于BERT的文本匹配

让我们简短回顾此前Bert是怎么处理文本匹配任务的。

常规做法是将匹配转换成二分类任务。输入的两个文本拼接成一个序列(中间用特殊符号“SEP”分割),经过12层或24层Transformer模块编码后,将输出层的字向量取平均或者取“CLS”位置的特征作为句向量,经softmax完成最终分类。

但是论文作者 Nils Reimers 在实验中指出,这样的做法产生的结果并不理想(至少在处理语义检索和聚类问题时是如此),甚至比Glove词向量取平均的效果还差。

基于S-BERT的文本匹配

为了让Bert更好地利用文本信息,作者们在论文中提出了如下的SBert模型。是不是非常眼熟?对,这不就是之前见过的孪生网络嘛!

SBert沿用了孪生网络的结构,文本Encoder部分用同一个Bert来处理。之后,作者分别实验了CLS-token和2种池化策略(Avg-Pooling、Mean-Pooling),对Bert输出的字向量进一步特征提取、压缩,得到u、v。关于u、v整合,作者提供了3种策略:

针对分类任务,将u、v拼接,接入全连接网络,经softmax分类输出;损失函数用交叉熵

直接计算、输出余弦相似度;训练损失函数采用均方根误差

如果输入的是三元组,论文种也给出了相应的损失函数

总的来说,SBert直接用Bert的原始权重初始化,在具体数据集上微调,训练过程和传统Siamse Network差异不大。

但是这种训练方式能让Bert更好的捕捉句子之间的关系,生成更优质的句向量。在测试阶段,SBert直接使用余弦相似度来衡量两个句向量之间的相似度,极大提升了推理速度。

实验为证

作者在7个文本匹配相关的任务中做了对比实验,结果在其中5个任务上,SBert都有更优表现。

337dcd46-7c22-11eb-8b86-12bb97331649.png

作者还做了一些有趣的消融实验。

使用NLI和STS为代表的匹配数据集,在分类目标函数训练时,作者测试了不同的整合策略,结果显示“(u, v, |u-v|)”的组合效果最好。这里面最重要的部分是元素差:(|u - v|)。句向量之间的差异度量了两个句子嵌入维度间的距离,确保相似的pair更近,不同的pair更远。

3407bb96-7c22-11eb-8b86-12bb97331649.png

文章最后,作者将SBert和传统方‍‍‍‍法做了对比。

343b97fe-7c22-11eb-8b86-12bb97331649.jpg

SBert的计算效率要更高。其中的smart-batching是一个小技巧。先将输入的文本按长度排序,这样同一个mini-batch的文本长度更加统一,padding时能显著减少填充的token。

线下实测

我们将SBert模型在天池—新冠疫情相似句对判定比赛数据集上做了测试。经数据增强后,线下训练集和验证集分别是13,500和800条句子组合。预训练模型权重选择BERT_large。

最终SBert单模型在验证集上的准确率是95.7%。直接使用Bert微调准确率为95.2%。

小结

本文介绍了文本匹配任务中常用的孪生网络,和在此基础上改进而来的Sentence-BERT模型。

Siamse Network 简洁的设计和平稳高效训练非常适合作为文本匹配任务的baseline模型。SBert则充分利用了孪生网络的优点和预训练模型的特征抽取优势,在众多匹配任务上取得了最优结果。

抛开具体任务,SBert 可以帮助我们生成更好的句向量,在一些任务上可能产生更优结果。在推理阶段,SBert直接计算余弦相似度的方式,大大缩短了预测时间,在语义检索、信息搜索等任务中预计会有不错表现。同时,得益于生成的高质量句嵌入特征,SBert也非常适合做文本聚类、新FAQ发现等工作。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2699

    浏览量

    47655
  • 数据集
    +关注

    关注

    4

    文章

    1176

    浏览量

    24336
  • 文本
    +关注

    关注

    0

    文章

    118

    浏览量

    16917

原文标题:文本匹配利器:从孪生网络到Sentence-BERT综述

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    浅谈基于数字孪生的配电室关键技术研究

    ,基于实际数据,建立了一个具有较强拟合性的数字孪生模型,并对模型进行了模拟和分析。如果得到的结果与需要相匹配,那么就可以使用这个数字孪生体,对其进行辅助决策,从而有助于实现改善产品设计、提高生产效率等生产
    发表于 01-09 15:49

    《Linux常用命令自学手册》+Linux简单指令笔记

    : cat是一个在Unix和类Unix操作系统中常用的命令行工具,用于显示、合并或复制文本文件的内容。它是一个相对简单的命令,但在处理文本文件时非常有用。 以下是cat命令的一些常见用法: 显示文件内容
    发表于 01-05 08:44

    信观察 | 网络数字孪生如何花式“整活儿”?

    孪生),正是“高度自智”的一大关键技术点。 观看视频,进入数字孪生的奇妙世界 作为通信行业的领导者,爱立信始终在思考: 如何利用数字孪生技术更好地连接虚拟和现实,为面向未来的自动化网络
    的头像 发表于 12-04 16:05 525次阅读
    信观察 | <b class='flag-5'>网络</b>数字<b class='flag-5'>孪生</b>如何花式“整活儿”?

    vlookup函数能匹配文本

    VLOOKUP函数是Excel中常用的一种查找函数,它主要用于在一个表格或区域范围内查找某个值,并返回该值所在行或列的相关数据。VLOOKUP函数的第一个参数是要查找的值,第二个参数是查找范围
    的头像 发表于 12-01 10:36 6051次阅读

    阻抗匹配网络有L型、派型、T型,各有什么优缺点?

    阻抗匹配网络有L型、派型、T型,各有什么优缺点? 阻抗匹配网络有L型、派型、T型,这些网络用于匹配
    的头像 发表于 10-22 14:25 4119次阅读

    gvim中常用的一些指令介绍

    在 Vim 编辑器中,有一些常用的指令可以帮助我们更高效地编辑文本。以下是一些在 gvim 中常用的指令
    的头像 发表于 10-10 15:47 870次阅读

    伺服电机中常用的绝缘材料介绍

    伺服电机中常用的绝缘材料,按其耐热能力可分为A、B、C、H、F和E等级
    发表于 10-07 18:27 429次阅读

    列举一些C语言中常用的宏定义

    写好C语言,使用宏定义可以防止出错,提高可移植性、可读性等。下文列举一些成熟软件中常用的宏定义。
    发表于 10-07 10:54 218次阅读
    列举一些C语言<b class='flag-5'>中常用</b>的宏定义

    物联网中常用的传感器有哪些

    物联网中常用的传感器有哪些 随着科技的快速发展,物联网已经成为人们日常生活中不可或缺的一部分。在物联网中,传感器是非常关键的元素之一,它们可以感知、测量和收集环境中的各种参数,比如温度、湿度、光线
    的头像 发表于 09-08 11:23 3339次阅读

    Linux中常用的MySQL运维脚本

    在Linux中,使用MySQL进行常见的运维任务时,可以编写一些脚本来简化操作。以下是一些常用的MySQL运维脚本,希望对你的工作有所帮助。
    发表于 09-07 09:49 351次阅读

    FPGA中常用的存储器资源

    本文主要介绍FPGA中常用的RAM、ROM、CAM、SRAM、DRAM、FLASH等资源,包括特性、工作原理、应用场景等。
    发表于 08-15 15:41 1408次阅读

    C++中常用关键字详解(1)

    以然。因此,在平时和小伙伴们聊天时,在谈到学习技术方面的问题,我会告诉他们注重基本功。所以,最近文章会总结一些日常编程工作中常用的重要基本知识点,根据平时工作中常用的也是重要的知识点逐步展开。
    发表于 08-08 16:15 141次阅读

    Linux系统中的10个常用文本查看命令

    当你需要查看Linux系统中的文本文件时,使用文本编辑器可能会比较繁琐,特别是当你只需要查看文件的内容时。这时,你可以使用Linux命令行下的文本查看工具来快速准确地查看文件。下面介绍了10个
    的头像 发表于 06-24 11:44 9547次阅读

    100个数字IC设计中常用的缩写或术语

    下面为大家收集了100个数字IC设计中常用的缩写或术语,供大家参考,为初学者门的学习添砖加瓦。
    发表于 06-20 12:43 623次阅读

    Linux中常用的6种SSH身份验证方法

    SSH(Secure Shell)是一种网络协议,用于在不安全的网络上安全地运行网络服务。在 Linux 中,SSH 是一种常用的远程访问工具,它可以让用户在远程服务器上执行命令,上传
    的头像 发表于 05-12 14:42 2486次阅读