0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

文本匹配任务中常用的孪生网络

深度学习自然语言处理 来源:NLP情报局 作者:NLP情报局 2021-03-05 15:47 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

文本匹配是自然语言处理领域一个基础且重要的方向,一般研究两段文本之间的关系。文本相似度、自然语言推理、问答系统、信息检索都可以看作针对不同数据和场景的文本匹配应用。

本文总结了文本匹配任务中的经典网络Siamse Network,它和近期预训练语言模型的组合,一些调优技巧以及在线下数据集上的效果检验。

Siamese 孪生网络

在正式介绍前,我们先来看一个有趣的故事。

孪生网络的由来

“Siamese”中的“Siam”是古时泰国的称呼,中文译作暹罗,所以“Siamese”就是指“暹罗”人或“泰国”人。“Siamese”在英语中同时表示“孪生”,这又是为什么呢?

十九世纪,泰国出生了一对连体婴儿“恩”和“昌”,当时的医学技术无法使他们分离出来,于是两人顽强地生活了一生。

1829年他们被英国商人发现,进入马戏团,在全世界各地演出。1839年他们访问美国北卡罗莱那州成为“玲玲马戏团” 的台柱,最后成为美国公民。1843年4月13日跟英国一对姐妹结婚,恩生了10个小孩,昌生了12个。1874年,两人因病均于63岁离开了人间。他们的肝至今仍保存在费城的马特博物馆内。

从此之后,“暹罗双胞胎”(Siamese twins)就成了连体人的代名词,也因为这对双胞胎全世界开始重视这项特殊疾病。

孪生网络

由于结构具有鲜明的对称性,就像两个孪生兄弟,所以下图这种神经网络结构被研究人员称作“Siamese Network”,即孪生网络。

其中最能体现“孪生”的地方,在于网络具有相同的编码器(sentence encoder),即将文本转换为高维向量的部分。网络随后对两段文本的特征进行交互,最后完成分类/相似预测。“孪生网络”结构简单,训练稳定,是很多文本任务不错的baseline模型。

孪生网络的具体用途是衡量两个输入文本的相似程度。

例如,现在我们有文本1和2,首先把它们分别输入 sentence encoder 进行特征提取和编码,将输入映射到新的空间得到特征向量u和v;最终通过u、v的拼接组合,经过下游网络来计算文本1和2的相似性。

整个过程有2个值得关注的点:

在训练和测试中,模型的编码器是权重共享的(“孪生”);编码器的选择非常广泛,传统的CNN、RNN和Attention、Transformer都可以

得到特征u、v后,可以直接使用cosine距离、欧式距离得到两个文本的相似度;不过更通用的做法是,基于u和v构建用于匹配两者关系的特征向量,然后用额外的模型学习通用的文本关系映射;毕竟我们的场景不一定只是衡量相似度,可能还有问答、蕴含等复杂任务

‍‍‍‍‍‍‍‍三连体网络‍‍‍‍‍‍‍‍

基于孪生网络,还有人提出了 Triplet network 三连体网络。顾名思义,输入由三部分组成,文本1,和1相似的文本2,和1不相似的文本3。

训练的目标非常朴素,期望让相同类别间的距离尽可能的小,让不同类别间的距离尽可能的大,即减小类内距,增大类间距。

3205d0b2-7c22-11eb-8b86-12bb97331649.jpg

Sentence-BERT

自从2018年底Bert等预训练语言模型横空出世,NLP届的游戏规则某种程度上被大幅更改了。在计算资源允许的条件下,Bert成为解决很多问题的首选。甚至有时候拿Bert跑一跑baseline,发现问题已经解决了十之八九。

但是Bert的缺点也很明显,1.1亿参数量使得推理速度明显比CNN等传统网络慢了不止一个量级,对资源要求更高,也不适合处理某些任务。

例如,从10,000条句子中找到最相似的一对句子,由于可能的组合众多,需要完成49,995,000次推理;在一块现代V100GPU上使用Bert计算,将消耗65小时。

考虑到孪生网络的简洁有效,有没有可能将它和Bert强强联合呢?

当然可以,这正是论文《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》的工作,首次提出了Sentence-Bert模型(以下简称SBert)。

SBert在众多文本匹配工作中(包括语义相似性、推理等)都取得了最优结果。更让人惊讶的是,前文所述的从10,000条句子寻找最相似pair任务,SBert仅需5秒就能完成!

基于BERT的文本匹配

让我们简短回顾此前Bert是怎么处理文本匹配任务的。

常规做法是将匹配转换成二分类任务。输入的两个文本拼接成一个序列(中间用特殊符号“SEP”分割),经过12层或24层Transformer模块编码后,将输出层的字向量取平均或者取“CLS”位置的特征作为句向量,经softmax完成最终分类。

但是论文作者 Nils Reimers 在实验中指出,这样的做法产生的结果并不理想(至少在处理语义检索和聚类问题时是如此),甚至比Glove词向量取平均的效果还差。

基于S-BERT的文本匹配

为了让Bert更好地利用文本信息,作者们在论文中提出了如下的SBert模型。是不是非常眼熟?对,这不就是之前见过的孪生网络嘛!

SBert沿用了孪生网络的结构,文本Encoder部分用同一个Bert来处理。之后,作者分别实验了CLS-token和2种池化策略(Avg-Pooling、Mean-Pooling),对Bert输出的字向量进一步特征提取、压缩,得到u、v。关于u、v整合,作者提供了3种策略:

针对分类任务,将u、v拼接,接入全连接网络,经softmax分类输出;损失函数用交叉熵

直接计算、输出余弦相似度;训练损失函数采用均方根误差

如果输入的是三元组,论文种也给出了相应的损失函数

总的来说,SBert直接用Bert的原始权重初始化,在具体数据集上微调,训练过程和传统Siamse Network差异不大。

但是这种训练方式能让Bert更好的捕捉句子之间的关系,生成更优质的句向量。在测试阶段,SBert直接使用余弦相似度来衡量两个句向量之间的相似度,极大提升了推理速度。

实验为证

作者在7个文本匹配相关的任务中做了对比实验,结果在其中5个任务上,SBert都有更优表现。

337dcd46-7c22-11eb-8b86-12bb97331649.png

作者还做了一些有趣的消融实验。

使用NLI和STS为代表的匹配数据集,在分类目标函数训练时,作者测试了不同的整合策略,结果显示“(u, v, |u-v|)”的组合效果最好。这里面最重要的部分是元素差:(|u - v|)。句向量之间的差异度量了两个句子嵌入维度间的距离,确保相似的pair更近,不同的pair更远。

3407bb96-7c22-11eb-8b86-12bb97331649.png

文章最后,作者将SBert和传统方‍‍‍‍法做了对比。

343b97fe-7c22-11eb-8b86-12bb97331649.jpg

SBert的计算效率要更高。其中的smart-batching是一个小技巧。先将输入的文本按长度排序,这样同一个mini-batch的文本长度更加统一,padding时能显著减少填充的token。

线下实测

我们将SBert模型在天池—新冠疫情相似句对判定比赛数据集上做了测试。经数据增强后,线下训练集和验证集分别是13,500和800条句子组合。预训练模型权重选择BERT_large。

最终SBert单模型在验证集上的准确率是95.7%。直接使用Bert微调准确率为95.2%。

小结

本文介绍了文本匹配任务中常用的孪生网络,和在此基础上改进而来的Sentence-BERT模型。

Siamse Network 简洁的设计和平稳高效训练非常适合作为文本匹配任务的baseline模型。SBert则充分利用了孪生网络的优点和预训练模型的特征抽取优势,在众多匹配任务上取得了最优结果。

抛开具体任务,SBert 可以帮助我们生成更好的句向量,在一些任务上可能产生更优结果。在推理阶段,SBert直接计算余弦相似度的方式,大大缩短了预测时间,在语义检索、信息搜索等任务中预计会有不错表现。同时,得益于生成的高质量句嵌入特征,SBert也非常适合做文本聚类、新FAQ发现等工作。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3819

    浏览量

    52274
  • 数据集
    +关注

    关注

    4

    文章

    1240

    浏览量

    26261
  • 文本
    +关注

    关注

    0

    文章

    120

    浏览量

    17915

原文标题:文本匹配利器:从孪生网络到Sentence-BERT综述

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    千兆网络变压器选型实战:从PoE等级到PHY匹配的完整技术手册

    随着工业以太网、安防监控、光伏储能、无线AP等场景全面铺开,千兆网络变压器已成为硬件设计中不可或缺的关键器件。然而,很多工程师在选型时容易忽略三个核心问题: PoE等级不匹配 → 供电不稳,设备掉电
    发表于 04-16 08:44

    千兆网络变压器选型实战指南:PoE等级、封装温度与PHY芯片匹配要点

    随着千兆以太网在工业交换机、PoE摄像头、无线AP、光伏逆变器等场景的全面普及,千兆网络变压器已成为硬件设计中不可或缺的关键器件。然而,很多工程师在选型时容易忽略:PoE等级不匹配会导致供电不稳
    发表于 04-15 08:58

    新思科技推出电子数字孪生平台

    几十年来,数字孪生在机械及其他物理系统的设计和生命周期管理中发挥着日益重要的作用。如今,随着硅芯片与软件日益成为产品核心功能的决定性因素,这一范式正演变为一种新形态:电子数字孪生(eDTs)。
    的头像 发表于 03-19 17:50 2101次阅读
    新思科技推出电子数字<b class='flag-5'>孪生</b>平台

    SGM9100 四匹配电阻网络:高精度应用的理想之选

    SGM9100 四匹配电阻网络:高精度应用的理想之选 在电子设计领域,高精度电阻的匹配性对于许多电路的性能起着至关重要的作用。今天,我们就来深入探讨一下 SGMICRO 公司推出的 SGM9100
    的头像 发表于 03-18 11:35 242次阅读

    SGM9100X 四匹配电阻网络:高精度应用的理想之选

    SGM9100X 四匹配电阻网络:高精度应用的理想之选 在电子设计领域,电阻网络的性能对于许多高精度应用至关重要。今天,我们就来深入了解一下 SGMICRO 推出的 SGM9100X 四匹配
    的头像 发表于 03-18 11:35 251次阅读

    PCB中常用的快捷键

    ● R+L 输出PCB中所有网络的布线长度 ● Ctrl+左键点击 对正在布的线完成自动布线连接 ● M+G 可更改铜的形状; ● 按P+T在布线状态下,按Shift+A可直接进行蛇线走线
    发表于 01-30 06:01

    vivado中常用时序约束指令介绍

    在vivado中,我们常用的时序约束指令主要包括如下几个方面。
    的头像 发表于 01-20 16:15 636次阅读

    LT5400:高性能四匹配电阻网络的卓越之选

    LT5400:高性能四匹配电阻网络的卓越之选 在电子设计领域,电阻网络的性能对于众多电路的精确运行起着关键作用。今天,我们就来深入了解一下 Linear Technology 公司的 LT5400
    的头像 发表于 01-15 15:15 347次阅读

    声表面波滤波器的使用和匹配

    射频中常用的声表面滤波器该如何匹配应用?
    的头像 发表于 11-21 15:37 2248次阅读
    声表面波滤波器的使用和<b class='flag-5'>匹配</b>

    科普:无源晶振的电容匹配与问题

    匹配电容并不是绝对的或者固定值,无源晶振的匹配电容一般最好选择两个一样电容,在很多的方案设计中一般常用的电容有12pF、15pF、22pPF、33pF等,大致都是一个20pF量级。
    的头像 发表于 08-29 11:27 2174次阅读
    科普:无源晶振的电容<b class='flag-5'>匹配</b>与问题

    光伏电站中数字孪生技术的应用

    物联网、三维建模与可视化、边缘计算与5G通信以及仿真与数字孪生引擎等多种核心技术的综合应用,显著提升电站的智能化管理水平。 物联网技术通过部署如光照、温湿度等传感器网络,实时采集设备状态和环境数据,如光伏板温
    的头像 发表于 08-13 09:42 1162次阅读
    光伏电站中数字<b class='flag-5'>孪生</b>技术的应用

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    学习、大规模数据分析等前沿技术。DeepSeek-R1具备卓越的逻辑推理、多模态分析(文本/图像/语音)和实时交互能力,能够高效处理代码生成、复杂问题求解、跨模态学习等高阶任务。凭借其开源、高效、多
    发表于 07-16 15:29

    研磨盘在哪些工艺中常用

    研磨盘在多种工艺中都是不可或缺的工具,主要用于实现工件表面的高精度加工和成形。以下是研磨盘常用的工艺领域及具体应用: ‌ 一、半导体制造工艺 ‌ ‌ 晶圆减薄与抛光 ‌ 用于硅、碳化硅等半导体晶圆
    的头像 发表于 07-12 10:13 1324次阅读

    飞书开源“RTV”富文本组件 重塑鸿蒙应用富文本渲染体验

    近日,飞书正式将其自研的富文本组件库 RichTextVista(简称“RTV”)开源,并上线OpenHarmony 三方库中心仓。该组件以领先的性能、流畅的渲染体验与高度的开放性,为鸿蒙生态提供了
    的头像 发表于 07-11 15:20 787次阅读
    飞书开源“RTV”富<b class='flag-5'>文本</b>组件 重塑鸿蒙应用富<b class='flag-5'>文本</b>渲染体验

    Linux常用命令大全

    Linux常用命令是指在Linux操作系统中广泛使用的命令工具,这些命令工具可以完成各种不同的任务,如管理文件和目录、操作进程、网络通信、软件安装等。
    的头像 发表于 05-03 18:08 2045次阅读