0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于文本匹配的破城长矛

深度学习自然语言处理 来源:CS的陋室 作者:CS的陋室 2021-03-31 17:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

搜索也好,检索式对话也好,文本是一个很难绕开的话题,虽然语义是一个重要因素,用语义相似度直接梭,但是用户的感知可不是如此,很多用户的感知更多是文本层面的相似要高于语义相似,或者说,遇到语义相似和文本相似的时候会更优先接受文本相似,毕竟文本使用户能直接看到的,当然语义相似度虽好,但是对于没有什么标注数据的情况,也是束手无策吧。

所以,即使语义相似度如火如荼地发展着,文本层面的匹配依旧是项目实践中不可避免的关注点。

cqr&ctr概念

cqr和ctr的概念还是比较清晰明确的。

给定query和title,现在计算cqr和ctr。

讲完了,就是这么简单,其实就是看两者交集占query的占比和占title的占比,就是对应的cqr和ctr。

当然,由于这种计算会把所有词的重要性考虑进去,例如“怎么做作业”分别和“怎样做作业”、“怎么做手机”,两个的相似度就一样了,此时就要考虑到给每个词加点权重,这样能更好地描述,这就是一个优化的实用版本,加权

给定query,有对应的权重和title,以及对应权重,现在计算cqr和ctr:

想到可能会有人问到权重怎么来,这里我就要把我的历史文章放出来了,之前是专门讲过词权重的问题的:NLP.TM[20] | 词权重问题

这个应该就是我自己平时用的版本了,而且屡试不爽。

而如果是要分析两个句子综合、无偏的相似度,只要相乘就好了:

细品

可以看到,这个东西很简单,就是一个基于统计计算的工具,但是我依然想仔细讨论一下这个东西。

首先,有关相似度,其实我们很容易想到这个计算方法:

就是比较著名的jaccard相似度,当然还有一个更加出名的方法,那就是BM25(更为常见,此处就不赘述了)。但是我并没有选择,为什么呢,其实核心就是1个点:

query和title的长度信息。

jaccard距离虽然能比较综合、无偏向性地计算两者的相似度,但问题是,当query和title长度计算差距很大的时候,计算准确性就会受到影响,而分成两个指标,则能够充分表现两者的相似性,当然具体用哪种其实还是要看具体场景的,有的时候这种无偏向性对效果优化还是有用的,但是有的时候其实会影响最终效果。

来看个例子,query是“我昨天新买的手机,今天怎么就不能开机了”,title是“手机不能开机”,这里可以,ctr无疑就是1,当然cqr就比较低了,但是我们可以用ctr作为后续的排序特征或者过滤条件。

优缺点

感觉有些东西想说但是没说出来,直接总结一下这个方案的优缺点吧,以便大家进行方案选择吧,这个优点,是相对于常见的语义相似度模型而言的。

首先说优点:

能够体现文本层面的相似度,在一些领域下体验比较好。

性能比语义相似度模型好很,所以是一个简单轻快的模型。

无监督,词权重的话用语料就可以训练了。

效果稳定可追踪。

当然,还是有缺点的。

文本层面的匹配无法体现语义,同义词、说法之类的无法体现。

对切词敏感,类似“充不进去电”和“充电”就完全匹配不上。

应用

有这些有缺点,其实我们就可以考虑这个相似度该怎么用了:

用于过滤一些肯定不对的答案。

无标注数据下,这个指标可以作为排序的指标,对启动项目挺重要的。

作为排序特征,保证结果在文本层面还是比较接近的。

当然,在一个比较完整的搜索或者是检索式对话的系统里,其实这种文本相似度类的特征还是非常有收益的,结合语义相似度还是会有一些比较稳定的收益。

小结

东西其实不难,却是非常实用的技能,但是在应用的过程中能够想到的人其实很少,但有用的东西我们学起来也挺好。

原文标题:【文本匹配】cqr&ctr:文本匹配的破城长矛

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自然语言处理

    关注

    1

    文章

    629

    浏览量

    14563
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23191

原文标题:【文本匹配】cqr&ctr:文本匹配的破城长矛

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    关于一款SQ805加热壁机无法启动的维修

    壁机故障,开机指示灯全亮,复位正常,然后按选择也正常再按启动没有反映,无法启动。拆开检查电源正常,温度传感器正常,就是无法进入工作状态,把控制电路板单独拆下来,发现控制芯片与按键以及LED在一块板
    发表于 11-03 14:40

    激光焊接技术在焊接壁机底座工艺中的应用

    壁机底座作为承载高速电机与刀组的关键结构件,其焊接质量直接影响整机运行的稳定性、噪音控制及使用寿命。面对食品接触级不锈钢材料的加工要求以及复杂曲面结构的密封挑战,激光焊接技术凭借其高精度、低变形
    的头像 发表于 10-20 16:26 381次阅读
    激光焊接技术在焊接<b class='flag-5'>破</b>壁机底座工艺中的应用

    科普:无源晶振的电容匹配与问题

    匹配电容并不是绝对的或者固定值,无源晶振的匹配电容一般最好选择两个一样电容,在很多的方案设计中一般常用的电容有12pF、15pF、22pPF、33pF等,大致都是一个20pF量级。
    的头像 发表于 08-29 11:27 1790次阅读
    科普:无源晶振的电容<b class='flag-5'>匹配</b>与问题

    洲明科技一体化光显解决方案落地深圳大悦

    近日,备受瞩目的湾区首座大悦项目——深圳大悦盛大启幕,以42万人次的惊人客流量、近2000万元的首日销售额(不含Apple与汽车品类),一跃登顶大众点评购物热门榜TOP1,刷新深圳商业开业热度纪录。
    的头像 发表于 07-30 10:26 761次阅读

    飞书富文本组件库RichTextVista开源

    近日,飞书正式将其自研的富文本组件库 RichTextVista(简称“RTV”)开源,并上线OpenHarmony 三方库中心仓。该组件以领先的性能、流畅的渲染体验与高度的开放性,为鸿蒙生态提供了更高效的富文本解决方案。
    的头像 发表于 07-16 16:47 758次阅读

    飞书开源“RTV”富文本组件 重塑鸿蒙应用富文本渲染体验

    近日,飞书正式将其自研的富文本组件库 RichTextVista(简称“RTV”)开源,并上线OpenHarmony 三方库中心仓。该组件以领先的性能、流畅的渲染体验与高度的开放性,为鸿蒙生态提供了
    的头像 发表于 07-11 15:20 452次阅读
    飞书开源“RTV”富<b class='flag-5'>文本</b>组件 重塑鸿蒙应用富<b class='flag-5'>文本</b>渲染体验

    双工不匹配如何修复它

    修复双工不匹配问题可通过以下步骤进行: 检查并统一双工设置:使用show interfaces(Cisco设备)或display interface brief(华为设备)等命令查看接口的双工状态
    的头像 发表于 07-02 09:46 401次阅读

    科学集团与海康威视达成战略合作

    近日,科学(广州)投资集团有限公司(以下简称“科学集团”)与海康威视举行战略合作协议签署仪式。科学集团党委副书记、总经理林晓锋,海康威视高级副总裁、国内营销中心总经理郭旭东出席签约仪式。科学
    的头像 发表于 05-26 17:20 995次阅读

    基于LockAI视觉识别模块:C++多模板匹配

    多模板匹配是一种在图像中同时寻找多个模板的技术。通过对每个模板逐一进行匹配,找到与输入图像最相似的区域,并标记出匹配度最高的结果。本实验提供了一个简单的多模板匹配案例,并将其封装为一个
    的头像 发表于 05-14 14:37 1335次阅读
    基于LockAI视觉识别模块:C++多模板<b class='flag-5'>匹配</b>

    蔚来与未来科学集团计划共建100座绿色能源换电站

    近日,蔚来与北京未来科学发展集团有限公司(下称“未来科学集团”)在北京签署战略合作协议,将围绕新能源汽车创新、服务生态构建及绿色能源换电网络建设展开深度合作。
    的头像 发表于 03-27 16:10 755次阅读

    把树莓派打造成识别文本的“神器”!

    在许多项目中,RaspberryPi被用作监控摄像头或执行机器学习任务。在这些场景中,图像中经常包含应用程序感兴趣的文本信息。我们希望提取这些信息并将其转换,以便通过程序分析文本
    的头像 发表于 03-25 09:30 754次阅读
    把树莓派打造成识别<b class='flag-5'>文本</b>的“神器”!

    科技:比亚迪全系智驾战略助力公司业务增长

    近日,在互动平台上,珠科技对外透露了与比亚迪的合作关系及其对公司业务的积极影响。据珠科技表示,自2020年起,公司便正式成为比亚迪的供应商,并在此后的时间里,持续为比亚迪提供多款高质量的产品
    的头像 发表于 02-19 09:30 878次阅读

    电源滤波器的阻抗匹配问题:源阻抗和负载阻抗不匹配时的优化策略

    在电子设备中,电源滤波器的性能受到源阻抗和负载阻抗不匹配的影响。谐振现象可能导致电感和电容元件形成共振回路,影响滤波器的滤波效果和电路元件的稳定性。优化滤波器设计采用 L 型匹配网络,T 型和 Π 型匹配网络。
    的头像 发表于 02-10 11:02 1217次阅读
    电源滤波器的阻抗<b class='flag-5'>匹配</b>问题:源阻抗和负载阻抗不<b class='flag-5'>匹配</b>时的优化策略

    如何用单片ADC和DAC去匹配改善电路呢?

    我看了很多贵公司关于ADC和DAC改善的电路,比如在ADC采样前加电容电阻,DAC输出再加些电路什么的。那如果我用一些单片机或FPGA等片内的ADC和DAC又该如何该像你们所说的单片ADC和DAC一样去匹配改善电路呢?
    发表于 02-06 08:25

    Linux三剑客之Sed:文本处理神器

    关于linux三剑客 grep,过滤关键字信息数据。主要是用于查文本内的数据 sed ,对文本数据进行编辑,修改原文件内容 awk,对文件数据过滤,提取,并且能实现,格式化输出 awk对文
    的头像 发表于 12-16 15:58 1122次阅读
    Linux三剑客之Sed:<b class='flag-5'>文本</b>处理神器