0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

关于文本匹配的破城长矛

深度学习自然语言处理 来源:CS的陋室 作者:CS的陋室 2021-03-31 17:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

搜索也好,检索式对话也好,文本是一个很难绕开的话题,虽然语义是一个重要因素,用语义相似度直接梭,但是用户的感知可不是如此,很多用户的感知更多是文本层面的相似要高于语义相似,或者说,遇到语义相似和文本相似的时候会更优先接受文本相似,毕竟文本使用户能直接看到的,当然语义相似度虽好,但是对于没有什么标注数据的情况,也是束手无策吧。

所以,即使语义相似度如火如荼地发展着,文本层面的匹配依旧是项目实践中不可避免的关注点。

cqr&ctr概念

cqr和ctr的概念还是比较清晰明确的。

给定query和title,现在计算cqr和ctr。

讲完了,就是这么简单,其实就是看两者交集占query的占比和占title的占比,就是对应的cqr和ctr。

当然,由于这种计算会把所有词的重要性考虑进去,例如“怎么做作业”分别和“怎样做作业”、“怎么做手机”,两个的相似度就一样了,此时就要考虑到给每个词加点权重,这样能更好地描述,这就是一个优化的实用版本,加权

给定query,有对应的权重和title,以及对应权重,现在计算cqr和ctr:

想到可能会有人问到权重怎么来,这里我就要把我的历史文章放出来了,之前是专门讲过词权重的问题的:NLP.TM[20] | 词权重问题

这个应该就是我自己平时用的版本了,而且屡试不爽。

而如果是要分析两个句子综合、无偏的相似度,只要相乘就好了:

细品

可以看到,这个东西很简单,就是一个基于统计计算的工具,但是我依然想仔细讨论一下这个东西。

首先,有关相似度,其实我们很容易想到这个计算方法:

就是比较著名的jaccard相似度,当然还有一个更加出名的方法,那就是BM25(更为常见,此处就不赘述了)。但是我并没有选择,为什么呢,其实核心就是1个点:

query和title的长度信息。

jaccard距离虽然能比较综合、无偏向性地计算两者的相似度,但问题是,当query和title长度计算差距很大的时候,计算准确性就会受到影响,而分成两个指标,则能够充分表现两者的相似性,当然具体用哪种其实还是要看具体场景的,有的时候这种无偏向性对效果优化还是有用的,但是有的时候其实会影响最终效果。

来看个例子,query是“我昨天新买的手机,今天怎么就不能开机了”,title是“手机不能开机”,这里可以,ctr无疑就是1,当然cqr就比较低了,但是我们可以用ctr作为后续的排序特征或者过滤条件。

优缺点

感觉有些东西想说但是没说出来,直接总结一下这个方案的优缺点吧,以便大家进行方案选择吧,这个优点,是相对于常见的语义相似度模型而言的。

首先说优点:

能够体现文本层面的相似度,在一些领域下体验比较好。

性能比语义相似度模型好很,所以是一个简单轻快的模型。

无监督,词权重的话用语料就可以训练了。

效果稳定可追踪。

当然,还是有缺点的。

文本层面的匹配无法体现语义,同义词、说法之类的无法体现。

对切词敏感,类似“充不进去电”和“充电”就完全匹配不上。

应用

有这些有缺点,其实我们就可以考虑这个相似度该怎么用了:

用于过滤一些肯定不对的答案。

无标注数据下,这个指标可以作为排序的指标,对启动项目挺重要的。

作为排序特征,保证结果在文本层面还是比较接近的。

当然,在一个比较完整的搜索或者是检索式对话的系统里,其实这种文本相似度类的特征还是非常有收益的,结合语义相似度还是会有一些比较稳定的收益。

小结

东西其实不难,却是非常实用的技能,但是在应用的过程中能够想到的人其实很少,但有用的东西我们学起来也挺好。

原文标题:【文本匹配】cqr&ctr:文本匹配的破城长矛

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 自然语言处理

    关注

    1

    文章

    630

    浏览量

    14721
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23345

原文标题:【文本匹配】cqr&ctr:文本匹配的破城长矛

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    于湾区芯,铸精“芯”根基 | 众阳电路多层pcb厂家

    ,产品广泛应用于通讯、工业控制、医疗、航空航天及汽车电子等领域,与“湾区芯”的主导产业方向深度匹配。   有一种底气叫“扎根实业”,有一种担当叫“助力发展”!深耕燕罗,不负热土!深圳市众阳电路科技有限公司凭借多年
    的头像 发表于 04-22 17:17 905次阅读
    于湾区芯<b class='flag-5'>城</b>,铸精“芯”根基 | 众阳电路多层pcb厂家

    启动屏幕的文本被模糊化,怎么处理?

    谁能帮我解决这个问题吗?启动屏幕的文本被模糊化。但在登录页面上,这是正常的。 谁能帮我吗?
    发表于 03-30 07:46

    MTR Lab与中关村科学公司建立生态合作伙伴关系

    MTR Lab Company Limited(简称 "MTR Lab", 为港铁公司全资子公司)与北京中关村科学创新发展有限公司(简称"中关村科学公司")宣布建立生态合作伙伴关系。
    的头像 发表于 03-19 16:35 300次阅读

    云汉芯与RECOM达成战略合作

    近日,云汉芯(股票代码:301563)与全球知名创新型全栈电源解决方案提供商RECOM达成合作,成为RECOM大中华区首家线上代理平台!双方以“芯电共融,智驱未来”为主题,隆重举行合作签约仪式。
    的头像 发表于 02-06 14:40 732次阅读

    Linux Shell文本处理神器合集:15个工具+实战例子,效率直接翻倍

    在 Linux 系统中,文本是数据交互的 “通用语言”—— 日志文件、配置文件、数据报表、程序输出几乎都以文本形式存在。手动编辑文本不仅繁琐,还容易出错,而掌握 Shell 文本处理工
    的头像 发表于 02-03 15:42 2731次阅读
    Linux Shell<b class='flag-5'>文本</b>处理神器合集:15个工具+实战例子,效率直接翻倍

    详解DBC的Signal与JSON文本结合

    为了优化CAN数据发送与接收的操作流程,更改以前手动输入状态对应数据的模式,采用下拉列表选择内容,但这需要用到超出DBC原有承载能力的信息。因此,将JSON与其结合,采用JSON格式文本写入Signal的Comment属性,将Comment属性的字符串通过JSON文本拓展
    的头像 发表于 01-06 10:57 424次阅读
    详解DBC的Signal与JSON<b class='flag-5'>文本</b>结合

    频谱分析仪与电压探头匹配指南

    如何实现频谱分析仪与电压探头的精准匹配?核心逻辑可概括为“三对齐一适配”——参数对齐、接口对齐、设置对齐+场景适配,最终目标是规避信号反射、衰减与失真问题,确保测量数据(幅度、频率、波形)的准确性
    的头像 发表于 12-29 14:51 551次阅读
    频谱分析仪与电压探头<b class='flag-5'>匹配</b>指南

    关于一款SQ805加热壁机无法启动的维修

    壁机故障,开机指示灯全亮,复位正常,然后按选择也正常再按启动没有反映,无法启动。拆开检查电源正常,温度传感器正常,就是无法进入工作状态,把控制电路板单独拆下来,发现控制芯片与按键以及LED在一块板
    发表于 11-03 14:40

    激光焊接技术在焊接壁机底座工艺中的应用

    壁机底座作为承载高速电机与刀组的关键结构件,其焊接质量直接影响整机运行的稳定性、噪音控制及使用寿命。面对食品接触级不锈钢材料的加工要求以及复杂曲面结构的密封挑战,激光焊接技术凭借其高精度、低变形
    的头像 发表于 10-20 16:26 663次阅读
    激光焊接技术在焊接<b class='flag-5'>破</b>壁机底座工艺中的应用

    洲明科技一体化光显解决方案落地深圳大悦

    近日,备受瞩目的湾区首座大悦项目——深圳大悦盛大启幕,以42万人次的惊人客流量、近2000万元的首日销售额(不含Apple与汽车品类),一跃登顶大众点评购物热门榜TOP1,刷新深圳商业开业热度纪录。
    的头像 发表于 07-30 10:26 1095次阅读

    飞书富文本组件库RichTextVista开源

    近日,飞书正式将其自研的富文本组件库 RichTextVista(简称“RTV”)开源,并上线OpenHarmony 三方库中心仓。该组件以领先的性能、流畅的渲染体验与高度的开放性,为鸿蒙生态提供了更高效的富文本解决方案。
    的头像 发表于 07-16 16:47 1150次阅读

    飞书开源“RTV”富文本组件 重塑鸿蒙应用富文本渲染体验

    近日,飞书正式将其自研的富文本组件库 RichTextVista(简称“RTV”)开源,并上线OpenHarmony 三方库中心仓。该组件以领先的性能、流畅的渲染体验与高度的开放性,为鸿蒙生态提供了
    的头像 发表于 07-11 15:20 785次阅读
    飞书开源“RTV”富<b class='flag-5'>文本</b>组件 重塑鸿蒙应用富<b class='flag-5'>文本</b>渲染体验

    双工不匹配如何修复它

    修复双工不匹配问题可通过以下步骤进行: 检查并统一双工设置:使用show interfaces(Cisco设备)或display interface brief(华为设备)等命令查看接口的双工状态
    的头像 发表于 07-02 09:46 763次阅读

    科学集团与海康威视达成战略合作

    近日,科学(广州)投资集团有限公司(以下简称“科学集团”)与海康威视举行战略合作协议签署仪式。科学集团党委副书记、总经理林晓锋,海康威视高级副总裁、国内营销中心总经理郭旭东出席签约仪式。科学
    的头像 发表于 05-26 17:20 1286次阅读

    基于LockAI视觉识别模块:C++多模板匹配

    多模板匹配是一种在图像中同时寻找多个模板的技术。通过对每个模板逐一进行匹配,找到与输入图像最相似的区域,并标记出匹配度最高的结果。本实验提供了一个简单的多模板匹配案例,并将其封装为一个
    的头像 发表于 05-14 14:37 1753次阅读
    基于LockAI视觉识别模块:C++多模板<b class='flag-5'>匹配</b>