0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

评价Python字符串相似度的六种度量方法

汽车玩家 来源:今日头条 作者:我爱学Python 2020-01-18 17:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

字符串的相似性比较应用场合很多,像拼写纠错、文本去重、上下文相似性等。

评价字符串相似度最常见的办法就是:把一个字符串通过插入、删除或替换这样的编辑操作,变成另外一个字符串,所需要的最少编辑次数,这种就是编辑距离(edit distance)度量方法,也称为Levenshtein距离。海明距离是编辑距离的一种特殊情况,只计算等长情况下替换操作的编辑次数,只能应用于两个等长字符串间的距离度量。

其他常用的度量方法还有 Jaccard distance、J-W距离(Jaro–Winkler distance)、余弦相似性(cosine similarity)、欧氏距离(Euclidean distance)等。

python-Levenshtein 使用

使用 pip install python-Levenshtein 指令安装 Levenshtein

1. difflib

2. hamming距离,str1和str2长度必须一致,描述两个等长字串之间对应位置上不同字符的个数

3. 编辑距离,描述由一个字串转化成另一个字串最少的操作次数,在其中的操作包括 插入、删除、替换

4.计算莱文斯坦比

5.计算jaro距离

6. Jaro–Winkler距离

输出:

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 字符串
    +关注

    关注

    1

    文章

    594

    浏览量

    23038
  • python
    +关注

    关注

    57

    文章

    4857

    浏览量

    89563
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    盘点连接器的六种锁定机构

    六种连接器锁止机构是什么?连接器上有各种锁定机制,包括插销锁、LacthLocking、Lever、推拉式、螺钉和卡入式。这些代表了更常见的样式,但并非详尽无遗。连接器的锁止可以支持多种功能,例如
    的头像 发表于 10-17 08:02 279次阅读
    盘点连接器的<b class='flag-5'>六种</b>锁定机构

    LM3466 多 LED 电流平衡器技术手册

    到电源的数或每个 LED 的正向电压 字符串。 如果任何 LED 灯在运行过程中打开,LM3466 会自动平衡通过所有剩余活动 LED 灯的电源电流。 如 因此,即使一些 LED
    的头像 发表于 08-29 14:27 847次阅读
    LM3466 多<b class='flag-5'>串</b> LED 电流平衡器技术手册

    labview如何生成一个带字符串返回的dll

    labview如何生成一个dll,如下图,要求一个输入,类型是字符串,返回类型也是字符串
    发表于 08-28 23:20

    Python字符串逆序有几种方式,代码是什么

    对于一个给定的字符串,逆序输出,这个任务对于python来说是一很简单的操作,毕竟强大的列表和字符串处理的一些列函数足以应付这些问题 了,今天总结了一下
    的头像 发表于 08-28 14:44 774次阅读

    harmony-utils之StrUtil,字符串工具类

    harmony-utils之StrUtil,字符串工具类 harmony-utils 简介与说明 [harmony-utils] 一款功能丰富且极易上手的HarmonyOS工具库,借助众多实用工具类
    的头像 发表于 07-03 11:32 368次阅读

    STM32C031C6使用的是UART2通讯,通过printf()函数发送字符串时,汉字错码怎么解决?

    使用的是UART2通讯,通过printf()函数发送字符串时,汉字错码(见下图),应该是KEIL哪里没有设置好的问题。 启用了UART2的中断接收,可以接收到串口调试助手的数据,但是缓存区的指针没有归零,下次接收时缓存区中的内容接续(如下图所示),不知道用什么命令来清除缓存区(即让指针归零)。
    发表于 03-07 12:30

    带你探索:运放芯片的六种实用端接策略

    在电子电路中,运放芯片应用广泛。使用集成双运放芯片构建电压跟随器时,常一个运放工作,另一个闲置。恰当端接闲置运放是稳定电路性能的关键,接下来,健翔升小编将为大家介绍六种运放芯片端接方法及其特点
    的头像 发表于 02-24 10:15 797次阅读
    带你探索:运放芯片的<b class='flag-5'>六种</b>实用端接策略

    请问如何用Verilog实现将ascaii码数值字符串转换成定点数?

    我需要接收一个ascaii码字符串,内容是12位有效数字的数值,带小数。我不知道怎么把小数部分转换成定点数。
    发表于 01-23 21:57

    字符串在数据库中的存储方式

    数据库是现代信息技术中存储和管理数据的核心组件。字符串作为最常见的数据类型之一,在数据库中的存储方式对其性能和可扩展性有着重要影响。 数据类型 固定长度字符串 :如CHAR类型,它为每个字符串分配
    的头像 发表于 01-07 15:41 1250次阅读

    字符串在编程中的应用实例

    字符串在编程中有着广泛的应用,它们被用于表示文本数据、处理用户输入、构建动态内容等。以下是一些字符串在编程中的应用实例: 1. 用户输入与输出 用户输入 :程序通常需要从用户那里获取输入,这些输入通
    的头像 发表于 01-07 15:33 1117次阅读

    字符串字符数组的区别

    在编程语言中,字符串字符数组是两基本的数据结构,它们都用于存储和处理文本数据。尽管它们在功能上有一定的重叠,但在内部表示、操作方式和使用场景上存在显著差异。 1. 内部表示 字符串
    的头像 发表于 01-07 15:29 1676次阅读

    字符串反转的实现方式

    在编程中,字符串反转是一个基础而重要的操作,它涉及到将一个字符串中的字符顺序颠倒过来。这个操作在多种编程语言中都有不同的实现方式,本文将探讨几种常见的字符串反转
    的头像 发表于 01-07 15:27 1240次阅读

    字符串处理方法 字符串转数字的实现

    在编程中,将字符串转换为数字是一个常见的需求。不同的编程语言有不同的方法来实现这一功能。以下是一些常见编程语言中的字符串转数字的实现方法Pyth
    的头像 发表于 01-07 15:26 1392次阅读

    深度排查恩智浦MCX N系列支持的六种电源模式

    前 言 在上周文章-MCX N系列之电源管理中,小编带大家了解了MCX N系列的电源架构以及不同的电源配置,本篇文章将介绍MCX N系列支持的六种电源模式,分别为: Active Sleep
    发表于 12-12 09:33 1137次阅读
    深度排查恩智浦MCX N系列支持的<b class='flag-5'>六种</b>电源模式

    脚本美化高手之轻松实现文本颜色和背景定制的酷炫Shell技巧

    �33[0m Hello World " 输出效果如下: 它的格式是这样的: echo -e "�33[字背景颜色;字体颜色m 字符串 �33[0m" 或者printf "�33[字背景颜色;字体颜色m
    的头像 发表于 12-06 10:38 1102次阅读
    脚本美化高手之轻松实现文本颜色和背景定制的酷炫Shell技巧