0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

数据科学家Maarten Grootendorst向我们介绍了9种距离度量方法

新机器视觉 来源:人工智能爱好者社区 作者:人工智能爱好者社 2021-03-29 11:35 次阅读

在数据挖掘中,我们经常需要计算样本之间的相似度,通常的做法是计算样本之间的距离。在本文中,数据科学家 Maarten Grootendorst 向我们介绍了 9 种距离度量方法,其中包括欧氏距离、余弦相似度等,并探讨如何以及何时以最佳的方式使用它们。此外 Maarten Grootendorst 还对它们的缺点进行了介绍,以及如何规避不足。欧氏距离(Euclidean Distance)

6f6bc4e6-8e94-11eb-8b86-12bb97331649.png

欧式距离。 我们从最常见的欧式距离开始,欧式距离可解释为连接两个点的线段的长度。欧式距离公式非常简单,使用勾股定理从这些点的笛卡尔坐标计算距离。

6f86ca52-8e94-11eb-8b86-12bb97331649.png

缺点:尽管这是一种常用的距离度量,但欧式距离并不是尺度不变的,这意味着所计算的距离可能会根据特征的单位发生倾斜。通常,在使用欧式距离度量之前,需要对数据进行归一化处理。 此外,随着数据维数的增加,欧氏距离的作用也就越小。这与维数灾难(curse of dimensionality)有关。 用例:当你拥有低维数据且向量的大小非常重要时,欧式距离的效果非常好。如果在低维数据上使用欧式距离,则如 k-NN 和 HDBSCAN 之类的方法可达到开箱即用的效果。 余弦相似度(Cosine Similarity)

6fce2820-8e94-11eb-8b86-12bb97331649.png

余弦相似度。 余弦相似度经常被用作抵消高维欧式距离问题。余弦相似度是指两个向量夹角的余弦。如果将向量归一化为长度均为 1 的向量,则向量的点积也相同。 两个方向完全相同的向量的余弦相似度为 1,而两个彼此相对的向量的余弦相似度为 - 1。注意,它们的大小并不重要,因为这是在方向上的度量。

703e5b0e-8e94-11eb-8b86-12bb97331649.png

缺点:余弦相似度的一个主要缺点是没有考虑向量的大小,而只考虑它们的方向。以推荐系统为例,余弦相似度就没有考虑到不同用户之间评分尺度的差异。 用例:当我们对高维数据向量的大小不关注时,可以使用余弦相似度。对于文本分析,当数据以单词计数表示时,经常使用此度量。例如,当一个单词在一个文档中比另一个单词更频繁出现时,这并不一定意味着文档与该单词更相关。可能是文件长度不均匀或者计数的重要性不太重要。我们最好使用忽略幅度的余弦相似度。 汉明距离(Hamming Distance)

708c32e8-8e94-11eb-8b86-12bb97331649.png

汉明距离。 汉明距离是两个向量之间不同值的个数。它通常用于比较两个相同长度的二进制字符串。它还可以用于字符串,通过计算不同字符的数量来比较它们之间的相似程度。 缺点:当两个向量长度不相等时,汉明距离使用起来很麻烦。当幅度是重要指标时,建议不要使用此距离指标。 用例:典型的用例包括数据通过计算机网络传输时的错误纠正 / 检测。它可以用来确定二进制字中失真的数目,作为估计误差的一种方法。此外,你还可以使用汉明距离来度量分类变量之间的距离。 曼哈顿距离(Manhattan Distance)

70e00c60-8e94-11eb-8b86-12bb97331649.png

曼哈顿距离。 曼哈顿距离通常称为出租车距离或城市街区距离,用来计算实值向量之间的距离。想象一下均匀网格棋盘上的物体,如果它们只能移动直角,曼哈顿距离是指两个向量之间的距离,在计算距离时不涉及对角线移动。

712adcc2-8e94-11eb-8b86-12bb97331649.png

缺点:尽管曼哈顿距离在高维数据中似乎可以工作,但它比欧式距离直观性差,尤其是在高维数据中使用时。此外,由于它可能不是最短路径,有可能比欧氏距离给出一个更高的距离值。 用例:当数据集具有离散或二进制属性时,曼哈顿距离似乎工作得很好,因为它考虑了在这些属性的值中实际可以采用的路径。以欧式距离为例,它会在两个向量之间形成一条直线,但实际上这是不可能的。 切比雪夫距离(Chebyshev Distance)

715ac446-8e94-11eb-8b86-12bb97331649.png

切比雪夫距离。 切比雪夫距离定义为两个向量在任意坐标维度上的最大差值。换句话说,它就是沿着一个轴的最大距离。切比雪夫距离通常被称为棋盘距离,因为国际象棋的国王从一个方格到另一个方格的最小步数等于切比雪夫距离。

71c6ed56-8e94-11eb-8b86-12bb97331649.png

缺点:切比雪夫距离通常用于特定的用例,这使得它很难像欧氏距离或余弦相似度那样作为通用的距离度量。因此,在确定适合用例时才使用它。 用例:切比雪夫距离用于提取从一个方块移动到另一个方块所需的最小移动次数。此外,在允许无限制八向移动的游戏中,这可能是有用的方法。在实践中,切比雪夫距离经常用于仓库物流,因为它非常类似于起重机移动一个物体的时间。 闵氏距离(Minkowski)

71d2029a-8e94-11eb-8b86-12bb97331649.png

闵氏距离。 闵氏距离比大多数距离度量更复杂。它是在范数向量空间(n 维实数空间)中使用的度量,这意味着它可以在一个空间中使用,在这个空间中,距离可以用一个有长度的向量来表示。 闵氏距离公式如下:

7253d90a-8e94-11eb-8b86-12bb97331649.png

最有趣的一点是,我们可以使用参数 p 来操纵距离度量,使其与其他度量非常相似。常见的 p 值有:

p=1:曼哈顿距离

p=2:欧氏距离

p=∞:切比雪夫距离

缺点:闵氏距离与它们所代表的距离度量有相同的缺点,因此,对哈顿距离、欧几里得距离和切比雪夫距离等度量标准有个好的理解非常重要。此外,参数 p 的使用可能很麻烦,因为根据用例,查找正确的 p 值在计算上效率低。 用例:p 的积极一面是可迭代,并找到最适合用例的距离度量。它允许在距离度量上有很大的灵活性,如果你非常熟悉 p 和许多距离度量,将会获益多多。 雅卡尔指数(Jaccard Index)

728742b8-8e94-11eb-8b86-12bb97331649.png

雅卡尔指数。 雅卡尔指数(交并比)是用于比较样本集相似性与多样性的统计量。雅卡尔系数能够量度有限样本集合的相似度,其定义为两个集合交集大小与并集大小之间的比例。 例如,如果两个集合有 1 个共同的实体,而有 5 个不同的实体,那么雅卡尔指数为 1/5 = 0.2。要计算雅卡尔距离,我们只需从 1 中减去雅卡尔指数:

72bd3724-8e94-11eb-8b86-12bb97331649.png

缺点:雅卡尔指数的一个主要缺点是它受数据大小的影响很大。大数据集对指数有很大影响,因为它可以显著增加并集,同时保持交集相似。 用例:雅卡尔指数通常用于使用二进制或二进制数据的应用程序中。当你有一个深度学习模型来预测图像分割时,比如一辆汽车,雅卡尔指数可以用来计算给定真实标签的预测分割的准确度。 类似地,它可以用于文本相似性分析,以测量文档之间有多少词语重叠。因此,它可以用来比较模式集合。 半正矢(Haversine)

7318aa82-8e94-11eb-8b86-12bb97331649.png

半正矢距离。 半正矢距离是指球面上的两点在给定经纬度条件下的距离。它与欧几里得距离非常相似,因为它可以计算两点之间的最短连线。主要区别在于半正矢距离不可能有直线,因为这里的假设是两个点都在一个球面上。

736087f8-8e94-11eb-8b86-12bb97331649.png

缺点:这种距离测量的一个缺点是,假定这些点位于一个球体上。实际上,这种情况很少出现,例如,地球不是完美的圆形,在某些情况下可能使计算变得困难。相反,如果假定是椭球,使用 Vincenty 距离比较好。 用例:半正矢距离通常用于导航。例如,你可以使用它来计算两个国家之间的飞行距离。请注意,如果距离本身不那么大,则不太适合。 Sørensen-Dice 系数

73cd45a0-8e94-11eb-8b86-12bb97331649.png

Sørensen-Dice 系数。 Sørensen-Dice 系数与雅卡尔指数非常相似,都是度量样本集的相似性和多样性。尽管它们的计算方法相似,但是 Sørensen-Dice 系数更直观一些,因为它可以被视为两个集合之间重叠的百分比,这个值在 0 到 1 之间:

741769e6-8e94-11eb-8b86-12bb97331649.png

缺点:正如雅卡尔指数,Sørensen-Dice 系数也夸大了很少或没有真值的集合的重要性,因此,它可以控制多集合的平均得分,还可以控制多组平均得分并按相关集合的大小成反比地加权每个项目,而不是平等对待它们。 用例:用例与雅卡尔指数相似,它通常用于图像分割任务或文本相似性分析。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6511

    浏览量

    87600
  • 系数
    +关注

    关注

    0

    文章

    13

    浏览量

    8207
  • 度量
    +关注

    关注

    0

    文章

    8

    浏览量

    2627

原文标题:一文读懂常见的9种距离度量方法

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    量子梦

    计算机无法解决或需要花费巨大时间和资源才能解决的问题,从而推动科学技术的发展,改变我们的生活方式。虽然目前仍面临诸多挑战,但科学家们正在努力克服这些障碍,相信量子计算机的实现将会给我们
    发表于 03-13 18:18

    NVIDIA首席科学家Bill Dally:深度学习硬件趋势

    Bill Dally于2009年1月加入NVIDIA担任首席科学家,此前在斯坦福大学任职12年,担任计算机科学系主任。Dally及其斯坦福团队开发了系统架构、网络架构、信号传输、路由和同步技术,在今天的大多数大型并行计算机中都可以找到。
    的头像 发表于 02-25 16:16 358次阅读
    NVIDIA首席<b class='flag-5'>科学家</b>Bill Dally:深度学习硬件趋势

    谷歌DeepMind科学家欲建AI初创公司

    据知情人士透露,谷歌人工智能部门DeepMind的两名杰出科学家Laurent Sifre和Karl Tuyls正在与投资者商讨在巴黎成立一家新的人工智能初创公司的事宜。
    的头像 发表于 01-22 14:41 200次阅读

    飞腾首席科学家窦强荣获 “国家卓越工程师” 称号

         飞腾首席科学家窦强荣获 “国家卓越工程师” 称号 1月19日上午,首届 “国家工程师奖” 表彰大会在北京人民大会堂隆重举行。81 名个人被授予 “国家卓越工程师” 称号,50 个团队被授予
    的头像 发表于 01-19 19:22 1075次阅读
    飞腾首席<b class='flag-5'>科学家</b>窦强荣获 “国家卓越工程师” 称号

    AI PC时代正在向我们走来

    AI无处不在,充满未知和期待的AI PC时代正在向我们走来,我们的生活和工作方式即将发生改变。
    的头像 发表于 01-19 09:49 263次阅读

    Open AI首席科学家:ChatGPT可能已经有了意识,AI将万世不朽

    我是来和OpenAI的联合创始人兼首席科学家Sutskever会面的,他的公司位于旧金山传教区一条不起眼的街道上,办公楼没有任何标志,我想听听他一手打造的这项颠覆世界的技术的下一步计划。我还想知道他的下一步计划,尤其是,为什么建立他公司的下一代旗舰生成模型不再是他的工作重点。
    的头像 发表于 11-02 15:58 468次阅读

    科学家制造出迄今为止分辨率最高的超透镜

    一个由中国和英国科学家组成的团队制造了迄今为止分辨率最高的光学成像透镜。 19世纪以来,医生们一直认为,光学显微镜存在一个分辨率极限,超出这个极限就无法清楚地看到物体。当物体小于200纳米,比如
    的头像 发表于 09-01 06:28 432次阅读

    NVIDIA 首席科学家 Bill Dally 将在 Hot Chips 大会发表主题演讲

    这位著名计算机科学家将分享来自 NVIDIA Research 最新研究成果,这些研究正在推动加速计算和 AI 的进步。 Bill Dally 是全球最知名的计算机科学家之一,也是 NVIDIA
    的头像 发表于 08-22 19:20 395次阅读

    华为辟谣3.2万名科学家移籍

    华为辟谣3.2万名科学家移籍 对于近期网络传言的华为3.2万名科学家移籍华为方面表示,造谣者毫无根据、无中生有。 华为辟谣3.2万名科学家移籍以及其他的一些网络传言,比如“华为孟晚舟宣布23万亿
    的头像 发表于 08-22 16:51 1003次阅读
    华为辟谣3.2万名<b class='flag-5'>科学家</b>移籍

    科学家呼吁开展气候合作

    三位研究人员介绍了建立地球数字孪生的计划,该计划旨在帮助人们了解全球变暖的影响并做出应对。 三位顶尖科学家正在帮助带领计算史上最雄心勃勃的项目之一:打造地球的 数字孪生 。 Peter Bauer
    的头像 发表于 07-06 20:10 292次阅读
    <b class='flag-5'>科学家</b>呼吁开展气候合作

    踏歌智行创始人、首席科学家余贵珍教授登榜“2023科创家”

    “一群跨越了科学与商业边界的人”这是科创媒体36氪对科创企业家的定义。近日, 踏歌智行创始人、首席科学家余贵珍教授从全赛道中脱颖而出, 登榜首届“2023科创家”榜单。此次共有15位教授荣登榜单
    的头像 发表于 06-16 19:15 2366次阅读
    踏歌智行创始人、首席<b class='flag-5'>科学家</b>余贵珍教授登榜“2023科创家”

    聚众之谋 如此“科兰” 如此精彩——科兰通讯参加第二十一届中国科学家论坛

    “汇奇智、展品牌、促发展”。4月27日,科兰通讯技术(北京)有限公司受邀出席第二十一届中国科学家论坛,Clan销售副总蒋燕作为重量级嘉宾和现代通讯行业的优秀企业代表围绕“后疫情时代科技赋能,与产业
    的头像 发表于 05-04 11:31 1254次阅读
    聚众之谋 如此“科兰” 如此精彩——科兰通讯参加第二十一届中国<b class='flag-5'>科学家</b>论坛

    科学向新,共创未来--科兰通讯受邀参加第二十一届中国科学家论坛

    万物复苏、芳芽吐蕊,最美人间四月天。值此美好时节,第二十一届中国科学家论坛如约而至,将和我国各领域顶尖专家学者、高新企业倾情相约。 该论坛创办于2002年,是由著名科学家、时任全国人大常委会副委员长
    的头像 发表于 05-04 11:11 291次阅读

    科学家用银线团搭建「纳米线网络」,触电就像大脑一样运作

    这也是如今不少AI科学家们梦寐以求的特性。最近,来自悉尼大学和日本国家材料科学研究所的科学家们在自然通讯上发表论文,试着通过使用纳米线网络(NWN)来模拟人类大脑在受到电激时的反应,实验效果还不错。
    的头像 发表于 05-04 09:30 435次阅读
    <b class='flag-5'>科学家</b>用银线团搭建「纳米线网络」,触电就像大脑一样运作

    获双项荣誉:中科智云受邀出席第二十一届中国科学家论坛

    上海2023年5月1日 /美通社/ -- 第二十一届中国科学家论坛于2023年4月27-28日在北京正式召开。本届论坛以"中国式现代化与科学技术体系化创新"为主题,来自全国各地的科学家、院士、教授
    的头像 发表于 05-02 21:38 485次阅读