0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

10个机器学习中常用的距离度量方法

颖脉Imgtec 2022-11-03 10:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

作者:Jonte Dancker

来源:DeepHub IMBA


距离度量是有监督和无监督学习算法的基础,包括k近邻、支持向量机和k均值聚类等。

距离度量的选择影响我们的机器学习结果,因此考虑哪种度量最适合这个问题是很重要的。因此,我们在决定使用哪种测量方法时应该谨慎。但在做出决定之前,我们需要了解距离测量是如何工作的,以及我们可以从哪些测量中进行选择。

本文将简要介绍常用的距离度量方法、它们的工作原理、如何用Python计算它们以及何时使用它们。这样可以加深知识和理解,提高机器学习算法和结果。fdf794a0-5937-11ed-b116-dac502259ad0.png在更深入地研究不同的距离测量之前,我们先要有一个关于它们如何工作以及如何选择合适的测量的大致概念。距离度量用于计算给定问题空间中两个对象之间的差异,即数据集中的特征。然后可以使用该距离来确定特征之间的相似性, 距离越小特征越相似。

对于距离的度量,我们可以在几何距离测量和统计距离测量之间进行选择,应该选择哪种距离度量取决于数据的类型。特征可能有不同的数据类型(例如,真实值、布尔值、分类值),数据可能是多维的或由地理空间数据组成。


几何距离测量1、欧氏距离 Euclidean distance欧氏距离度量两个实值向量之间的最短距离。由于其直观,使用简单和对许多用例有良好结果,所以它是最常用的距离度量和许多应用程序的默认距离度量。fe14fd38-5937-11ed-b116-dac502259ad0.png欧氏距离也可称为l2范数,其计算方法为:fe38b61a-5937-11ed-b116-dac502259ad0.pngPython代码如下from scipy.spatial import distance distance.euclidean(vector_1, vector_2)欧氏距离有两个主要缺点。首先,距离测量不适用于比2D或3D空间更高维度的数据。第二,如果我们不将特征规范化和/或标准化,距离可能会因为单位的不同而倾斜。2、曼哈顿距离 Manhattan distance曼哈顿距离也被称为出租车或城市街区距离,因为两个实值向量之间的距离是根据一个人只能以直角移动计算的。这种距离度量通常用于离散和二元属性,这样可以获得真实的路径。fe497ab8-5937-11ed-b116-dac502259ad0.png曼哈顿距离以l1范数为基础,计算公式为:fe5b34a6-5937-11ed-b116-dac502259ad0.pngPython代码如下from scipy.spatial import distance distance.cityblock(vector_1, vector_2)曼哈顿的距离有两个主要的缺点。它不如高维空间中的欧氏距离直观,它也没有显示可能的最短路径。虽然这可能没有问题,但我们应该意识到这并不是最短的距离。3、切比雪夫距离 Chebyshev distance切比雪夫距离也称为棋盘距离,因为它是两个实值向量之间任意维度上的最大距离。它通常用于仓库物流中,其中最长的路径决定了从一个点到另一个点所需的时间。fe65d6d6-5937-11ed-b116-dac502259ad0.png切比雪夫距离由l -无穷范数计算:fe75cc3a-5937-11ed-b116-dac502259ad0.pngPython代码如下from scipy.spatial import distance distance.chebyshev(vector_1, vector_2)

切比雪夫距离只有非常特定的用例,因此很少使用。

4、闵可夫斯基距离 Minkowski distance闵可夫斯基距离是上述距离度量的广义形式。它可以用于相同的用例,同时提供高灵活性。我们可以选择 p 值来找到最合适的距离度量。fe7ee90a-5937-11ed-b116-dac502259ad0.png闵可夫斯基距离的计算方法为:fe9bec6c-5937-11ed-b116-dac502259ad0.pngPython代码如下from scipy.spatial import distance distance.minkowski(vector_1, vector_2, p)

由于闵可夫斯基距离表示不同的距离度量,它就有与它们相同的主要缺点,例如在高维空间的问题和对特征单位的依赖。此外,p值的灵活性也可能是一个缺点,因为它可能降低计算效率,因为找到正确的p值需要进行多次计算。

5、余弦相似度和距离 Cosine similarity余弦相似度是方向的度量,他的大小由两个向量之间的余弦决定,并且忽略了向量的大小。余弦相似度通常用于与数据大小无关紧要的高维,例如,推荐系统或文本分析。feac9fd0-5937-11ed-b116-dac502259ad0.png余弦相似度可以介于-1(相反方向)和1(相同方向)之间,计算方法为:febb1ccc-5937-11ed-b116-dac502259ad0.png余弦相似度常用于范围在0到1之间的正空间中。余弦距离就是用1减去余弦相似度,位于0(相似值)和1(不同值)之间。Python代码如下from scipy.spatial import distance distance.cosine(vector_1, vector_2)

余弦距离的主要缺点是它不考虑大小而只考虑向量的方向。因此,没有充分考虑到值的差异。

6、半正矢距离 Haversine distance半正矢距离测量的是球面上两点之间的最短距离。因此常用于导航,其中经度和纬度和曲率对计算都有影响。fecaeb8e-5937-11ed-b116-dac502259ad0.png半正矢距离的公式如下:fee112c4-5937-11ed-b116-dac502259ad0.png其中r为球面半径,φ和λ为经度和纬度。Python代码如下from sklearn.metrics.pairwise import haversine_distances haversine_distances([vector_1, vector_2])

半正矢距离的主要缺点是假设是一个球体,而这种情况很少出现。

7、汉明距离汉明距离衡量两个二进制向量或字符串之间的差异。feec7542-5937-11ed-b116-dac502259ad0.png对向量按元素进行比较,并对差异的数量进行平均。如果两个向量相同,得到的距离是0之间,如果两个向量完全不同,得到的距离是1。Python代码如下from scipy.spatial import distance distance.hamming(vector_1, vector_2)

汉明距离有两个主要缺点。距离测量只能比较相同长度的向量,它不能给出差异的大小。所以当差异的大小很重要时,不建议使用汉明距离。


统计距离测量统计距离测量可用于假设检验、拟合优度检验、分类任务或异常值检测。8、杰卡德指数和距离 Jaccard IndexJaccard指数用于确定两个样本集之间的相似性。它反映了与整个数据集相比存在多少一对一匹配。Jaccard指数通常用于二进制数据比如图像识别的深度学习模型的预测与标记数据进行比较,或者根据单词的重叠来比较文档中的文本模式。fefb9f2c-5937-11ed-b116-dac502259ad0.pngJaccard距离的计算方法为:ff13c034-5937-11ed-b116-dac502259ad0.pngPython代码如下from scipy.spatial import distance distance.jaccard(vector_1, vector_2)

Jaccard指数和距离的主要缺点是,它受到数据规模的强烈影响,即每个项目的权重与数据集的规模成反比。

9、Sorensen-Dice指数Sörensen-Dice指数类似于Jaccard指数,它可以衡量的是样本集的相似性和多样性。该指数更直观,因为它计算重叠的百分比。Sörensen-Dice索引常用于图像分割和文本相似度分析。ff201f5a-5937-11ed-b116-dac502259ad0.png计算公式如下:ff31b65c-5937-11ed-b116-dac502259ad0.pngPython代码如下from scipy.spatial import distance distance.dice(vector_1, vector_2)

它的主要缺点也是受数据集大小的影响很大。

10、动态时间规整 Dynamic Time Warping动态时间规整是测量两个不同长度时间序列之间距离的一种重要方法。可以用于所有时间序列数据的用例,如语音识别或异常检测。ff444e70-5937-11ed-b116-dac502259ad0.png为什么我们需要一个为时间序列进行距离测量的度量呢?如果时间序列长度不同或失真,则上述面说到的其他距离测量无法确定良好的相似性。比如欧几里得距离计算每个时间步长的两个时间序列之间的距离。但是如果两个时间序列的形状相同但在时间上发生了偏移,那么尽管时间序列非常相似,但欧几里得距离会表现出很大的差异。动态时间规整通过使用多对一或一对多映射来最小化两个时间序列之间的总距离来避免这个问题。当搜索最佳对齐时,这会产生更直观的相似性度量。通过动态规划找到一条弯曲的路径最小化距离,该路径必须满足以下条件:边界条件:弯曲路径在两个时间序列的起始点和结束点开始和结束单调性条件:保持点的时间顺序,避免时间倒流连续条件:路径转换限制在相邻的时间点上,避免时间跳跃整经窗口条件(可选):允许的点落入给定宽度的整经窗口坡度条件(可选):限制弯曲路径坡度,避免极端运动我们可以使用 Python 中的 fastdtw 包:from scipy.spatial.distance import euclidean from fastdtw import fastdtw  distance, path = fastdtw(timeseries_1, timeseries_2, dist=euclidean)

动态时间规整的一个主要缺点是与其他距离测量方法相比,它的计算工作量相对较高。


总结在这篇文章中,简要介绍了十种常用的距离测量方法。本文中已经展示了它们是如何工作的,如何在Python中实现它们,以及经常使用它们解决什么问题。如果你认为我错过了一个重要的距离测量,请留言告诉我。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    67

    文章

    8561

    浏览量

    137208
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    机器学习特征工程:分类变量的数值化处理方法

    编码是机器学习流程里最容易被低估的环节之一,模型没办法直接处理文本形式的分类数据,尺寸(Small/Medium/Large)、颜色(Red/Blue/Green)、城市、支付方式等都是典型的分类
    的头像 发表于 02-10 15:58 435次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>特征工程:分类变量的数值化处理<b class='flag-5'>方法</b>

    法兰距离:相机镜头系统的关键参数

    在视觉领域,法兰距是一重要的概念。它通常指的是相机镜头安装法兰的参考平面到成像传感器的距离,这一参数在机器视觉领域充当重要角色,法兰距离的精准性作为一
    的头像 发表于 01-28 17:29 1361次阅读
    法兰<b class='flag-5'>距离</b>:相机镜头系统的关键参数

    vivado中常用时序约束指令介绍

    在vivado中,我们常用的时序约束指令主要包括如下几个方面。
    的头像 发表于 01-20 16:15 614次阅读

    学习电子电路中常见的问题

    电子电路作为现代科技的基础,其学习过程中常会遇到各种理论和实践问题。无论是初学者还是有一定经验的工程师,都可能面临电路设计、元器件选型、信号处理等方面的困惑。本文将系统梳理电子电路学习中常
    的头像 发表于 01-20 07:38 435次阅读

    自动驾驶中常提的模仿学习是什么?

    当谈及自动驾驶模型学习时,经常会提到模仿学习的概念。所谓模仿学习,就是模型先看别人怎么做,然后学着去做。自动驾驶中的模仿学习,就是把人类司机在各种路况下的行为做成范例,记录下看到了什么
    的头像 发表于 01-16 16:41 2123次阅读

    学习单片机快速方法

    的。首先你得知道你要学习什么样的单片机,我建议从80C51核心学起,80C51是MCS-51系列中的一典型品种;其它厂商以8051为基核开发出的CMOS工艺单片机产品统称为80C51系列。当前常用
    发表于 01-14 07:42

    机器学习和深度学习中需避免的 7 常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据、模型架构
    的头像 发表于 01-07 15:37 336次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 <b class='flag-5'>个</b>常见错误与局限性

    工业镜头测量中的“工作距离”是什么?

    工业镜头作为机器视觉系统中的核心组件,在自动化生产、质量检测和精密测量等领域发挥着关键作用。其中,“工作距离”(WorkingDistance,简称WD)是一至关重要的参数,它直接影响系统
    的头像 发表于 12-06 16:46 1083次阅读
    工业镜头测量中的“工作<b class='flag-5'>距离</b>”是什么?

    自动驾驶中常提的“强化学习”是啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,有些方案中会提到“强化学习(Reinforcement Learning,简称RL)”,强化学习是一类让机器通过试错来学会做决策的技术。简单理解
    的头像 发表于 10-23 09:00 868次阅读
    自动驾驶<b class='flag-5'>中常</b>提的“强化<b class='flag-5'>学习</b>”是<b class='flag-5'>个</b>啥?

    10公里超远距离传输,安信可LoRa模组的远、低、省!

    在没有Wi-Fi、没有4G、甚至没有市电的地方,你的设备,还能互联吗? 回答是:能。靠LoRa,能传10公里远。 是的,你没听错。 安信可推出的LoRa模组,空旷环境实测 传输距离可达10公里
    的头像 发表于 08-06 15:12 1961次阅读
    <b class='flag-5'>10</b>公里超远<b class='flag-5'>距离</b>传输,安信可LoRa模组的远、低、省!

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 3066次阅读

    如何检测自动化设备中的直线导轨品质是否优良?

    直线导轨是机械系统中常用的一元件,广泛应用于工业、机床、数控机床、机器人等领域。
    的头像 发表于 07-12 17:50 493次阅读
    如何检测自动化设备中的直线导轨品质是否优良?

    使用MATLAB进行无监督学习

    无监督学习是一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据中隐藏的模式和关系,无需任何监督或关于结果的先验知识。
    的头像 发表于 05-16 14:48 1581次阅读
    使用MATLAB进行无监督<b class='flag-5'>学习</b>

    光模块波长与传输距离

           光模块波长和传输距离是光模块的重要参数,不同波长的光模块传输距离也不同,那么常用的波长有哪些,波长和传输距离如何搭配?今天我们就来细说一下。   SFP光模块      
    的头像 发表于 04-25 16:53 2442次阅读
    光模块波长与传输<b class='flag-5'>距离</b>

    18常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现

    本来转自:DeepHubIMBA本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。为确保内容
    的头像 发表于 04-23 13:22 1758次阅读
    18<b class='flag-5'>个</b><b class='flag-5'>常用</b>的强化<b class='flag-5'>学习</b>算法整理:从基础<b class='flag-5'>方法</b>到高级模型的理论技术与代码实现