0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

K-MEANS聚类算法概述及工作原理

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-06-06 11:53 次阅读

K-means 是一种聚类算法,且对于数据科学家而言,是简单且热门的无监督式机器学习(ML)算法之一。

什么是 K-MEANS?

无监督式学习算法尝试在无标记数据集中“学习”模式,发现相似性或规律。常见的无监督式任务包括聚类和关联。K-means 等聚类算法试图通过分组对象来发现数据集中的相似性,与不同集群间的对象相似性相比,同一集群中对象之间的相似性更高。使用最小距离、数据点密度、图形或各种统计分布等标准将其分组为集群。

K-means 通过最小化几何点之间的平均距离将相似数据点分组成集群。为此,它以迭代方式将数据集分为非重叠子组(或集群)的固定数量 (K),其中每个数据点均属于集群中心均值最近的集群。

为何选择 K-MEANS?

K-means 是一种聚类算法,部署后可用于发现数据中尚未明确标记的组。目前,它已广泛应用于各种商业应用,包括:

客户分割:可以对客户进行分组,以便更好地定制产品

文本、文档或搜索结果聚类:分组以查找文本中的主题。

图像分组或图像压缩:图像或颜色相似的组。

异常检测:从集群中找出不相似的地方或异常值

半监督式学习:将集群与一组较小的已标记数据和监督式机器学习相结合,以获得更有价值的结果。

K-MEANS 的工作原理

K-means 算法能够识别数据集中一定数量的中心,而中心属于特定集群所有数据点的算术平均值。然后,算法将每个数据点分配给最近的集群,因为其尝试保持尽可能小的集群(K-means 中的“means”是指计算数据平均值或查找中心的任务)。同时,K-means 尝试保持其他集群尽可能不同。

在实践中,其工作原理如下:

K-means 算法首先将所有坐标初始化为“K”集群中心。(K 值是一个输入变量,位置也可以作为输入变量。)

每经过一次算法,每个点都会分配给其最近的集群中心。

然后,集群中心会被更新为在该经过中分配给其的所有点的“中心”。这是通过重新计算集群中心作为各自集群中点的平均值来实现的。

算法会重复执行,直到上次迭代的集群中心发生最小变化。

如果集群呈现一致的球形形状,说明 K-means 在捕获结构和进行数据推理方面非常有效。但是,如果集群呈现更复杂的几何形状,那就说明算法在数据聚类方面做得不好。K-means 的另一个缺点是,该算法不允许彼此距离较远的数据点共享同一集群,而不管它们是否属于该集群。K-means 本身不会从数据中了解到集群数量,而是必须预先定义信息。最后,当集群之间出现重叠时,K-means 无法确定如何分配重叠位置的数据点。

适用于数据科学家的 K-MEANS

由于其内在的简单性以及在无监督机器学习操作中的普及,K-means 在数据科学家中大受青睐。尽管该算法存在局限性,但其在数据挖掘操作中的适用性允许数据科学家利用该算法从业务数据中衍生出各种推理,实现更准确的数据驱动决策。它被广泛认为是数据科学家最具商业重要性的算法之一。

使用 GPU 加速聚类

聚类在各种应用程序中发挥着关键作用,但由于数据量不断增加,其正面临着计算挑战。解决计算难题的极具前景的解决方案之一,即使用 GPU 进行并行计算。

在架构方面,CPU 仅由几个具有大缓存内存的核心组成,一次只可以处理几个软件线程。相比之下,GPU 由数百个核心组成,可以同时处理数千个线程。GPU 具有大规模并行性,并且显存访问带宽优势显著,因此十分适用于加速数据密集型分析。

GPU 加速的端到端数据科学

基于 CUDA 构建的 RAPIDS 开源软件库套件使您能够完全在 GPU 上执行端到端数据科学和分析流程,同时仍然使用 Pandas 和 Scikit-Learn API 等熟悉的界面。

RAPIDS cuML 的机器学习算法和数学基元遵循熟悉的类似于 scikit-learn 的 API。单块 GPU 和大型数据中心部署均支持 K-means、XGBoost 等主流算法。针对大型数据集,相较于同等功效的 CPU,这些基于 GPU 的实施方案能够以 10 到 50 倍的速度更快地完成任务。

借助 RAPIDS GPU DataFrame,数据可以通过一个类似 Pandas 的接口加载到 GPU 上,然后用于各种连接的机器学习和图形分析算法,而无需离开 GPU。这种级别的互操作性是通过 Apache Arrow 这样的库实现的。这可加速端到端流程(从数据准备到机器学习,再到深度学习)。

RAPIDS 支持在许多热门数据科学库之间共享设备内存。这样可将数据保留在 GPU 上,并省去了来回复制主机内存的高昂成本。

原文标题:NVIDIA 大讲堂 | 什么是 K-MEANS?

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10442

    浏览量

    206544
  • NVIDIA
    +关注

    关注

    14

    文章

    4592

    浏览量

    101706
  • 算法
    +关注

    关注

    23

    文章

    4455

    浏览量

    90751
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130556

原文标题:NVIDIA 大讲堂 | 什么是 K-MEANS?

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    UWB技术的内部工作原理和窄带定位方法之间的差异概述

    我们可以说UWB是当今最好、最先进的定位技术,但证据呢?要回答这个问题,我们需要透过现象看本质。本文将探讨UWB技术的内部工作原理,并概述UWB和窄带定位方法之间的差异。
    的头像 发表于 03-26 11:37 553次阅读
    UWB技术的内部<b class='flag-5'>工作原理</b>和窄带定位方法之间的差异<b class='flag-5'>概述</b>

    光伏逆变器拓扑概述及关键技术

    光伏逆变器拓扑概述及关键技术
    的头像 发表于 02-21 09:47 266次阅读
    光伏逆变器拓扑<b class='flag-5'>概述及</b>关键技术

    自整角机的工作原理是什么

    自整角机的工作原理 自整角机是一种广泛应用于交流同步电动机控制系统的重要装置,主要用于传递转速信息、接收和处理转子转速信息并将其输出给测量转换装置。下面将详细介绍自整角机的工作原理
    的头像 发表于 12-19 14:27 2228次阅读

    晶振的工作原理

    晶振的工作原理
    的头像 发表于 12-08 17:32 582次阅读
    晶振的<b class='flag-5'>工作原理</b>

    HASH算法加密芯片的工作原理及其在STM32 MCU上的应用

    本文主要研究了HASH算法加密芯片的工作原理及其在STM32 MCU上的应用,实现了外部加密芯片对STM32 MCU的程序保护,目前的技术手段无法对其进行破解,其安全性优于其它加密方式。
    的头像 发表于 10-24 15:01 1700次阅读
    HASH<b class='flag-5'>算法</b>加密芯片的<b class='flag-5'>工作原理</b>及其在STM32 MCU上的应用

    基于K-means聚类算法的图像分割

    图像分割:利用图像的灰度、颜色、纹理、形状等特征,把图像分成若干个互不重叠的区域,并使这些特征在同一区域内呈现相似性,在不同的区域之间存在明显的差异性。然后就可以将分割的图像中具有独特性质的区域提取出来用于不同的研究。
    的头像 发表于 09-07 16:59 631次阅读
    基于<b class='flag-5'>K-means</b>聚类<b class='flag-5'>算法</b>的图像分割

    K均值#Python

    嵌入式编程python
    未来加油dz
    发布于 :2023年09月03日 16:44:12

    全覆盖路径规划算法(CCPP)工作原理解析

    根据CCPP算法工作原理不同,可以分为随机碰撞法、单元分解法、生物激励法、模板法、智能算法等,但CCPP算法都应该满足覆盖必须满足的要求。
    发表于 08-25 10:31 913次阅读
    全覆盖路径规划<b class='flag-5'>算法</b>(CCPP)<b class='flag-5'>工作原理</b>解析

    人工智能有哪些算法

    无监督学习算法主要用于聚类和关联规则挖掘。聚类问题是指将数据集合划分成相似的组,而关联规则挖掘问题是指发现数据集合中经常一起出现的数据项。常见的无监督学习算法包括K-means、谱聚类、Apriori等。
    的头像 发表于 08-14 13:51 3109次阅读

    K-Means & K-Medoids Clustering(2)#大数据分析

    大数据分析
    学习硬声知识
    发布于 :2023年07月11日 17:45:00

    K-Means & K-Medoids Clustering(1)#大数据分析

    大数据分析
    学习硬声知识
    发布于 :2023年07月11日 17:44:12

    K-means Clustering(2)#大数据分析

    大数据分析
    学习硬声知识
    发布于 :2023年07月11日 12:50:41

    K-means Clustering(1)#大数据分析

    大数据分析
    学习硬声知识
    发布于 :2023年07月11日 12:49:59

    物体检测与跟踪算法

    DBSCAN: Density Based Spatial Clustering of Applications with Noise; DBSCAN是基于密度的聚类方法,对样本分布的适应能力比K-Means更好。
    的头像 发表于 05-09 14:35 795次阅读
    物体检测与跟踪<b class='flag-5'>算法</b>

    [7.6.1]--7.6.1k-means法学习视频

    图像处理图像识别
    jf_75936199
    发布于 :2023年04月28日 02:25:05