0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

K-MEANS聚类算法概述及工作原理

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-06-06 11:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

K-means 是一种聚类算法,且对于数据科学家而言,是简单且热门的无监督式机器学习(ML)算法之一。

什么是 K-MEANS?

无监督式学习算法尝试在无标记数据集中“学习”模式,发现相似性或规律。常见的无监督式任务包括聚类和关联。K-means 等聚类算法试图通过分组对象来发现数据集中的相似性,与不同集群间的对象相似性相比,同一集群中对象之间的相似性更高。使用最小距离、数据点密度、图形或各种统计分布等标准将其分组为集群。

K-means 通过最小化几何点之间的平均距离将相似数据点分组成集群。为此,它以迭代方式将数据集分为非重叠子组(或集群)的固定数量 (K),其中每个数据点均属于集群中心均值最近的集群。

为何选择 K-MEANS?

K-means 是一种聚类算法,部署后可用于发现数据中尚未明确标记的组。目前,它已广泛应用于各种商业应用,包括:

客户分割:可以对客户进行分组,以便更好地定制产品。

文本、文档或搜索结果聚类:分组以查找文本中的主题。

图像分组或图像压缩:图像或颜色相似的组。

异常检测:从集群中找出不相似的地方或异常值

半监督式学习:将集群与一组较小的已标记数据和监督式机器学习相结合,以获得更有价值的结果。

K-MEANS 的工作原理

K-means 算法能够识别数据集中一定数量的中心,而中心属于特定集群所有数据点的算术平均值。然后,算法将每个数据点分配给最近的集群,因为其尝试保持尽可能小的集群(K-means 中的“means”是指计算数据平均值或查找中心的任务)。同时,K-means 尝试保持其他集群尽可能不同。

在实践中,其工作原理如下:

K-means 算法首先将所有坐标初始化为“K”集群中心。(K 值是一个输入变量,位置也可以作为输入变量。)

每经过一次算法,每个点都会分配给其最近的集群中心。

然后,集群中心会被更新为在该经过中分配给其的所有点的“中心”。这是通过重新计算集群中心作为各自集群中点的平均值来实现的。

算法会重复执行,直到上次迭代的集群中心发生最小变化。

如果集群呈现一致的球形形状,说明 K-means 在捕获结构和进行数据推理方面非常有效。但是,如果集群呈现更复杂的几何形状,那就说明算法在数据聚类方面做得不好。K-means 的另一个缺点是,该算法不允许彼此距离较远的数据点共享同一集群,而不管它们是否属于该集群。K-means 本身不会从数据中了解到集群数量,而是必须预先定义信息。最后,当集群之间出现重叠时,K-means 无法确定如何分配重叠位置的数据点。

适用于数据科学家的 K-MEANS

由于其内在的简单性以及在无监督机器学习操作中的普及,K-means 在数据科学家中大受青睐。尽管该算法存在局限性,但其在数据挖掘操作中的适用性允许数据科学家利用该算法从业务数据中衍生出各种推理,实现更准确的数据驱动决策。它被广泛认为是数据科学家最具商业重要性的算法之一。

使用 GPU 加速聚类

聚类在各种应用程序中发挥着关键作用,但由于数据量不断增加,其正面临着计算挑战。解决计算难题的极具前景的解决方案之一,即使用 GPU 进行并行计算。

在架构方面,CPU 仅由几个具有大缓存内存的核心组成,一次只可以处理几个软件线程。相比之下,GPU 由数百个核心组成,可以同时处理数千个线程。GPU 具有大规模并行性,并且显存访问带宽优势显著,因此十分适用于加速数据密集型分析。

GPU 加速的端到端数据科学

基于 CUDA 构建的 RAPIDS 开源软件库套件使您能够完全在 GPU 上执行端到端数据科学和分析流程,同时仍然使用 Pandas 和 Scikit-Learn API 等熟悉的界面。

RAPIDS cuML 的机器学习算法和数学基元遵循熟悉的类似于 scikit-learn 的 API。单块 GPU 和大型数据中心部署均支持 K-means、XGBoost 等主流算法。针对大型数据集,相较于同等功效的 CPU,这些基于 GPU 的实施方案能够以 10 到 50 倍的速度更快地完成任务。

借助 RAPIDS GPU DataFrame,数据可以通过一个类似 Pandas 的接口加载到 GPU 上,然后用于各种连接的机器学习和图形分析算法,而无需离开 GPU。这种级别的互操作性是通过 Apache Arrow 这样的库实现的。这可加速端到端流程(从数据准备到机器学习,再到深度学习)。

RAPIDS 支持在许多热门数据科学库之间共享设备内存。这样可将数据保留在 GPU 上,并省去了来回复制主机内存的高昂成本。

原文标题:NVIDIA 大讲堂 | 什么是 K-MEANS?

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11370

    浏览量

    226394
  • NVIDIA
    +关注

    关注

    14

    文章

    5725

    浏览量

    110285
  • 算法
    +关注

    关注

    23

    文章

    4816

    浏览量

    98795
  • 机器学习
    +关注

    关注

    67

    文章

    8570

    浏览量

    137420

原文标题:NVIDIA 大讲堂 | 什么是 K-MEANS?

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    这个电路干啥用的呢?它的工作原理是怎么样?

    很多工程师认为圈起来的这个电路不能工作,我刚开始看到这个电路也是这么认为的!这个圈起来的三极管(PNP)电路到底能不能工作呢,怎么样的工作原理呢?欢迎工程师们在评论区畅所欲言。 APA320-160W+160W.
    发表于 04-15 11:03

    433M无线模块的工作原理和距离

    一、工作原理  433MHz无线模块的工作原理是通过发射器和接收器之间的模拟信号进行无线通信。具体来说,它由发射器和接收器两部分组成,这两部分通过433MHz的模拟信号进行通信。发射器工作原理
    发表于 04-10 14:44

    算法工程师需要具备哪些技能?

    :自动化任务(如数据预处理、模型训练调度)。Git版本控制:团队协作开发(如分支管理、代码合并)。 机器学习监督学习:线性回归、逻辑回归、决策树、SVM等。无监督学习:K-Means)、降维
    发表于 02-27 10:53

    使用K-means算法进行异常侦测

    本帖最后由 jf_77210199 于 2026-1-19 09:48 编辑 使用K-means算法进行异常侦测 本案例运行于 AT32F403A MCU 平台,利用 LSM6DS3TR-C
    发表于 01-16 14:09

    无线充电器的工作原理核心

    无线充电器的工作原理核心
    的头像 发表于 12-06 10:19 2218次阅读
    无线充电器的<b class='flag-5'>工作原理</b>核心

    一文看懂ups电源有什么工作原理

    UPS(不间断电源)的核心工作原理是通过整流-储能-逆变的能量转换链路,结合电池储能与智能切换技术,实现市电中断时的“无缝供电”。其技术架构可分为在线式、后备式、在线互动式三大,每类在能量流动路径
    的头像 发表于 11-10 08:49 4152次阅读
    一文看懂ups电源有什么<b class='flag-5'>工作原理</b>

    国密系列算法简介及SM4算法原理介绍

    算法可用于无线局域网产品;SM7算法可用于身份识别、票务、支付与通卡业务。ZUC算法可用于移动通信网络。 密码杂凑算法:SM3
    发表于 10-24 08:25

    K8s存储设计与Ceph集成实战

    在云原生时代,存储是制约应用性能的关键瓶颈。本文将带你深入理解K8s存储的设计原理,并手把手实现与Ceph的完美集成,让你的集群存储性能提升300%!
    的头像 发表于 08-22 11:50 1220次阅读

    光伏建筑一体化BIPV:透射率与光伏发电效率的应用研究

    关键变量,通过仿真评估采光充足度(sDA)、眩光空间自主率(sGA)和光伏发电效率(EP_e)并寻找帕累托最优解。最后采用K-means算法对结果进行分析。Fl
    的头像 发表于 07-22 09:52 2605次阅读
    光伏建筑一体化BIPV:透射率与光伏发电效率的应用研究

    晶体管光耦的工作原理

    器件的特性。工作原理概述1.发光器件:晶体管光耦通常包含一个发光二极管(LED)作为光源。当电流通过LED时,它会发出特定波长的光。2.光敏器件:光耦的另一侧是一个
    的头像 发表于 06-20 15:15 1311次阅读
    晶体管光耦的<b class='flag-5'>工作原理</b>

    语音控制模块工作原理

    ,才能够发出正确的指令。 语音芯片控制模块是实现 “语音指令 - 设备响应” 的核心组件,其工作原理可拆解为信号采集、处理、识别及指令执行的完整链路,下面将以WTK69000为例给大家分享一下整个流程的工作原理。 一、语音信号采集
    的头像 发表于 06-17 11:49 1921次阅读
    语音控制模块<b class='flag-5'>工作原理</b>

    k210在线训练的算法是yolo5吗?

    k210在线训练的算法是yolo5吗
    发表于 06-16 08:25

    管道浮力平衡压袋(配重压袋)工作原理

    管道浮力平衡压袋(配重压袋)工作原理
    发表于 06-12 15:09 0次下载

    详析模拟与数字微波移相器的工作原理及特性

    的SYN649系列移相器在通信、雷达、仪器仪表等众多领域发挥着关键作用。本文将聚焦模拟与数字微波移相器,探讨其工作原理与特性。 一、工作原理 模拟移相器模拟移相原理:早期模拟移相器利用传输介质对传导波动引入相移的特性。例如
    的头像 发表于 06-03 17:24 1187次阅读

    FLASH的工作原理与应用

    14FLASHFLASH的工作原理与应用OWEIS1什么是FLASH?Flash闪存是一种非易失性半导体存储器,它结合了ROM(只读存储器)和RAM(随机访问存储器)的优点,具有电子可擦除和可编程
    的头像 发表于 05-27 13:10 2558次阅读
    FLASH的<b class='flag-5'>工作原理</b>与应用