0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

K-MEANS聚类算法概述及工作原理

NVIDIA英伟达 来源:NVIDIA英伟达 作者:NVIDIA英伟达 2022-06-06 11:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

K-means 是一种聚类算法,且对于数据科学家而言,是简单且热门的无监督式机器学习(ML)算法之一。

什么是 K-MEANS?

无监督式学习算法尝试在无标记数据集中“学习”模式,发现相似性或规律。常见的无监督式任务包括聚类和关联。K-means 等聚类算法试图通过分组对象来发现数据集中的相似性,与不同集群间的对象相似性相比,同一集群中对象之间的相似性更高。使用最小距离、数据点密度、图形或各种统计分布等标准将其分组为集群。

K-means 通过最小化几何点之间的平均距离将相似数据点分组成集群。为此,它以迭代方式将数据集分为非重叠子组(或集群)的固定数量 (K),其中每个数据点均属于集群中心均值最近的集群。

为何选择 K-MEANS?

K-means 是一种聚类算法,部署后可用于发现数据中尚未明确标记的组。目前,它已广泛应用于各种商业应用,包括:

客户分割:可以对客户进行分组,以便更好地定制产品。

文本、文档或搜索结果聚类:分组以查找文本中的主题。

图像分组或图像压缩:图像或颜色相似的组。

异常检测:从集群中找出不相似的地方或异常值

半监督式学习:将集群与一组较小的已标记数据和监督式机器学习相结合,以获得更有价值的结果。

K-MEANS 的工作原理

K-means 算法能够识别数据集中一定数量的中心,而中心属于特定集群所有数据点的算术平均值。然后,算法将每个数据点分配给最近的集群,因为其尝试保持尽可能小的集群(K-means 中的“means”是指计算数据平均值或查找中心的任务)。同时,K-means 尝试保持其他集群尽可能不同。

在实践中,其工作原理如下:

K-means 算法首先将所有坐标初始化为“K”集群中心。(K 值是一个输入变量,位置也可以作为输入变量。)

每经过一次算法,每个点都会分配给其最近的集群中心。

然后,集群中心会被更新为在该经过中分配给其的所有点的“中心”。这是通过重新计算集群中心作为各自集群中点的平均值来实现的。

算法会重复执行,直到上次迭代的集群中心发生最小变化。

如果集群呈现一致的球形形状,说明 K-means 在捕获结构和进行数据推理方面非常有效。但是,如果集群呈现更复杂的几何形状,那就说明算法在数据聚类方面做得不好。K-means 的另一个缺点是,该算法不允许彼此距离较远的数据点共享同一集群,而不管它们是否属于该集群。K-means 本身不会从数据中了解到集群数量,而是必须预先定义信息。最后,当集群之间出现重叠时,K-means 无法确定如何分配重叠位置的数据点。

适用于数据科学家的 K-MEANS

由于其内在的简单性以及在无监督机器学习操作中的普及,K-means 在数据科学家中大受青睐。尽管该算法存在局限性,但其在数据挖掘操作中的适用性允许数据科学家利用该算法从业务数据中衍生出各种推理,实现更准确的数据驱动决策。它被广泛认为是数据科学家最具商业重要性的算法之一。

使用 GPU 加速聚类

聚类在各种应用程序中发挥着关键作用,但由于数据量不断增加,其正面临着计算挑战。解决计算难题的极具前景的解决方案之一,即使用 GPU 进行并行计算。

在架构方面,CPU 仅由几个具有大缓存内存的核心组成,一次只可以处理几个软件线程。相比之下,GPU 由数百个核心组成,可以同时处理数千个线程。GPU 具有大规模并行性,并且显存访问带宽优势显著,因此十分适用于加速数据密集型分析。

GPU 加速的端到端数据科学

基于 CUDA 构建的 RAPIDS 开源软件库套件使您能够完全在 GPU 上执行端到端数据科学和分析流程,同时仍然使用 Pandas 和 Scikit-Learn API 等熟悉的界面。

RAPIDS cuML 的机器学习算法和数学基元遵循熟悉的类似于 scikit-learn 的 API。单块 GPU 和大型数据中心部署均支持 K-means、XGBoost 等主流算法。针对大型数据集,相较于同等功效的 CPU,这些基于 GPU 的实施方案能够以 10 到 50 倍的速度更快地完成任务。

借助 RAPIDS GPU DataFrame,数据可以通过一个类似 Pandas 的接口加载到 GPU 上,然后用于各种连接的机器学习和图形分析算法,而无需离开 GPU。这种级别的互操作性是通过 Apache Arrow 这样的库实现的。这可加速端到端流程(从数据准备到机器学习,再到深度学习)。

RAPIDS 支持在许多热门数据科学库之间共享设备内存。这样可将数据保留在 GPU 上,并省去了来回复制主机内存的高昂成本。

原文标题:NVIDIA 大讲堂 | 什么是 K-MEANS?

文章出处:【微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

审核编辑:汤梓红
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    11216

    浏览量

    222858
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109045
  • 算法
    +关注

    关注

    23

    文章

    4760

    浏览量

    97121
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136214

原文标题:NVIDIA 大讲堂 | 什么是 K-MEANS?

文章出处:【微信号:NVIDIA_China,微信公众号:NVIDIA英伟达】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    国密系列算法简介及SM4算法原理介绍

    算法可用于无线局域网产品;SM7算法可用于身份识别、票务、支付与通卡业务。ZUC算法可用于移动通信网络。 密码杂凑算法:SM3
    发表于 10-24 08:25

    光伏建筑一体化BIPV:透射率与光伏发电效率的应用研究

    关键变量,通过仿真评估采光充足度(sDA)、眩光空间自主率(sGA)和光伏发电效率(EP_e)并寻找帕累托最优解。最后采用K-means算法对结果进行分析。Fl
    的头像 发表于 07-22 09:52 2114次阅读
    光伏建筑一体化BIPV:透射率与光伏发电效率的应用研究

    晶体管光耦的工作原理

    器件的特性。工作原理概述1.发光器件:晶体管光耦通常包含一个发光二极管(LED)作为光源。当电流通过LED时,它会发出特定波长的光。2.光敏器件:光耦的另一侧是一个
    的头像 发表于 06-20 15:15 630次阅读
    晶体管光耦的<b class='flag-5'>工作原理</b>

    k210在线训练的算法是yolo5吗?

    k210在线训练的算法是yolo5吗
    发表于 06-16 08:25

    GPIO配置的工作原理是什么?

    我使用 EZ-USB 配置实用程序,我想知道是否有人知道 GPIO 配置的工作原理。 例如,GPIO0 可以用作传感器复位,我知道这个 GPIO0 用于重置传感器,但我不明白的是选项用户 GPIO 例如GPIO 1可以是User GPIO0,这是什么意思呢?
    发表于 05-19 06:56

    电动调压器的工作原理

    电压调压器是一种用于控制电路中电压的装置,其工作原理因类型而异,以下是几种常见电压调压器的工作原理
    的头像 发表于 05-12 13:46 899次阅读
    电动调压器的<b class='flag-5'>工作原理</b>

    微动开关的工作原理

    微动开关的工作原理
    的头像 发表于 04-17 09:00 2705次阅读

    开关电源的基本工作原理

    开关电源的工作原理 图1-1-a 是串联式开关电源的最简单工作原理图,图1-1-a 中 Ui 是开关电源的工作电压,即:直流输入电压;K 是控制开关,R 是负载。当控制开关
    发表于 03-10 17:01

    九种常见换热器的工作原理概述

    接触式换热器,也叫混合式换热器,是冷热流体进行直接接触并换热的设备。通常情况下,直接接触的两种流体是气体和汽化压力较低的液体;  蓄能式换热器的工作原理,是利用固体物质的导热特性,具体而言,热介质先将固体物质加热到一定温
    的头像 发表于 02-13 11:11 2338次阅读
    九种常见换热器的<b class='flag-5'>工作原理</b><b class='flag-5'>概述</b>

    数据降维工具介绍——SpatialPCA

    现有常用的空间转录组降维方法,如主成分分析(principal component analysis,PCA)、非负矩阵分解(non-negative matrix factorization
    的头像 发表于 02-07 11:19 1047次阅读
    数据降维<b class='flag-5'>聚</b><b class='flag-5'>类</b>工具介绍——SpatialPCA

    晶振的工作原理概述

    类似电容的结构。当外界施加电压时,由于石英晶体的压电效应,它会发生微小的形变,反之,当晶体受到外力作用发生形变时,又会在其表面产生电荷,这种相互转换的特性构成了晶振工作的基础。 晶振的工作原理基于压电谐振现象
    的头像 发表于 02-05 14:08 1045次阅读

    移动电源的工作原理_移动电源结构

    移动电源的工作原理是将电能存储在内置电池中,然后通过适当的电压和电流输出,为电子设备提供所需的电能。以下是关于移动电源工作原理的详细解释:
    的头像 发表于 01-27 16:11 3262次阅读

    超级电容电池的工作原理

    超级电容电池是一种介于传统电容器与电池之间的新型储能装置。其工作原理主要基于电荷分离和电场存储,以下是关于超级电容电池工作原理的详细解释:
    的头像 发表于 01-27 11:17 1971次阅读

    K型热电偶的工作原理

    K型热电偶的工作原理基于热电效应,也称为塞贝克效应。以下是对其工作原理的介绍: 一、组成结构 K型热电偶由两种不同的金属材料制成,通常是镍铬合金(作为正极)和镍硅合金(作为负极)。这两
    的头像 发表于 01-14 09:34 4477次阅读

    DSR算法工作原理 影响DSR的主要因素

    达目的地的路由,并且能够适应网络拓扑的变化。 DSR算法工作原理: 路由发现(Route Discovery) : 当源节点需要发送数据到一个目的地,但是没有可用的路由时,它会启动路由发现过程。 源
    的头像 发表于 12-06 17:10 3144次阅读