k means聚类算法实例

所谓聚类问题，就是给定一个元素集合D，其中每个元素具有n个可观察属性，使用某种算法将D划分成k个子集，要求每个子集内部的元素之间相异度尽可能低，而不同子集的元素相异度尽可能高。其中每个子集叫做一个簇。

与分类不同，分类是示例式学习，要求分类前明确各个类别，并断言每个元素映射到一个类别，而聚类是观察式学习，在聚类前可以不知道类别甚至不给定类别数量，是无监督学习的一种。目前聚类广泛应用于统计学、生物学、数据库技术和市场营销等领域，相应的算法也非常的多。

K-Means算法实例

例：以下是一组用户的年龄数据，将K值定义为2对用户进行聚类。并随机选择16和22作为两个类别的初始质心。

Data_Age = ［15，15， 16， 19， 19， 20， 20， 21， 22， 28， 35， 40， 41， 42， 43， 44， 60， 61， 65］;

CenterId1 =16， CenterId2 = 22

（1）、计算距离并划分数据

通过计算所有用户的年龄值与初始质心的距离对用户进行第一次分类。计算距离的方法是使用欧式距离。距离值越小表示两个用户间年龄的相似度越高。

第一次迭代：

Data_Age = ［15，15， 16， 19， 19， 20， 20， 21， 22， 28， 35， 40， 41， 42， 43， 44， 60， 61， 65］;

Distance（16）= ［1， 1， 0， 3， 3， 4， 4， 5， 6， 12， 19， 24， 25， 26， 27， 28，44， 45， 49］;

Distance（22）= ［7， 7，6， 3， 3， 2， 2， 1， 0， 6， 13， 18， 19， 20， 21， 22， 38， 39，43］;

Group1_（16）= ［15，15， 16］; Mean =15.33

Group2_（22）= ［19，19， 20， 20， 21， 22， 28， 35， 40， 41， 42， 43， 44， 60， 61， 65］; Mean = 36.25

（2）、使用均值作为新的质心

将两个分组中数据的均值作为新的质心，并重复之前的方法，迭代计算每个数据点到新质心的距离，将数据点划分到与之距离较小的类别中。

第二次迭代：

Data_Age = ［15，15， 15.33， 16， 19， 19， 20， 20， 21， 22， 28，35， 36.25， 40， 41， 42， 43， 44， 60， 61， 65］;

Distance（15.33）=［0.33， 0.33， 0.67，3.67， 3.67， 4.67， 4.67， 5.67， 6.67， 12.67， 19.67， 24.67， 25.67， 26.67，27.67， 28.67， 44.67， 45.67， 49.67］;

Distance（36.25）=［21.25， 21.25， 20.25， 17.25， 17.25， 16.25，16.25， 15.25， 14.25， 8.25， 1.25， 3.75， 4.75， 5.75，6.75， 7.75， 23.75， 24.75， 28.75］;

Group1_（15.33）=［ 15， 15， 16， 19， 19， 20， 20， 21， 22］; Mean = 18.56

Group2_（36.25）=［ 28， 35， 40， 41， 42， 43， 44， 60， 61，65］; Mean = 45.90

第三次迭代：

Data_Age = ［15，15， 16， 18.56， 19， 19， 20， 20， 21， 22， 28，35， 40， 41， 42， 43， 44， 45.90， 60， 61， 65］;

Distance（18.56）=［3.56， 3.56， 2.56，0.44， 0.44， 1.44， 1.44， 2.44， 3.44， 9.44， 16.44， 21.44， 22.44， 23.44，24.44， 25.44， 41.44， 42.44， 46.44］;

Distance（45.90）=［30.90， 30.90， 29.90， 26.90， 26.90， 25.90，25.90， 24.90， 23.90， 17.90， 10.90， 5.90， 4.90， 3.90，2.90， 1.90， 14.10， 15.10， 19.10］;

Group1_（18.56）=［ 15， 15， 16， 19， 19， 20， 20， 21， 22， 28］; Mean = 19.50

Group2_（45.90）=［ 35， 40， 41， 42， 43， 44， 60， 61， 65］; Mean = 47.89

第四次迭代：

Data_Age = ［15，15， 16， 19， 19， 19.50， 20， 20， 21， 22， 28，35， 40， 41， 42， 43， 44， 47.89， 60， 61， 65］;

Distance（19.50）=［4.5， 4.5， 3.5，0.5， 0.5， 0.5， 0.5， 1.5， 2.5， 8.5， 15.5， 20.5， 21.5， 22.5， 23.5， 24.5，40.5， 41.5， 45.5］;

Distance（47.89）=［32.89， 32.89， 31.89， 28.89， 28.89， 27.89，27.89， 26.89， 25.89， 19.89， 12.89， 7.89， 6.89， 5.89，4.89， 3.89， 12.11， 13.11， 17.11］;

Group1_（19.50）=［ 15， 15， 16， 19， 19， 20， 20， 21， 22，28］; Mean = 19.50

Group2_（47.89）=［ 35， 40， 41， 42， 43， 44， 60， 61， 65］; Mean = 47.89

（3）、算法停止条件

迭代计算每个数据到新质心的距离，直到新的质心和原质心相等，算法结束。

MATLAB中的kmeans函数

MATLAB中的kmeans函数采用的是将N*P的矩阵X划分为K个类，使得类内对象之间的距离最大，而类之间的距离最小。

使用方法：

Idx = Kmeans（X，K）

［Idx， C］ = Kmeans（X，K）

［Idc， C， sumD］ = Kmeans（X，K）

［Idx， C， sumD， D］ = Kmeans（X，K）

各输入输出参数介绍：

X---N*P的数据矩阵

K---表示将X划分为几类，为整数

Idx---N*1的向量，存储的是每个点的聚类标号

C---K*P的矩阵，存储的是K个聚类质心位置

sumD---1*K的和向量，存储的是类间所有点与该类质心点距离之和

D---N*K的矩阵，存储的是每个点与所有质心的距离

［┈］ = Kmeans（┈，’Param1’，’Val1’，’Param2’，’Val2’，┈）

其中参数Param1、Param2等，主要可以设置为如下：

1、’Distance’---距离测度

‘sqEuclidean’---欧氏距离

‘cityblock’---绝对误差和，又称L1

‘cosine’---针对向量

‘correlation’---针对有时序关系的值

‘Hamming’---只针对二进制数据

2、’Start’---初始质心位置选择方法

‘sample’---从X中随机选取K个质心点

‘uniform’---根据X的分布范围均匀的随机生成K个质心

‘cluster’---初始聚类阶段随机选取10%的X的子样本（此方法初始使用’sample’方法）

Matrix提供一K*P的矩阵，作为初始质心位置集合

3、’Replicates’---聚类重复次数，为整数

MATLAB代码：

% KMeans算法的基本思想是初始随机给定K个簇中心，按照最邻近原则把待分类样本点分到各个簇。

% 然后按平均法重新计算各个簇的质心，从而确定新的簇心。一直迭代，直到簇心的移动距离小于某个给定的值。

% 随机获取200个点

X = ［randn（50，2）+［-ones（50，1）， +ones（50，1）］; randn（50，2）+［ones（50，1）， ones（50，1）］; 。。。

randn（50，2）+［ones（50，1）， -ones（50，1）］; randn（50，2）+［-ones（50，1），-ones（50，1）］］;

MATLAB中的kmeans函数采用的是将N*P的矩阵X划分为K个类，使得类内对象之间的距离最大，而类之间的距离最小。

使用方法：

Idx = Kmeans（X，K）

［Idx，C］ = Kmeans（X，K）

［Idc，C，sumD］ = Kmeans（X，K）

［Idx，C，sumD，D］ = Kmeans（X，K）

各输入输出参数介绍：

X---N*P的数据矩阵

K---表示将X划分为几类，为整数

Idx---N*1的向量，存储的是每个点的聚类标号

Ctrs---K*P的矩阵，存储的是K个聚类质心位置

sumD---1*K的和向量，存储的是类间所有点与该类质心点距离之和

D---N*K的矩阵，存储的是每个点与所有质心的距离

opts = statset（‘Display’，‘final’）;

［Idx，Ctrs，SumD，D］ = kmeans（X，4，‘Replicates’，4，‘Options’，opts）;

% 画出聚类为1的点。

% X（Idx==1，1），为第一类的样本的第一个坐标；X（Idx==1，2）为第一类的样本的第二个坐标

plot（X（Idx==1，1）， X（Idx==1，2）， ‘r.’， ‘MarkerSize’， 14）;

hold on;

plot（X（Idx==2，1）， X（Idx==2，2）， ‘b.’， ‘MarkerSize’， 14）;

hold on;

plot（X（Idx==3，1）， X（Idx==3，2）， ‘g.’， ‘MarkerSize’， 14）;

hold on;

plot（X（Idx==4，1）， X（Idx==4，2）， ‘y.’， ‘MarkerSize’， 14）;

hold on;

% 绘出聚类中心点，kx表示是交叉符

plot（Ctrs（：，1）， Ctrs（：，2）， ‘kx’， ‘MarkerSize’， 14， ‘LineWidth’， 4）;

legend（‘Cluster 1’， ‘Cluster 2’， ‘Cluster 3’， ‘Cluster 4’， ‘Centroids’， ‘Location’， ‘NW’）;

grid on;

［┈］ = Kmeans（┈，’Param1’，’Val1’，’Param2’，’Val2’，┈）

其中参数Param1、Param2等，主要可以设置为如下：

1、‘Distance’---距离测度

‘sqEuclidean’---欧氏距离

‘cityblock’---绝对误差和，又称L1

‘cosine’---针对向量

‘correlation’---针对有时序关系的值

‘Hamming’---只针对二进制数据

2、‘Start’---初始质心位置选择方法

‘sample’---从X中随机选取K个质心点

‘uniform’---根据X的分布范围均匀的随机生成K个质心

‘cluster’---初始聚类阶段随机选取10%的X的子样本（此方法初始使用’sample’方法）

Matrix提供一K*P的矩阵，作为初始质心位置集合

3、‘Replicates’---聚类重复次数，为整数

k means聚类算法实例

阅读全文

聚类算法(12037) 聚类算法(12037)
kmeans(5188) kmeans(5188)

自动驾驶之3D点云聚类算法调研

1. 方法总共分为4类基于欧式距离的聚类 Supervoxel 聚类深度(Depth) 聚类 Scanline Run 聚类 1.1 基于欧氏距离的聚类思路 : 在点云上构造kd-tree

2023-06-07 14:38:38

如何在 Python 中安装和使用顶级聚类算法

有许多聚类算法可供选择，对于所有情况，没有单一的最佳聚类算法。相反，最好探索一系列聚类算法以及每种算法的不同配置。在本教程中，你将发现如何在 python 中安装和使用顶级聚类算法。

2023-05-22 09:13:55

171

大学课程数据分析实战之K-means算法（2）算法代码

继续讲解！程序来啦！最后看一下程序示例！看看如何用K-means算法实现数据聚类的过程。程序很简单，侧重让大家了解和掌握 K-means算法聚类的过程！看代码吧！程序由三部

2023-02-11 07:20:04

167

K-means聚类算法指南

在聚类技术领域中，K-means可能是最常见和经常使用的技术之一。K-means使用迭代细化方法，基于用户定义的集群数量（由变量K表示）和数据集来产生其最终聚类。例如，如果将K设置为3，则数据集将分组为3个群集，如果将K设置为4，则将数据分组为4个群集，依此类推。

2022-10-28 14:25:21

499

基于距离的聚类算法K-means的设计实现

K-means 算法是典型的基于距离的聚类算法，采用距离作为相似性的评价指标，两个对象的距离越近，其相似度就越大。而簇是由距离靠近的对象组成的，因此算法目的是得到紧凑并且独立的簇。

2022-07-18 09:19:13

1438

K-MEANS聚类算法概述及工作原理

K-means 是一种聚类算法，且对于数据科学家而言，是简单且热门的无监督式机器学习(ML)算法之一。

2022-06-06 11:53:55

2540

基于时序性告警的新型云计算聚类算法

信息，必将成为云”能否持续稳定运行的核心问题。据此，文中提出了一种基于时序性告警的新型聚类算法。算法利用设定时间窗口内两两告警之间时间差的关系，构造告警之间新的关系矩阵，再利用K- means算法对关系矩阵中的列向量

2021-06-17 14:34:52

FCM聚类算法以及改进模糊聚类算法用于医学图像分割的matlab源程序

2018-05-11 23:54:19

基于特征和实例迁移的加权多任务聚类算法

2021-06-07 15:18:35

基于最优传输距离和聚类的WSN分簇算法

为降低并均衡无线传感器网络（WSN）中传感器节点的能量消耗，提出一种基于最优传输距离和 K-means聚类的WSN分簇算法。根据层次聚类算法建立聚类特征树，将聚类特征树中的叶节点视为一个簇，并使每个

2021-05-26 14:50:17

基于主题相似度聚类的文本分类算法综述

提取类特征词，利用K- means算法进行聚类并提取簇特征词构成簇特征词库。在此基础上，通过 Adaptive Strategy算法自适应地选择 fasttext Textcnn或RCNN模型进行分类，得到終分类结果。在 AG News数据集上的实验结果表明，该算法可较好地解决不同类别特征词交

2021-05-12 16:25:20

基于混合蛙跳算法的K-mediods聚类算法

为了降低K- mediods聚类算法的误差并提高并行优化的性能，将混合蛙跳算法运用于聚类和并行优化过程。在Kmediods聚类过程中，将K- mediods与聚类簇思想相结合，对各个聚类簇进行混合

2021-05-08 16:17:18

集成簇内和簇间距离的加权k-means聚类方法

聚类分析是数据挖掘与分析最重要的方法之一。它把相似的数据对象归类到一个簇，把不同的数据对象尽可能分到不同的簇。其中k- means聚类算法，由于其简单性和高效性，被广泛运用于解决各种现实问题，例如

2021-04-28 16:43:55

一种自适应的关联融合聚类算法

除边界点和噪声点对聚类结果的影响。引入关联度矩阵，通过计算类簇间的关联程度和融合度量，选取最优关联簇进行融合得到最终聚类结果。实验结果表明，该算法无需人工设置聚类参数，并且与基于密度的空间聚类算法和K均值聚类算法

2021-04-01 16:16:49

针对高维稀疏数据的可重叠子空间K-Means聚类算法

现有聚类算法面向高维稀疏数据时多数未考虑类簇可重叠和离群点的存在，导致聚类效果不理想。为此，提出一种可重叠子空间K- Means聚类算法。设计类簇子空间计算策略，在聚类过程中动态更新每个类簇的属性

2021-03-25 14:07:10

基于距离和密度的并行二分K-means算法

K- means算法初始中心点选择的随机性以及对噪声点的敏感性，使得聚类结果易陷亼局部最优解，为获得最佳初始聚类中心，提岀一种基于距离和密度的并行二分K- means算法。计算数据集的平均样本距离

2021-03-22 16:44:22

一种改进的聚类联合相似度推荐算法

度推荐算法。采用改进的蜂群算法来优化K- means++聚类的中心点，使聚类中心在整个数据内达到最优，并对聚类结果进行集成，使得聚类得到进一步优化。根据聚类结果，在同一类中采用改进的用户相似度算法来优化传统相似度算法，

2021-03-18 11:17:11

如何在python中安装和使用顶级聚类算法?

聚类或聚类分析是无监督学习问题。它通常被用作数据分析技术，用于发现数据中的有趣模式，例如基于其行为的客户群。有许多聚类算法可供选择，对于所有情况，没有单一的最佳聚类算法。相反，最好探索一系列聚类算法

2021-03-12 18:23:43

1828

可检测出租车载客的轨迹聚类算法

目前常见的轨迹聚类大多基于 OPTICS、 DBSCAN和K- means等算法,但这些聚类方法的时间复杂度随着轨迹数量的增加会大幅上升。针对该问题,提岀一种基于密度核心的轨迹聚类算法。通过引入密度

2021-03-11 17:40:31

100天搞定机器学习：day54 聚类系列：层次聚类原理及案例

几张GIF理解K-均值聚类原理k均值聚类数学推导与python实现前文说了k均值聚类，他是基于中心的聚类方法，通过迭代将样本分到k个类中，使...

2020-12-10 21:56:09

216

常见的几种聚类算法

这一最著名的聚类算法主要基于数据点之间的均值和与聚类中心的聚类迭代而成。它主要的优点是十分的高效，由于只需要计算数据点与剧类中心的距离，其计算复杂度只有O（n）。

2020-04-15 15:23:29

14904

正确选择聚类算法的建议

聚类算法十分容易上手，但是选择恰当的聚类算法并不是一件容易的事。

2020-03-15 17:10:00

1663

如何使用K-Means聚类算法改进的特征加权算法详细资料概述

聚类分析是将研究对象分为相对同质的群组的统计分析技术，聚类分析的核心就是发现有用的对象簇。K-means聚类算法由于具有出色的速度和良好的可扩展性，一直备受广大学者的关注。然而，传统的K-means

2018-12-20 10:28:29

如何使用多维网格空间进行改进K-means聚类算法资料概述

K-means算法是被广泛使用的一种聚类算法，传统的-means算法中初始聚类中心的选择具有随机性，易使算法陷入局部最优，聚类结果不稳定。针对此问题，引入多维网格空间的思想，首先将样本集映射到一个

2018-12-13 17:56:55

如何使用概率模型进行非均匀数据聚类算法的设计介绍

针对传统K-means型算法的“均匀效应”问题，提出一种基于概率模型的聚类算法。首先，提出一个描述非均匀数据簇的高斯混合分布模型，该模型允许数据集中同时包含密度和大小存在差异的簇；其次，推导了非均匀

2018-12-13 10:57:59

使用模拟退火与贪心策略的平衡聚类算法的介绍

）2个步骤，以提高平衡聚类算法的聚类效果与时间性能。首先基于模拟退火在数据集中快速定位出K个合适的数据点作为平衡聚类初始点，然后每个中心点分阶段贪婪地将距离其最近的数据点加入簇中直至达到簇规模上限。在6个UCI真实数据集与2个公开图

2018-11-28 09:53:06

基于主动学习先验的半监督K-means聚类算法

基于迭代框架的主动半监督聚类框架（IASSCF）是一个流行的半监督聚类框架。该框架存在两个问题：其一，初始先验信息较少导致迭代初期聚类效果不佳，进而影响后续聚类结果;其二，每次迭代只选择信息量最大的一个样本标记，导致运行速度慢性能提升慢。

2018-11-16 11:16:00

基本的k-means算法流程

同时，k值的选取也会直接影响聚类结果，最优聚类的k值应与样本数据本身的结构信息相吻合，而这种结构信息是很难去掌握，因此选取最优k值是非常困难的。

2018-07-24 17:44:21

18293

K-Means算法的简单介绍

K－Means是十大经典数据挖掘算法之一。K－Means和KNN（K邻近）看上去都是K打头，但却是不同种类的算法。kNN是监督学习中的分类算法，而K－Means则是非监督学习中的聚类算法；二者相同之处是均利用近邻信息来标注类别。

2018-07-05 14:18:00

4095

Python无监督学习的几种聚类算法包括K-Means聚类,分层聚类等详细概述

无监督学习是机器学习技术中的一类，用于发现数据中的模式。本文介绍用Python进行无监督学习的几种聚类算法，包括K-Means聚类、分层聚类、t-SNE聚类、DBSCAN聚类等。

2018-05-27 09:59:13

29359

基于密度DBSCAN的聚类算法

本文开始介绍了聚类算法概念，其次阐述了聚类算法的分类，最后详细介绍了聚类算法中密度DBSCAN的相关概况。

2018-04-26 10:56:41

21028

基于改进k-means算法的MANET异常检测方法

划分贡献度的概念，可合理地计算各维特征在检测中占有的权重，并将遗传算法与快速聚类检测算法k-means相结合，解决了聚类检测结果容易陷入局部最优的问题，进而，提出了以上检测算法在MapReduce框架下的设计方案，利用种群迁移策略在分布式处理器上实现了并行聚类检测。实验结果证明

2018-03-06 15:18:50

大文本数据集的间接谱聚类

针对谱聚类存在计算瓶颈的问题，提出了一种快速的集成算法，称为间接谱聚类。它首先运用K-Means算法对数据集进行过分聚类，然后把每个过分簇看成一个基本对象，最后在过分簇的级别上利用标准谱聚类来完成

2018-02-24 14:43:59

K-means的优缺点及改进

K-means算法的优点是：首先，算法能根据较少的已知聚类样本的类别对树进行剪枝确定部分样本的分类；其次，为克服少量样本聚类的不准确性，该算法本身具有优化迭代功能，在已经求得的聚类上再次进行迭代修正

2018-02-12 16:27:59

30241

k-means算法原理解析

对于K-Means算法，首先要注意的是k值的选择，一般来说，我们会根据对数据的先验经验选择一个合适的k值，如果没有什么先验知识，则可以通过交叉验证选择一个合适的k值。

2018-02-12 16:06:50

7944

基于最优投影的半监督聚类算法

针对谱聚类算法在解决高维、大数据量的聚类问题时出现的效率不高和准确率明显下降的问题进行了研究，并在此研究基础上结合最优投影理论和Nystrom抽样提出了基于最优投影的半监督谱聚类算法

2018-01-14 11:54:58

基于距离最大化和缺失数据聚类的填充算法

通过对基于K-means聚类的缺失值填充算法的改进，文中提出了基于距离最大化和缺失数据聚类的填充算法。首先，针对原填充算法需要提前输入聚类个数这一缺点，设计了改进的K-means聚类算法：使用数据间

2018-01-09 10:56:56

集成式位置敏感聚类

得出多重桶标记，再对数据集各桶标记进行聚类得出多个基划分，最后对多个基划分进行集成得出最终划分。实验结果表明，在准确率方面，集成式位置敏感聚类在人工数据上与k-means结合聚类集成的方法相当，在图像集上与k-means结

2018-01-08 16:38:03

主动表现模型的稀疏聚类人脸识别

。首先，利用主动表观模型快速、准确地对人脸特征点进行定位，获取主要人脸信息；然后，对训练样本进行K-means聚类，将相似程度高的图像分为一类，计算聚类中心，将该中心作为原子构造过完备字典并进行稀疏分解；最后，计算稀疏系数和重构残

2018-01-08 14:38:35

基于近邻传播的迁移聚类算法

在目标域可利用数据匮乏的场景下，传统聚类算法的性能往往会下降，在该场景下，通过抽取源域中的有用知识用于指导目标域学习以得到更为合适的类别信息和聚类性能，是一种有效的学习策略．借此提出一种基于近邻传播

2018-01-07 09:34:44

基于相似度的聚类算法

基于相似度的聚类算法，该算法结合区间值模糊软集的特性，着重对给出评价对象的具有相似知识水平的专家进行聚类，同时讨论了算法的计算复杂度。最后通过实例说明该算法能有效地处理专家聚类问题。

2018-01-05 16:15:27

中点密度函数的模糊聚类算法

针对传统模糊C一均值（ FCM）聚类算法初始聚类中心不确定，且需要人为预先设定聚类类别数，从而导致结果不准确的问题，提出了一种基于中点密度函数的模糊聚类算法。首先，结合逐步回归思想作为初始聚类中心

2017-12-26 15:54:20

基于话题标签和转发的微博聚类和主题词提取

的主题词。在新浪微博数据集上进行实验发现，与k-means算法和基于加权语义和贝叶斯的中文短文本增量聚类算法（ICST-WSNB）相比，基于话题标签和转发关系的微博聚类算法的准确率比k-means算法提高了18.5%，比ICST-WSNB提高了6.48%，召回率以及F-值也有

2017-12-23 10:55:58

大数据处理的优化抽样聚类K-means算法

针对大数据环境下K-means聚类算法聚类精度不足和收敛速度慢的问题，提出一种基于优化抽样聚类的K-means算法（OSCK）。首先，该算法从海量数据中概率抽样多个样本；其次，基于最佳聚类中心的欧氏

2017-12-22 15:47:18

距离不等式的K-medoids聚类算法

研究加速K-medoids聚类算法，首先以PAM（partitiomng around medoids）、TPAM（triangular inequality elimination

2017-12-22 15:35:47

空间邻近的点目标聚类实现方法

了基于空间邻近的点目标聚类方法，通过Voronoi建模识别点目标间的空间邻近关系，并以Voronoi势力范围来定义相似度准则，最终构建树结构以实现点目标的聚集模式识别。实验将所提算法与K-means、具有噪声的基于密度的聚类（ DBSCA

2017-12-19 10:47:32

基于层次划分的密度优化聚类算法

针对传统的聚类算法对数据集反复聚类，且在大型数据集上计算效率欠佳的问题，提出一种基于层次划分的最佳聚类数和初始聚类中心确定算法基于层次划分密度的聚类优化（ CODHD）。该算法基于层次划分，对计算

2017-12-17 11:27:40

熵加权多视角核K-means算法

在基于视角加权的多视角聚类中，每个视角的权重取值对聚类结果的精度都有着重要的影V向。针对此问题，提出熵加权多视角核K-means（ EWKKM）算法，通过给每个视角分配一个合理的权值来降低噪声视角或

2017-12-17 09:57:11

基于布谷鸟搜索的K-means聚类算法

针对原始K-means聚类算法受初始聚类中心影响过大以及容易陷入局部最优的不足，提出一种基于改进布谷鸟搜索（cs）的K-means聚类算法（ACS-K-means）。其中，自适应CS（ ACS）算法

2017-12-13 17:24:06

一种自动三支决策聚类算法

k-means算法自提出50多年来，在聚类分析中得到了广泛应用，但是，k-means算法存在一个突出的问题，即需要预先设定聚类数目。所以，本文针对如何自动获取k-means的聚类数目进行了研究

2017-12-13 10:49:44

基于云计算遗传算法的多任务调度算法

任务调度是云计算中的一个关键问题，遗传算法是一种能较好解决优化问题的算法。本论文针对遗传算法在任务调度过程中随着任务调度问题复杂度增加，算法的性能出现下降的现象，引入K-means聚类算法，提出一种

2017-12-07 15:16:10

一种新的基于流行距离的谱聚类算法

方法进行改进，将传统谱聚类算法（NJW-SC）中的基于欧氏距离的相似性测度换为基于流行距离的相似性测度，在此基础上对样本对象集进行聚类。之后将新提出来的算法同K-Means算法、传统谱聚类算法、模糊C均值聚类算法在人工数据集

2017-12-07 14:53:03

基于像素聚类进行图像分割的算法

的算法。首先，通过各向异性扩散处理图像；然后，使用一维K-均值对像素进行聚类；最后，根据聚类结果和先验知识将像素值修改为最佳类中心像素值。理论分析表明该算法可以使图像的峰值信噪比（ PSNR）达到最大值。实验结果表明：所

2017-12-06 16:44:11

K-Means算法改进及优化

传统的k-means算法采用的是随机数初始化聚类中心的方法，这种方法的主要优点是能够快速的产生初始化的聚类中心，其主要缺点是初始化的聚类中心可能会同时出现在同一个类别中，导致迭代次数过多，甚至陷入

2017-12-05 18:32:54

基于时空模式的轨迹数据聚类算法

针对轨迹聚类算法在相似性度量中多以空间特征为度量标准，缺少对时间特征的度量，提出了一种基于时空模式的轨迹数据聚类算法。该算法以划分再聚类框架为基础，首先利用曲线边缘检测方法提取轨迹特征点；然后根据

2017-12-05 14:07:58

基于聚类集成技术的在线特征选择

针对既有历史数据又有流特征的全新应用场景，提出了一种基于组特征选择和流特征的在线特征选择算法。在对历史数据的组特征选择阶段，为了弥补单一聚类算法的不足，引入聚类集成的思想。先利用k-means方法

2017-12-05 11:00:41

一种新的人工鱼群混合聚类算法

人工鱼群是一种随机搜索优化算法，具有较快的收敛速度，对问题的机理模型与描述无严格要求，具有广泛的应用范围。本文在该算法的基础上，结合传统的K-means聚类方法，提出了一种新的人工鱼群混合聚类算法

2017-12-04 16:18:15

基于Spark的动态聚类算法研究

针对数据流的聚类算法，近年来取得了有效的进展，出现了许多卓有成效的算法。随着信息采集技术的进步，需要处理的数据量越来越大，需要研究针对数据流的并行聚类算法。本文基于串行的数据流聚类算法

2017-12-04 09:22:51

基于人群疏散仿真的折半聚类算法

运用社会力模型（ SFM）模拟人群疏散之前，需要先对人群进行聚类分组；然而，五中心聚类（k-medoids）和统计信息网格聚类（ STING）这两大传统聚类算法，在聚类效率和准确率上都不能满足要求

2017-12-03 10:53:04

K均值聚类算法的MATLAB实现

K-means算法是最简单的一种聚类算法。算法的目的是使各个样本与所在类均值的误差平方和达到最小（这也是评价K-means算法最后聚类效果的评价标准）

2017-12-01 14:07:33

19244

基于密度的K-means算法在聚类数目中应用

针对传统的K-means算法无法预先明确聚类数目，对初始聚类中心选取敏感且易受离群孤点影响导致聚类结果稳定性和准确性欠佳的问题，提出一种改进的基于密度的K-means算法。该算法首先基于轨迹数据分布

2017-11-25 11:35:38

不平衡数据的软子空间聚类算法

针对受均匀效应的影响，当前K-means型软子空间算法不能有效聚类不平衡数据的问题，提出一种基于划分的不平衡数据软子空间聚类新算法。首先，提出一种双加权方法，在赋予每个属性一个特征权重的同时，赋予

2017-11-25 11:33:37

基于Hash改进的k-means算法并行化设计

挖掘其聚类关系，选取初始聚类中心，避免了传统k-means算法对随机选取初始聚类中心的敏感性，减少了k-means算法的迭代次数。又结合MapReduce框架将算法整体并行化，并通过Partition、Combine等机制加强了并行化程度和执行效率。实验表明，该算法不仅提高了聚

2017-11-24 14:24:32

基于网格的快速搜寻密度峰值的聚类算法优化研究

CFSFDP是基于密度的新型聚类算法，可聚类非球形数据集，具有聚类速度快、实现简单等优点。然而该算法在指定全局密度阈值d时未考虑数据空间分布特性，导致聚类质量下降，且无法对多密度峰值的数据集准确聚类

2017-11-21 15:08:57

基于离散量改进k-means初始聚类中心选择的算法

传统kmeans算法由于初始聚类中心的选择是随机的，因此会使聚类结果不稳定。针对这个问题，提出一种基于离散量改进k-means初始聚类中心选择的算法。算法首先将所有对象作为一个大类，然后不断从对象

2017-11-20 10:03:23

基于C均值聚类的定位算法

为了提高WSN节点定位精度，针对测距误差对定位结果的影响，提出基于模糊C均值聚类的定位算法。算法首先利用多边定位算法得到若干个定位结果，利用模糊C均值聚类算法对定位结果进行聚类分析，然后，根据聚类

2017-11-09 17:47:13

基于MCL与Chameleon的混合聚类算法

马尔科夫聚类算法（ Markov Cluster Algorithm，MCL）是一种快速且可扩展的无监督图聚类算法，Chameleon是一种新的层次聚类算法。但MCL由于过拟合会产生很多小聚类

2017-10-31 18:58:21

常用聚类算法有哪些？六大类聚类算法详细介绍

聚类分析计算方法主要有如下几种：划分法、层次法、密度算法、图论聚类法、网格算法和模型算法。划分法（partitioning methods），给定一个有N个元组或者纪录的数据集，分裂法将构造K个分组，每一个分组就代表一个聚类，K《N。

2017-10-25 19:18:34

165890

基于FCM聚类算法的新型图像分割算法分析

模糊C均值（Fuzzy C-means）算法简称FCM算法，是一种基于目标函数的模糊聚类算法，主要用于数据的聚类分析。有了模糊集合的概念，一个元素隶属于模糊集合就不是硬性的了，在聚类的问题中，可以把

2017-08-28 19:53:51

基于加速k均值的谱聚类图像分割算法改进_李昌兴

2017-03-19 19:25:56

基于Canopy的K_means多核算法_邱荣太

基于Canopy的K_means多核算法_邱荣太

2017-03-19 11:33:11

K_means算法的改进及应用_王刚勇

K_means算法的改进及应用_王刚勇

2017-03-19 11:27:34

基于改进K_means聚类的欠定盲分离算法_柴文标

基于改进K_means聚类的欠定盲分离算法_柴文标

2017-03-17 10:31:39

基于PCA的HK聚类算法研究何莹

基于PCA的H_K聚类算法研究_何莹

2017-03-17 08:00:00

基于SVD的Kmeans聚类协同过滤算法王伟

基于SVD的K_means聚类协同过滤算法_王伟

2017-03-17 08:00:00

混合细菌觅食和粒子群的k_means聚类算法

混合细菌觅食和粒子群的k_means聚类算法_闫婷

2017-01-07 19:00:39

基于聚类中心优化的k_means最佳聚类数确定方法

基于聚类中心优化的k_means最佳聚类数确定方法_贾瑞玉

2017-01-07 18:56:13

基于AutoEncoder的增量式聚类算法

基于AutoEncoder的增量式聚类算法_原旭

2017-01-03 17:41:32

基于最小生成树的层次K_means聚类算法

基于最小生成树的层次K_means聚类算法_贾瑞玉

2017-01-03 15:24:45

K-means+聚类算法研究综述

介绍了K-means 聚类算法的目标函数、算法流程，并列举了一个实例，指出了数据子集的数目K、初始聚类中心选取、相似性度量和距离矩阵为K-means聚类算法的3个基本参数。总结了K-means聚

2012-05-07 14:09:14

聚类算法及聚类融合算法研究

聚类算法及聚类融合算法研究首先对聚类算法的特点进行了分析，然后对聚类融合算法进行了挖掘。最后得出聚类融合算法比聚类算法更能得到很好的聚合效果。

2011-08-10 15:08:02

改进的k-means聚类算法在供电企业CRM中的应用

针对k-means算法存在的不足,提出了一种改进算法。针对目前供电企业CRM系统的特点提出了用聚类分析方法进行客户群细分模型设计,通过实验验证了本文提出的k-means改进算法的高效性

2010-03-01 15:28:51

近似骨架导向的归约聚类算法

该文针对聚类问题上缺乏骨架研究成果的现状，分析了聚类问题的近似骨架特征，设计并实现了近似骨架导向的归约聚类算法。该算法的基本思想是：首先利用现有的启发式聚类算

2010-02-10 11:48:09

一种改进的粒子群和K均值混合聚类算法

该文针对K 均值聚类算法存在的缺点，提出一种改进的粒子群优化(PSO)和K 均值混合聚类算法。该算法在运行过程中通过引入小概率随机变异操作增强种群的多样性，提高了混合聚类

2010-02-09 14:21:26

优化初始值的K均值中文文本聚类

文本聚类是中文文本挖掘中的一种重要分析方法。K 均值聚类算法是目前最为常用的文本聚类算法之一。但此算法在处理高维、稀疏数据集等问题时存在一些不足，且对初始聚类

2010-01-15 14:24:46

基于约简-优化原理的动态聚类算法研究

本文通过对常用动态聚类方法的分析，提出了基于“约简-优化”原理的两阶段动态聚类算法的框架，此方法克服了动态聚类搜索空间过大的问题，提高了聚类的精度和效率。

2010-01-09 11:31:14

聚类算法研究

聚类算法研究:对近年来聚类算法的研究现状与新进展进行归纳总结.一方面对近年来提出的较有代表性的聚类算法,从算法思想、关键技术和优缺点等方面进行分析概括;另一方面选择

2009-10-31 08:57:24

基于关联规则与聚类算法的查询扩展算法

基于关联规则与聚类算法的查询扩展算法:针对信息检索中查询关键词与文档用词不匹配的问题，提出一种基于关联规则与聚类算法的查询扩展算法。该算法在第1 阶段对初始查

2009-10-17 23:00:33

Web文档聚类中k-means算法的改进

Web文档聚类中k-means算法的改进介绍了Web文档聚类中普遍使用的、基于分割的k-means算法,分析了k-means算法所使用的向量空间模型和基于距离的相似性度量的局限性,从而

2009-09-19 09:17:03

913

已全部加载完成

搜索历史

k means聚类算法实例

K-Means算法实例

（1）、计算距离并划分数据

（2）、使用均值作为新的质心

（3）、算法停止条件

MATLAB中的kmeans函数

评论