0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

介绍一种基于最小化平方误差的聚类算法

冬至子 来源:数据之书 作者:databook 2023-08-09 16:01 次阅读

物以类聚, 「聚类算法 使用最优化的算法来计算数据点之间的距离,并将它们分组到最近的簇中。

Scipy的聚类模块中,进一步分为两个聚类子模块:

  1. vq(vector quantization):提供了一种基于向量量化的聚类算法。

「vq模块」 支持多种向量量化算法,包括K-meansGMM(高斯混合模型)和WAVG(均匀分布)。

  1. hierarchy:提供了一种基于层次聚类的聚类算法。

「hierarchy模块」 支持多种层次聚类算法,包括wardelbowcentroid

总之,Scipy中的vqhierarchy模块都提供了一种基于最小化平方误差的聚类算法,
它们可以帮助我们快速地对大型数据集进行分组,从而更好地理解数据的分布和模式。

1. vq 聚类

vq聚类算法的原理是将数据点映射到一组称为“超空间”的低维向量空间中,然后将它们分组到最近的簇中。

首先,我们创建一些测试数据:(创建3个类别的测试数据)

import numpy as np
import matplotlib.pyplot as plt

data1 = np.random.randint(0, 30, (100, 3))
data2 = np.random.randint(30, 60, (100, 3))
data3 = np.random.randint(60, 100, (100, 3))

data = np.concatenate([data1, data2, data3])

fig, ax = plt.subplots(subplot_kw={"projection": "3d"})
ax.scatter(data[:, 0], data[:, 1], data[:, 2])
plt.show()

图片

data1data2data3分布在3个区域,
每个数据集有 「100条」 数据,每条数据有 「3个属性」

1.1. 白化数据

「聚类」 之前,一般会对数据进行 「白化」 ,所谓 「白化数据」 ,是指将数据集中的每个特征或每个样本的值都统一为同一个范围。
这样做的目的是为了消除特征之间的量纲和数值大小差异,使得不同特征具有相似的重要性,从而更容易进行聚类算法。

在聚类之前对数据进行 「白化处理」 也被称为 「预处理」 阶段。

from scipy.cluster.vq import whiten

# 白化数据
normal_data = whiten(data)

# 绘制白化后的数据
fig, ax = plt.subplots(subplot_kw={"projection": "3d"})
ax.scatter(normal_data[:, 0], normal_data[:, 1], normal_data[:, 2])
plt.show()

图片

从图中可以看出,数据的分布情况没有改变,只是数据的范围从0~100变成0.0~3.5
这就是白化的效果。

1.2. K-means

白化之后,就可以用K-meas方法来进行聚类运算了。
scipyvq模块中有2个聚类函数:kmeanskmeans2

kmeans函数最少只要传入两个 参数 即可:

  1. 需要聚类的数据,也就是上一步白化的数据
  2. 聚类的数目

「返回值」 有2部分:

  1. 各个聚类的中心
  2. 各个点距离聚类中心点的欧式距离的平均值
from scipy.cluster.vq import kmeans 

center_points, distortion = kmeans(normal_data, 3)
print(center_points)
print(distortion)
# 运行结果
[[1.632802   1.56429847 1.51635413]
 [0.48357948 0.55988559 0.48842058]
 [2.81305235 2.84443275 2.78072325]]
0.5675874109728244

把三个聚类点绘制在图中来看更加清楚:

fig, ax = plt.subplots(subplot_kw={"projection": "3d"})
ax.scatter(normal_data[:, 0], 
           normal_data[:, 1], 
           normal_data[:, 2])
ax.scatter(
    center_points[:, 0],
    center_points[:, 1],
    center_points[:, 2],
    color="r",
    marker="^",
    linewidths=5,
)

plt.show()

图片

图中3个红色的点就是聚类的中心点。

1.3. K-means2

kmeans2函数使用起来和kmeans类似,但是返回值有区别,
kmeans2的返回的是:

  1. 聚类的中心点坐标
  2. 每个聚类中所有点的索引
from scipy.cluster.vq import kmeans2

center_points, labels = kmeans2(normal_data, 3)
print(center_points)
print(labels)
# 运行结果
[[2.81305235 2.84443275 2.78072325]
 [1.632802   1.56429847 1.51635413]
 [0.48357948 0.55988559 0.48842058]]
[2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 ... ...
 0 0 0 0]

可以看出,计算出的聚类中心点center_pointskmeans一样(只是顺序不一样),
labels0,1,2三种值,代表normal_data中每个点属于哪个分类。

kmeans2除了返回了聚类中心点,还有每个数据点属于哪个聚类的信息
所以我们绘图时,可以将属于不同聚类的点标记不同的颜色。

fig, ax = plt.subplots(subplot_kw={"projection": "3d"})
arr_data = [[], [], []]
for idx, nd in enumerate(normal_data):
    arr_data[labels[idx]].append(nd)

data = np.array(arr_data[0])
ax.scatter(data[:, 0], data[:, 1], data[:, 2], color='lightblue')
data = np.array(arr_data[1])
ax.scatter(data[:, 0], data[:, 1], data[:, 2], color='lightgreen')
data = np.array(arr_data[2])
ax.scatter(data[:, 0], data[:, 1], data[:, 2], color='lightyellow')

ax.scatter(
    center_points[:, 0],
    center_points[:, 1],
    center_points[:, 2],
    color="r",
    marker="^",
    linewidths=5,
)

plt.show()

图片

2. hierarchy 聚类

hierarchy聚类算法的步骤比较简单:

  1. 将每个样本视为一个簇
  2. 计算各个簇之间的距离,将距离最近的两个簇合并为一个簇
  3. 重复第二个步骤,直至到最后一个簇
from scipy.cluster.hierarchy import ward, fcluster, dendrogram
from scipy.spatial.distance import pdist

# 计算样本数据之间的距离
# normal_data是之前白化之后的数据
dist = pdist(normal_data)

# 在距离上创建Ward连接矩阵
Z = ward(dist)

# 层次聚类之后的平面聚类
S = fcluster(Z, t=0.9, criterion='distance')
print(S)
# 运行结果
[20 26 23 18 18 22 18 28 21 22 28 26 27 27 20 17 23 20 26 23 17 25 20 22
 ... ...
  5 13  3  4  2  9  9 13 13  8 11  6]

返回的S中有 「300个数据」 ,和normal_data中的数据一样多,S中数值接近的点,分类越接近。

从数值看聚类结果不那么明显,scipy的层次聚类提供了一个dendrogram方法,内置了matpltlib的功能,
可以把层次聚类的结果用图形展示出来。

P = dendrogram(Z, no_labels=True)
plt.show()

图片
从这个图可以看出每个数据分别属于哪个层次的聚类。
最底层的叶子节点就是normal_data中的各个数据,这些数据的索引信息可以从 P 中获取。

# P是一个字典,包含聚类之后的信息
# key=ivl 是图中最底层叶子节点在 normal_data 中的索引
print(P["ivl"])
# 运行结果
['236', '269', '244', ... ... '181', '175', '156', '157']

3. 总结

聚类分析可以帮助我们发现数据集中的内在结构、模式和相似性,从而更好地理解数据。
使用Scipy库,可以帮助我们高效的完成数据的聚类分析,而不用去具体了解聚类分析算法的实现方式。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 处理器
    +关注

    关注

    68

    文章

    18298

    浏览量

    222254
  • 向量机
    +关注

    关注

    0

    文章

    166

    浏览量

    20717
  • GMM
    GMM
    +关注

    关注

    0

    文章

    5

    浏览量

    7197
收藏 人收藏

    评论

    相关推荐

    关于窗口最小化的实现

    我想实现个按钮然后窗口最小化,为什么运行就直接最小化了呢
    发表于 04-16 10:56

    一种改进的SEDF调度算法

    【摘要】:Xen由于其很低的性能损失,而逐渐成为最受欢迎的虚拟管理工具之.但是,它的SEDF调度算法存在在SMP下不能支持全局负载平衡的问题.本文针对此问题提出一种名为IEDF的改
    发表于 04-24 10:03

    LabVIEW最小化的使用

    本帖最后由 lrb0730 于 2017-3-21 11:33 编辑 LabVIEW的vi在运行时如何最小化到系统通知栏,不知道怎么实现?
    发表于 03-21 10:59

    FCM算法以及改进模糊算法用于医学图像分割的matlab源程序

    FCM算法以及改进模糊算法用于医学图像分割的matlab源程序
    发表于 05-11 23:54

    vrf设置程序窗口最小化

    嗨,我有个问题,从vee开始个外部程序,使用函数execute proram.Choosing运行样式选项“最小化”不幸没有效果;该程序总是以前景中最大化的窗口开始。之后我
    发表于 08-31 14:56

    基于应用毫微功耗运算放大器实现系统功耗最小化

    在本系列文章的第部分,我们讨论了直流增益中偏移电压(VOS)和偏移电压漂移(TCVOS)的结构,以及如何选择具有理想精确度的毫微功耗运算放大器(op amp),从而使放大后低频信号路径中误差最小化
    发表于 07-18 07:46

    探讨如何最小化多路复用系统误差

    每个RTD 都自带激励电路和ADC,则具有最佳的精度,但数据采集模块将会体积庞大、成本高昂,且功耗高。多路复用模块具有体积较小、成本和功耗较低的特性,但可能会损失定精度性能。本文讨论如何最小化
    发表于 11-09 08:30

    请教51用的算法

    个数组中使用算法找出重复出现的数组元素,然后使用其他字符表示,达到减少储存空间的作用,有哪位大哥做过相关的项目吗?希望可以赐教下或
    发表于 03-09 23:07

    算法学习

    KMeans理论与算法实现
    发表于 03-12 07:02

    如何使FPGA设计中的功耗最小化

    减小动态和静态功耗的方法有哪些?如何使FPGA设计中的功耗最小化
    发表于 05-08 07:54

    K均值算法的MATLAB怎么实现?

    什么是K-均值法?K均值算法的MATLAB怎么实现?
    发表于 06-10 10:01

    一种基于和竞争克隆机制的多智能体免疫算法

    包含分布式电源的配电网无功优化matlab源代码,代码按照高水平文章复现,保证正确,可先发您文章看是否满足您的要求利用分布式电源的无功补偿能力,提出了一种基于和竞争克隆机制的多智能体免疫
    发表于 12-29 06:50

    转网络查询,最小二乘法讲解

    使得尽可能多的数据成为有效点。接下来我们的工作就是,最小化误差了。最小二成法就此登场。4、最小二乘法名字的缘由有两个,是我们要将
    发表于 10-20 11:17

    关于通信距离最小化的虚拟机分配算法

    关于通信距离最小化的虚拟机分配算法
    发表于 08-31 10:10 8次下载
    关于通信距离<b class='flag-5'>最小化</b>的虚拟机分配<b class='flag-5'>算法</b>

    基于最小重构误差向量图像检索算法

    针对局部聚合描述符向量( VLAD)模型中对特征软量化时权重系数的取值不确定性和特征量化误差较大问题,提出一种具有最小重构误差的权重系数分配算法
    发表于 12-18 09:56 0次下载
    基于<b class='flag-5'>最小</b>重构<b class='flag-5'>误差</b>向量图像检索<b class='flag-5'>算法</b>