0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

100天搞定机器学习:day54 聚类系列:层次聚类原理及案例

电子设计 来源:电子设计 作者:电子设计 2020-12-10 21:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

几张GIF理解K-均值聚类原理
k均值聚类数学推导与python实现
前文说了k均值聚类,他是基于中心的聚类方法,通过迭代将样本分到k个类中,使每个样本与其所属类的中心或均值最近。

今天我们看一下无监督学习之聚类方法的另一种算法,层次聚类:

层次聚类前提假设类别直接存在层次关系,通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。创建聚类树有聚合聚类(自下而上合并)和分裂聚类(自上而下分裂)两种方法,分裂聚类一般很少使用,不做介绍。

聚合聚类

聚合聚类具体过程

对于给定的样本集合,开始将每个样本分到一个类,然后再按照一定的规则(比如类间距最小),将满足规则的类进行合并,反复进行,直到满足停止条件。聚合聚类三要素有:

①距离或相似度(闵可夫斯基距离,相关系数、夹角余弦)

②合并规则(最长/短距离,中心距离,平均距离)

③停止条件(类个数或类直径达到或超过阈值)

聚合聚类算法

输入:n个样本组成的样本集合及样本间距离

输出:样本集合的层次化聚类

(1)计算n个样本两两之间欧氏距离{dij}

(2)构造n个类,每个类只包含一个样本

(3)合并类间距最小的两个类,构造一个新类

(4)计算新类与其他各类的距离,若类的个数为1,终止计算,否则回到(3)

动画表示:

python实现及案例

import queue
import math
import copy
import numpy as np
import matplotlib.pyplot as plt

class clusterNode:

def __init__(self, value, id=[],left=None, right=None, distance=-1,  count=-1, check = 0):
    '''
    value: 该节点的数值,合并节点时等于原来节点值的平均值
    id:节点的id,包含该节点下的所有单个元素
    left和right:合并得到该节点的两个子节点
    distance:两个子节点的距离
    count:该节点所包含的单个元素个数
    check:标识符,用于遍历时记录该节点是否被遍历过
    '''
    self.value = value
    self.id = id
    self.left = left
    self.right = right
    self.distance = distance
    self.count = count
    self.check = check

def show(self):
    #显示节点相关属性
    print(self.value,' ',self.left.id if self.left!=None else None,' ',/
        self.right.id if self.right!=None else None,' ',self.distance,' ',self.count)

class hcluster:

def distance(self,x,y):
    #计算两个节点的距离,可以换成别的距离
    return math.sqrt(pow((x.value-y.value),2))

def minDist(self,dataset):
    #计算所有节点中距离最小的节点对
    mindist = 1000
    for i in range(len(dataset)-1):
        if dataset[i].check == 1:
            #略过合并过的节点
            continue
        for j in range(i+1,len(dataset)):
            if dataset[j].check == 1:
                continue
            dist = self.distance(dataset[i],dataset[j])
            if dist < mindist:
                mindist = dist
                x, y = i, j
    return mindist, x, y
    #返回最小距离、距离最小的两个节点的索引

def fit(self,data):
    dataset = [clusterNode(value=item,id=[(chr(ord('a')+i))],count=1) for i,item in enumerate(data)]
    #将输入的数据元素转化成节点,并存入节点的列表
    length = len(dataset)
    Backup = copy.deepcopy(dataset)
    #备份数据
    while(True):
        mindist, x, y = self.minDist(dataset)
        dataset[x].check = 1
        dataset[y].check = 1
        tmpid = copy.deepcopy(dataset[x].id)
        tmpid.extend(dataset[y].id)
        dataset.append(clusterNode(value=(dataset[x].value+dataset[y].value)/2,id=tmpid,/
            left=dataset[x],right=dataset[y],distance=mindist,count=dataset[x].count+dataset[y].count))
        #生成新节点
        if len(tmpid) == length:
            #当新生成的节点已经包含所有元素时,退出循环,完成聚类
            break
    for item in dataset:
        item.show()
    return dataset

def show(self,dataset,num):
    plt.figure(1)
    showqueue = queue.Queue()
    #存放节点信息的队列
    showqueue.put(dataset[len(dataset) - 1])
    #存入根节点
    showqueue.put(num)
    #存入根节点的中心横坐标
    while not showqueue.empty():
        index = showqueue.get()
        #当前绘制的节点
        i = showqueue.get()
        #当前绘制节点中心的横坐标
        left = i - (index.count)/2
        right = i + (index.count)/2
        if index.left != None:
            x = [left,right]
            y = [index.distance,index.distance]
            plt.plot(x,y)
            x = [left,left]
            y = [index.distance,index.left.distance]
            plt.plot(x,y)
            showqueue.put(index.left)
            showqueue.put(left)
        if index.right != None:
            x = [right,right]
            y = [index.distance,index.right.distance]
            plt.plot(x,y)
            showqueue.put(index.right)
            showqueue.put(right)
    plt.show()

def setData(num):

#生成num个随机数据
Data = list(np.random.randint(1,100,size=num))
return Data

if name == '__main__':

num = 20
dataset = setData(num)
h = hcluster()
resultset = h.fit(dataset)
h.show(resultset,num)

本文由博客一文多发平台 OpenWrite 发布!

审核编辑 黄昊宇
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136229
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123899
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中微公司亮相第五届海英才全球创新创业峰会

    近日,以“上海、创未来”为主题的第五届“海英才”全球创新创业峰会于上海举行。“海英才”作为上海人才工作的主品牌、城市吸引力的主名片,不断汇集全球英才逐梦上海、施展才华。
    的头像 发表于 12-04 15:00 155次阅读

    RoboSense速腾创与导远科技达成战略合作

    RoboSense速腾创与导远科技(ASENSING)宣布正式达成战略合作。此次合作,双方将深度融合RoboSense速腾创在激光雷达感知领域的优势与导远科技在精密惯性导航方面的专长,共同开发
    的头像 发表于 10-24 17:56 958次阅读

    辰EEPROM,工业、汽车、智能眼镜全面开花

      电子发烧友网综合报道,日前,辰半导体对外谈到,公司在工业、AI眼镜、汽车以及DDR5 SPD芯片方面的产品和市场拓展进展。   在工业应用市场,辰具有较深厚的积累,工业级存储芯片现已广泛应用
    的头像 发表于 10-09 03:29 7795次阅读
    <b class='flag-5'>聚</b>辰EEPROM,工业、汽车、智能眼镜全面开花

    网线面板分五

    网线面板确实分五和六,这种分类主要基于其适配的网线类型及传输性能,以下是具体说明: 一、分类依据 适配网线类型 五面板:专为五网线(CAT5)设计,适用于百兆以太网(
    的头像 发表于 08-08 09:46 2847次阅读

    华大九“芯系列活动助力集成电路产业蓬勃发展

    华大九希望通过“芯系列活动,打造一个行业精英与企业应用通畅交流的专业平台,营造以“开放、合作、创新”为主体的产业生态圈,促进技术交流、行业合作及成长共享,让每一位参与者都能在
    的头像 发表于 07-22 09:57 783次阅读

    飞光电总部大厦正式启用

    飞光电大厦位于平湖金融与现代服务业基地核心商圈,占地面积4,186平方米,总建筑面积40,519平方米,楼高99米,是面向未来的企业总部,集综合办公、总部运营、技术研发、商业配套等功能于一身
    的头像 发表于 06-06 15:26 821次阅读

    机器人与地瓜机器人达成战略合作,联合发布Aelos Embodied具身智能

    要闻4月19日,在CCF人形机器人与人工智能技术巡回研讨会(武汉站)上,乐机器人与地瓜机器人达成战略合作,双方将基于RDKX5、RDKS100
    的头像 发表于 04-24 22:07 1112次阅读
    乐<b class='flag-5'>聚</b><b class='flag-5'>机器</b>人与地瓜<b class='flag-5'>机器</b>人达成战略合作,联合发布Aelos Embodied具身智能

    网线超6与6的区别

    网线超6(Cat 6a)与6(Cat 6)的主要区别如下: 1. 传输性能 6网线(Cat 6): 支持最高250 MHz的带宽。 适用于千兆以太网(1 Gbps),最大传输距离100
    的头像 发表于 04-16 10:04 1.2w次阅读

    **【技术干货】Nordic nRF54系列芯片:传感器数据采集与AI机器学习的完美结合**

    【技术干货】nRF54系列芯片:传感器数据采集与AI机器学习的完美结合 近期收到不少伙伴咨询nRF54
    发表于 04-01 00:00

    速腾创第100万台激光雷达下线,用于人形机器人​

    电子发烧友网综合报道 数日前,RoboSense 速腾创成功交付了其第 100 万台激光雷达,订单接收方为人形机器人(上海)有限公司。速腾创由此成为全球首家实现百万台高线数激光雷达
    发表于 03-16 01:00 925次阅读

    四对双绞网线是什么意思

    定义:六四对双绞网线是一种符合CAT-6标准的线缆,用于在网络设备之间传输数据。它包含4对绞合的线芯,每对电线都有不同的颜色标识,用于区分和识别。 结构:这种网线采用规格为23AWG(或接近此规格,如0.574至0.57毫米)的单芯裸铜为导体,
    的头像 发表于 02-23 17:59 1982次阅读

    云科技获亚马逊云科技生成式AI能力认证

    近日,云管理服务提供商云科技成功获得亚马逊云科技生成式AI能力认证。此次认证标志着云科技在利用亚马逊云科技全托管的生成式AI服务方面取得了显著成就,特别是在Amazon Bedrock等技术
    的头像 发表于 02-19 10:33 832次阅读

    数据降维工具介绍——SpatialPCA

    现有常用的空间转录组降维方法,如主成分分析(principal component analysis,PCA)、非负矩阵分解(non-negative matrix factorization
    的头像 发表于 02-07 11:19 1048次阅读
    数据降维<b class='flag-5'>聚</b><b class='flag-5'>类</b>工具介绍——SpatialPCA

    辉贸易”获千万天使轮融资

    近日,“辉贸易”成功完成了1000万人民币的天使轮融资,本轮融资由深圳市风投创业投资有限公司领投。这一轮融资的注入,为“辉贸易”的未来发展注入了强劲的动力。 据“辉贸易”相关负责人介绍,此次
    的头像 发表于 01-02 11:15 1002次阅读

    超五网线与五网线区别

    100BASE-TX网络,即支持最大传输速率为100Mbps的快速以太网。 超五网线(Cat 5e) : 超五网线是
    的头像 发表于 12-28 11:37 9189次阅读