0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

无监督学习的数据集变换和聚类

汽车玩家 来源:CSDN 作者:zzc_zhuyu 2020-05-04 18:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1、类型

主要有两种类型:数据集变换和聚类。

无监督变换:

降维:接受数据的高维表示,找到新的表示方法,以用较少的特征概括重要特性。

找到“构成”数据的各个组成部分。例如,文本的主题提取。

聚类:

将数据划分成不同的组,每组包含相似的物项

2、降维

1. 主成分分析(PCA)

一种旋转数据集的方法,旋转后的特征在统计上不相关。旋转后,通常根据新特征对数据集的重要性来选择它的一个子集。

主成分

方差最大的方向为“成分1”,这是包含包含最多信息的方向。之后找到与“成分1”正交的包含信息最多的方向,得到“成分2”……利用这一过程找到的方向成为主成分。通常,主成分的个数与原始特征相同。

在PCA找到的额旋转表示中,坐标轴之间 不相关。

应用

高维数据集可视化

特征提取:找到一种数据表示,比给定的原始表示更适合于分析。

对PCA模型的另一种理解:仅适用一些成分对原始数据进行重建。

2. 非负矩阵分解(NMF)

在NMF中,目标是分量和系数均为非负。只能应用于每个特征都是非负的数据,因为非负分量的非负求和不可能得到负值。

与PCA不同,减少分量个数不仅会删除一些方向,而且会创建一组完全不同的分量。

NMF的分量没有按任何特定方法排序,所有分量的地位平等。

NMF使用了随机初始化,根据随机种子的不同可能会产生不同的结果。

3. t-SNE与流形学习

流形学习算法 :主要用于可视化,允许进行更复杂的映射。只能变换用于训练的数据。

t-SNE:找到数据的一个二维表示,尽可能保持数据点之间的距离。试图保存那些点比较靠近的信息。

3、聚类

聚类:将数据集划分成组的任务,这些组叫做簇。

1. K均值聚类

原理

试图找到代表数据特定区域的簇中心

算法过程

① 将每个数据点分配给最近的簇中心

② 将每个簇中心设置为所分配的所有数据点的平均值,如果簇的分配不再变化,结束;反之,执行步骤1

注:聚类算法与分类算法类似,但不存在真实的标签,标签本身没有先验意义。

注意

每个簇仅由其中心决定,这意味着每个簇都是凸型的,因此,只能找到相对简单的形状。

k均值假设所有簇在某种程度上有相同的直径,它总是将簇之间的边界刚好画在簇中心的中间位置

k均值假设所有方向对每个簇同等重要

特点

优点:

容易理解和实现

运行速度相对较快

扩展到大型数据集比较容易

缺点:

依赖于随机初始化

对簇形状的假设的约束性较强

要求制定所要寻找到簇的个数

2. 凝聚聚类

算法首先声明每个点是自己的簇,然后合并两个最相似的簇,直到满足某种停止准则为止。

连接准则:规定如何度量“最相似的簇”。

① ward型:两个簇合并后,使得所有簇中方差增加最小

② average型:平均距离最小的两个簇合并

③ complete型:簇中点之间最大距离最小的两个簇合并

注:凝聚算法不能对新数据点做出预测

凝聚聚类生成了所谓的层次聚类

3. DBSCAN (具有噪声的基于密度的空间聚类应用)

原理

识别特征空间的“拥挤”区域中的点,这些区域成为密集区域。簇形成数据的密集区域,并由相对较空的区域分隔开。在密集区域中的点成为核心样本,指定参数eps和min_samples。如果在一个点eps的距离内至少有min_samples个数据点,则为核心样本。

算法过程

① 任意选取一个点,检查是否是核心样本。

② 若不是,标记为噪声。反之,标记为核心样本,并分配一个新的簇标签。然后检查邻居,若未被分配,分配簇标签;如果是核心样本,依次访问邻居。

③ 选取另一个尚未被访问过的点,重复以上过程。

最后得到三种点:核心点、边界点、噪声。

特点

优点:

不需先验设置簇的个数

可以划分具有复杂形状的簇

可以找出不属于任何簇的点

缺点:

不允许对新的测试数据进行预测

聚类评估

1. 真实值评估

调整rand指数(ARI),归一化互信息(NMI)

二者都给出了定量的度量,最佳值为1,0表示不相关的聚类。

2. 没有真实值

轮廓系数 计算一个簇的紧致度,值越大越好,最高分数为1。虽然紧致的簇很好,但不允许复杂的形状。

聚类小结

k均值

可以用簇的平均值来表示簇。

可被看做是一种分解方法,。每个数据点都由其簇中心表示

DBSCAN

可以检测噪声点

可以自动判断簇的数量

允许簇有复杂的形状

有时会生成大小差别很大的簇,可能是优点可能是缺点

凝聚聚类

可以提供数据的可能划分的整个层次结构

可以通过树状图查看

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4761

    浏览量

    97167
  • 无监督学习
    +关注

    关注

    1

    文章

    17

    浏览量

    2880
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    看懂C语言程序中的内和耦合

    处理元素的输出是后一个处理元素的输入。对于这样的函数,如果不致于产生高耦合的话,可以分开两个函数实现。 有的函数,其中的不同处理功能仅仅是由于都访问某一个公用数据而发生关联,这称为通信内和信息内
    发表于 12-08 06:37

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    强化 监督学习应用:无需NG样本的缺陷检测方案,解决工业数据标注难题 多模态融合技术:PaddleOCR+YOLOv8联动方案,实现\"文字识别+缺陷定位\"一体化 团购课程大纲
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战可(11大系列课程,共5000+分钟)

    (覆盖10+主流品牌),避免采购踩坑 3)稀缺技能强化 监督学习应用:无需NG样本的缺陷检测方案,解决工业数据标注难题 多模态融合技术:PaddleOCR+YOLOv8联动方案,实现\"文字
    发表于 12-03 13:50

    自动驾驶中常提的“强化学习”是个啥?

    下,就是一个智能体在环境里行动,它能观察到环境的一些信息,并做出一个动作,然后环境会给出一个反馈(奖励或惩罚),智能体的目标是把长期得到的奖励累积到最大。和监督学习不同,强化学习没有一一对应的“正确答案”给它看,而是靠与环境交互、自我探索来发现
    的头像 发表于 10-23 09:00 342次阅读
    自动驾驶中常提的“强化<b class='flag-5'>学习</b>”是个啥?

    芯INJOINIC一级代理商——泉鑫科技

    深圳市泉鑫科技有限公司作为英芯(INJOINIC)中国区授权一级代理商,始终秉持“全力服务客户,为客户创造终生价值”的理念,致力于为客户提供优质高效的电子元器件供应链服务与技术支持。英芯作为
    的头像 发表于 09-02 14:55 643次阅读
    英<b class='flag-5'>集</b>芯INJOINIC一级代理商——<b class='flag-5'>聚</b>泉鑫科技

    任正非说 AI已经确定是第四次工业革命 那么如何从容地加入进来呢?

    的基本理论。了解监督学习监督学习和强化学习的基本原理。例如,在监督学习中,理解如何通过标注数据
    发表于 07-08 17:44

    张飞FOC磁场定向控制有感、感电机驱动视频课程及STM32开发套件(共257)

    8)FOC有感感控制原理及框图介绍 9)SVPWM理论、推导、调试 10)标幺化、定点化、Q格式介绍 11)三电阻、双电阻、单电阻采样思路分析 12)坐标变换(Clarke变换、Park
    发表于 07-02 15:59

    机器学习异常检测实战:用Isolation Forest快速构建标签异常检测系统

    本文转自:DeepHubIMBA监督异常检测作为机器学习领域的重要分支,专门用于在缺乏标记数据的环境中识别异常事件。本文深入探讨异常检测技术的理论基础与实践应用,通过Isolatio
    的头像 发表于 06-24 11:40 1206次阅读
    机器<b class='flag-5'>学习</b>异常检测实战:用Isolation Forest快速构建<b class='flag-5'>无</b>标签异常检测系统

    数据下载失败的原因?

    数据下载失败什么原因太大了吗,小的可以下载,想把大的下载去本地训练报错网络错误 大的数据多大?数据量有多少?
    发表于 06-18 07:04

    飞光电总部大厦正式启用

    飞光电大厦位于平湖金融与现代服务业基地核心商圈,占地面积4,186平方米,总建筑面积40,519平方米,楼高99米,是面向未来的企业总部,综合办公、总部运营、技术研发、商业配套等功能于一身
    的头像 发表于 06-06 15:26 824次阅读

    使用MATLAB进行监督学习

    监督学习是一种根据未标注数据进行推断的机器学习方法。监督学习旨在识别
    的头像 发表于 05-16 14:48 1189次阅读
    使用MATLAB进行<b class='flag-5'>无</b><b class='flag-5'>监督学习</b>

    桥PFC变换器综述

    器拓扑的发展历程进行了全面综述,并将桥 PFC 变换器拓扑合成方案分为三大,分别进行了详细介绍。最后,给出了无桥变换器拓扑的发展方向。 关键词:
    发表于 03-13 13:50

    请问NanoEdge AI数据该如何构建?

    我想用NanoEdge来识别异常的声音,但我目前没有办法生成模型,我感觉可能是数据的问题,请问我该怎么构建数据?或者生成模型失败还会有哪些原因?
    发表于 03-10 08:20

    数据降维工具介绍——SpatialPCA

    ,NMF)等,多是基于单细胞数据进行开发的,因此不一定完全适用于空间转录组数据。例如,常用的降维方法并没有运用空间转录组所特有的组织空间定位信息,而仅仅只是基于表达谱进行
    的头像 发表于 02-07 11:19 1063次阅读
    <b class='flag-5'>数据</b>降维<b class='flag-5'>聚</b><b class='flag-5'>类</b>工具介绍——SpatialPCA