0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何刻画数据的本质?流形学习能帮到你

格创东智 2019-04-28 19:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在格物汇之前的文章中,我们系统性的介绍了特征抽取的经典算法——主成分分析PCA与线性判别分析LDA的原理、应用场景,以及这两种算法的局限性和改进方法。今天的格物汇要给大家介绍一种新的机器学习算法——流形学习


流形学习


流形学习是一类借鉴了拓扑流形概念的降维方法,与核PCA的目的一样,它想要在低维空间中尽量保持在高维空间中的结构。一个形象的流形降维过程如下图,我们有一块卷起来的布,我们希望将其展开到一个二维平面,我们希望展开后的布能够在局部保持布结构的特征,其实也就是将其展开的过程,就像两个人将其拉开一样。


图1.jpg


流形学习方法有很多种,但是他们具有一些共同的特征:首先构造流形上样本点的局部邻域结构,然后用这些局部邻域结构来将样本点全局的映射到一个低维空间。它们之间的不同之处主要是在于构造的局部邻域结构不同,以及利用这些局部邻域结构来构造全局的低维嵌入方法的不同。下面我们简要介绍两种最常见的流形学习方法:Isomap和LLE。

Isomap


高维数据结构可能太过于抽象,很难去理解。我们先来看一个具体的实例:在上一篇文章中,我们所看到的三维空间上的数据是呈现”S”型,假设我们想寻找图中两点的测地距离(延曲面距离),就不能用这两点坐标所计算的欧式距离,如下图(a)黑色线所示,因为黑色线所构成的路径延曲面不可达。而应该使用其沿着“S”形曲面所生成的距离,想象一下一只蚂蚁在数据曲面上爬行,它不能脱离曲面行走,行走的路径如下图(a)红色线所示。下图(b)则显示的是两条线本真二维结构上所显示的路径,很明显红色的线更加真实的反映了两个数据点在三维数据上的距离。

图2.jpg


上述这种寻找数据曲面测算距离的方法称为Isomap(等度量映射),它是流形学习中的一种方法。它是如何实现的呢?它假设数据点与K个最近邻的点可以构成一个子集,这个子集可以用普通的欧式距离来衡量,而这个子集中的点又与其他子集中的点相连,这样两个目标点的距离就可以分解成若干子集的欧式距离叠加来近似得到,最后这些相连的点可以降维到低维空间中展现出来。


图3.jpg



局部线性嵌入(LLE)

流形学习另外一个典型案例是局部线性嵌入(LLE)。Isomap假设近邻的测地距离可以用欧式距离来表示。而LLE则假设在近邻内可以用线性加权互相表达。比如对于任意一个样本x0,我们都可以用他附近的几个点x1 x2 x3 x4的线性组合表示出来,即

图4.jpg

经过LLE降维投影后,原来的点x0 x1 x2 x3 x4,投影变成了

图5.jpg

LLE降维的想法是,降维后尽量去保留高维时的线性组合关系:

图6.jpg

图7.jpg


如何求解呢?我们需要先求出线性组合的权重w,对于样本x0我们需要找到其最近的k个其他样本点,假设为x1 x2 x3 x4,我们根据线性表示误差最小来求出w:

图8.jpg

根据上式确定出线性组合的w以后,我们还需要让其在低维空间也能尽可能满足线性组合的表达关系式,也就是说对于x0 x1 x2 x3 x4……的低维投影点z0 z1 z2 z3 z4……满足:

图9.jpg

两个优化目标函数类型很像,但需要明确的是第一个目标函数优化的是权重w,而第二个目标函数优化的是降维后的坐标z。经过优化即可得出样本集在低维空间上的投影坐标。

总的来说,对于不在某一个点x0邻域内的其他点A,不管A怎么变动,都不会影响到点x0,这种变动局部限制的思想在很多地方都有用,此外LLE尽可能的保存了局部线性信息,使得其在局部能反映出数据原本的结构。它的流程大致如下图所示:

图10.jpg

小结


LLE是广泛使用的图形图像降维方法,它实现简单,但是对数据的流形分布特征有严格的要求。比如不能是闭合流形,不能是稀疏的数据集,不能是分布不均匀的数据集等等,这限制了它的应用。

优点

1、可以学习任意维的局部线性的低维流形

2、算法归结为稀疏矩阵特征分解,计算复杂度相对较小,实现容易

缺点

1、算法所学习的流行只能是不闭合的,且样本集是稠密均匀的

2、算法对最近邻样本数的选择敏感,不同的最近邻数对最后的降维结果有很大影响

好了,以上就是本期格物汇的内容,我们下期见。


本文作者:格创东智OT团队(转载请注明作者及来源)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能制造
    +关注

    关注

    48

    文章

    6139

    浏览量

    79468
  • 工业互联网
    +关注

    关注

    28

    文章

    4383

    浏览量

    95994
  • 工业大数据
    +关注

    关注

    0

    文章

    72

    浏览量

    8157
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    在物联网设备面临的多种安全威胁中,数据传输安全威胁和设备身份安全威胁有何本质区别?

    在物联网设备面临的多种安全威胁中,数据传输安全威胁和设备身份安全威胁有何本质区别,实际应用中哪一种更难防范?
    发表于 11-18 06:41

    CRC校验的本质和物理意义

    01 多项式:x^16 + x^15 + x^2 + 1 通过多项式长除法计算得到的余数即为CRC值(0xC599)。 2. 校验码的物理意义 CRC校验码本质是原始数据的\"数字指纹
    发表于 11-13 07:58

    半导体缺陷检测升级:机器学习(ML)攻克类别不平衡难题,小数据精准判,降本又提效!

    一、引言机器学习(ML)在半导体制造领域的应用,正面临传统算法难以突破的核心瓶颈。尽管行业产生海量生产数据,但两大关键问题始终未能有效解决:一是极端类别不平衡,二是初始生产阶段训练数据
    的头像 发表于 11-05 11:38 207次阅读
    半导体缺陷检测升级:机器<b class='flag-5'>学习</b>(ML)攻克类别不平衡难题,小<b class='flag-5'>数据</b>也<b class='flag-5'>能</b>精准判,降本又提效!

    jf_58112309
    发布于 :2025年10月15日 10:36:52

    云翎智能防爆执法记录仪赋电力石化巡检:构建本质安全新防线

    在电力与石化行业,设备老化、高温高压、易燃易爆等风险如影随形,巡检作业的安全性与效率直接关系到企业生产稳定与人员生命安全。传统巡检模式依赖人工记录,存在数据易丢失、隐患响应滞后、现场取证困难等痛点
    的头像 发表于 08-26 21:27 243次阅读
    云翎智能防爆执法记录仪赋<b class='flag-5'>能</b>电力石化巡检:构建<b class='flag-5'>本质</b>安全新防线

    深度学习对工业物联网有哪些帮助

    深度学习作为人工智能的核心分支,通过模拟人脑神经网络的层级结构,能够自动从海量工业数据中提取复杂特征,为工业物联网(IIoT)提供了从数据感知到智能决策的全链路升级能力。以下从技术赋
    的头像 发表于 08-20 14:56 760次阅读

    FPC连接器的技术本质与核心有哪些优势?

    FPC连接器是如今电子设备中非常重要的关键组件,其技术本质与核心优势正随着5G通信、物联网、智能穿戴等领域的爆发式增长而日益凸显。从技术原理到应用场景,FPC连接器通过独特的结构设计和材料创新
    的头像 发表于 07-13 11:06 649次阅读
    FPC连接器的技术<b class='flag-5'>本质</b>与核心有哪些优势?

    全国首个地埋式储项目落地,沃橙新能源开启储3.0时代,重新定义储安全!

    近日,储能行业迎来历史性突破——浙江沃橙新能源有限公司自主研发的地埋式储技术,正式通过中国电工技术学会储领域阶段评审并落地建设,填补了多项储领域关键技术空白,标志着储产业正式迈
    的头像 发表于 07-04 15:01 1163次阅读
    全国首个地埋式储<b class='flag-5'>能</b>项目落地,沃橙新能源开启储<b class='flag-5'>能</b>3.0时代,重新定义储<b class='flag-5'>能</b>安全!

    深圳 8月22-23日《EMC本质之EMC设计整改核心原理及解决方法》公开课即将开始!

    课程名称:《EMC本质之EMC设计整改核心原理及解决方法》讲师:郑老师时间地点:深圳8月22-23日主办单位:赛盛技术课程背景本质是本身所固有的,决定事物性质、面貌何发展的根本属性。这一属性是事物
    的头像 发表于 06-16 17:17 359次阅读
    深圳 8月22-23日《EMC<b class='flag-5'>本质</b>之EMC设计整改核心原理及解决方法》公开课即将开始!

    机器学习的智能光子学器件系统研究与应用

    腾讯会议---六月直播 1.机器学习的智能光子学器件系统研究与应用 2.COMSOL声学多物理场仿真技术与应用 3.超表面逆向设计及前沿应用(从基础入门到论文复现) 4.智能光学计算成像技术
    的头像 发表于 06-04 17:59 447次阅读
    机器<b class='flag-5'>学习</b>赋<b class='flag-5'>能</b>的智能光子学器件系统研究与应用

    天合储能以创新驱动电化学储电站安全升级

    近日,华东能源监管局发布了《电化学储电站本质安全提升工程工作方案》,明确以“全面消除安全风险、严格安全准入、淘汰落后设备、推广先进技术、科技赋”为核心,提出在2025年底前完成淘汰退出严重危及
    的头像 发表于 05-15 16:22 682次阅读

    本质安全设备标准(IEC60079-11)的理解(四)

    本质安全型电子产品设计规范
    发表于 03-24 09:21 1次下载

    EM储网关 ZWS智慧储云应用(7) — 数据修正

    导读ZWS智慧储云,会统计电量、能耗等数据,这些统计数据与客户收益情况息息相关。在日常运营中,常有各种异常因素,导致统计有误。ZWS储云,针对异常情况是如何
    的头像 发表于 02-08 13:00 755次阅读
    EM储<b class='flag-5'>能</b>网关 ZWS智慧储<b class='flag-5'>能</b>云应用(7) — <b class='flag-5'>数据</b>修正

    上海 3月14-15日《EMC本质之EMC设计整改核心原理及解决方法》公开课即将开始!

    课程名称:《EMC本质之EMC设计整改核心原理及解决方法》讲师:郑老师时间地点:上海3月14-15日主办单位:赛盛技术课程背景本质是本身所固有的,决定事物性质、面貌何发展的根本属性。这一属性是事物
    的头像 发表于 01-06 14:26 731次阅读
    上海 3月14-15日《EMC<b class='flag-5'>本质</b>之EMC设计整改核心原理及解决方法》公开课即将开始!

    中科亿海微荣获2024年度中国图象图形学学会技术发明奖

    喜报近日,根据《中国图象图形学学会科学技术奖章程》和《中国图象图形学学会技术发明奖评选条例》相关要求,中国图象图形学学会组织完成了2024年科学技术奖励的推荐和评选工作。经过形式审查、初评公示和终
    的头像 发表于 12-11 01:02 751次阅读
    中科亿海微荣获2024年度中国图象图<b class='flag-5'>形学</b>学会技术发明奖