0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

简析特征抽取的经典算法PCA

电子设计 来源:电子设计 作者:电子设计 2020-12-25 18:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

之前格物汇的文章给大家介绍过,随着近几年大数据技术的普及,企业可以获取海量数据,但是这些海量数据带给我们更多信息的同时,也带来了更多的噪音和异常数据,如何降维去噪成为很多企业关注的焦点。而特征抽取和特征选择都是降维的重要方法,针对于the curse of dimensionality(维数灾难),都可以达到降维的目的,但是这两种方法有所不同。

特征抽取(Feature Extraction)

Creatting a subset ofnew features by combinations of the exsiting features.也就是说,特征抽取后的新特征是原来特征的一个映射。

特征选择(Feature Selection)

choosing a subset of allthe features(the ones more informative。也就是说,特征选择后的特征是原来特征的一个子集。

特征抽取是如何对数据进行变换的呢?其两个经典的方法:主成分分析(Principle Components Analysis ,PCA)和线性评判分析(LinearDiscriminant Analysis,LDA)给出了解答,今天我们就先来看一下什么是主成分分析。

什么是主成分分析

主成分分析(principal component analysis),PCA是其缩写。此方法是一种无监督线性转换技术,其目标是找到数据中最主要的元素和结构,去除噪音和冗余,将原有的复杂数据降维,揭露出隐藏在复杂数据背后的简单结构。

主成分分析就是试图在力保数据信息丢失最少的原则下,对这种多变量的数据表进行最佳综合简化。这些综合指标就称为主成分,也就是说,对高维变量空间进行降维处理,从线性代数角度来看,PCA目标是找到一组新正交基去重新描述得到的数据空间,这些新维度就是主成分。

PCA的原理

我们现在来看一下PCA算法是如何实现的,我们通过一个具体实例来理解,假设我们有这样一些标准化后的数据:[-1,-2],[-1,0],……,[2,1],[0,1]。我们写成向量的形式如下:

我们还可以在二维坐标系中画出来:

PCA主要的目的是降维简化数据,这些数据本就是二维,想要再降维则需要重新找一个方向,并把这些点映射到这个方向上(降到1维)。试想,怎么才能找到这个方向,且不损失大部分信息呢?PCA的做法是,找到新映射的方法需要满足如下两个原则:

1、在新映射的方向上每个数据的映射点方差尽可能大。因为方差大的数据所包含的信息量越大。

2、新映射的方向应彼此正交,这样映射出的坐标点选取才更有意义。

寻找新映射也可以看作基变换,我们可以不断旋转基,寻找满足上面两个原则的情况。如下图所示,中间的映射方向图里数据在新基上映射点的方差就比右边图映射点方差大的多。而方差大则表示该数据在该方向上含有的信息量多,反之另一个新基的方向上含有的信息量就少的多。如果这个方向上的信息量非常少,即使舍去也无伤大雅,我们就可以考虑将其舍去,实现降维的操作。

新基可以看成是由以前标准直角坐标系旋转而成,在线性代数中,这样的坐标轴旋转操作可以通过原本直角坐标系坐标乘转换矩阵得到:

所以我们就将问题转换成找转移矩阵W上,如何去求W呢?我们希望降维后的数据要尽可能的与原数据非常接近(不丢失信息)。我们可以计算转换后的坐标Z与转换之前的坐标X之间的距离:

因此为了让转换距离最小,我们可以将问题等价转换成:

由于中间推导过程较为复杂,故在此省略,最后求解推导的结果为:

这不正是特征值的定义公式吗?所以只需要对协方差矩阵进行特征值分解,并将求得的特征值排序,取前N(PCA所要降低的目标维度)个特征值构成的向量W,即为PCA的解。

PCA优缺点

优点

(1)它是无监督学习,只与数据相关,无参数限制。

(2)通过PCA降维,可以达到简化模型和对数据进行压缩的效果。同时最大程度的保持了原有数据的信息。

(3)各主成分之间正交,可消除原始数据成分间的相互影响

(4)计算方法简单,易于在计算机上实现。

缺点

(1)如果用户对观测对象有一定的先验知识,掌握了数据的一些特征,却无法通过参数化等方法对处理过程进行干预,可能会得不到预期的效果,效率也不高

(2)贡献率小的主成分往往可能含有对样本差异的重要信息

好了,今天格物汇的内容就到这里,近期我们还将介绍特征抽取的另一种方法LDA(线性评判分析),敬请期待。

本文作者:格创东智OT团队(转载请注明作者及来源)

审核编辑:符乾江
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能计算
    +关注

    关注

    0

    文章

    195

    浏览量

    17031
  • 智能制造
    +关注

    关注

    48

    文章

    6136

    浏览量

    79463
  • 工业互联网
    +关注

    关注

    28

    文章

    4383

    浏览量

    95993
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    云平台智慧供热系统

    云平台智慧供热系统,是一款专为热网运行管理设计的智能化平台。系统深度融合物联网、大数据分析与现代信息技术,实现对供热过程的精准监测与智能调控,不仅显著提升能源利用效率,更保障供热系统稳定运行,让温暖高效送达千家万户,以数字之力,重塑城市温暖新体验。 实时数据监测:云平台智慧供热系统能够实时监测供热系统的温度、压力、流量等关键参数,包括实时数据查看、智能统计报表、换热站数据监控、热网调度调控等,确保供热
    的头像 发表于 08-26 15:29 489次阅读
    <b class='flag-5'>简</b><b class='flag-5'>析</b>云平台智慧供热系统

    Modbus和MQTT协议

    Modbus和MQTT协议在设计目标、通信模式、应用场景、网络结构、数据传输效率、设备兼容性及安全性等方面存在显著差异,具体分析如下: 一、设计目标与定位 Modbus :诞生于1979年,由施耐德公司开发,最初为串行通信(RS232/RS485)设计。其目标是解决工业设备(如PLC、传感器、仪表)之间的短距离、点对点或小范围组网通信,核心是设备间直接的数据读写控制。Modbus属于工业现场总线协议,侧重底层设备的高效数据交互。 MQTT :2013年由OASIS标准化,最初
    的头像 发表于 07-10 14:25 480次阅读

    Modbus与MQTT的区别

    Modbus和MQTT是工业领域中两种不同的通信协议,在设计目标、应用场景、通信模式等方面存在显著差异,以下从多个维度两者的区别: 1.设计目标与起源 Modbus 诞生于1979年,由施耐德
    的头像 发表于 07-10 14:10 693次阅读

    PCA9958HN-ARD】GUI工具的使用

    一、说明 PCA9958HN-ARD评估板是可以通过NXP官方的GUI上位机来进行控制的,但是需要使用另外的官方指定的MCU开发板。 例如下图就是通过LPC55S69-EVKMCU板来演示
    发表于 06-29 10:07

    开疆智能CCLinkIE转ModbusTCP网关连接PCA3200电能表配置案例

    本案例是三菱PLC通过CCLinkIE转ModbusTCP网关连接西门子PCA3200电能表的配置案例。
    的头像 发表于 06-28 14:03 539次阅读
    开疆智能CCLinkIE转ModbusTCP网关连接<b class='flag-5'>PCA</b>3200电能表配置案例

    特征空间在端侧的作用

    解决方案的过程中,算法并不是最重要的因素(虽然是必要的),尤其是对于端侧应用。数据才是关键,一旦有了数据,真正起决定作用的,其实是隐藏在其中的“特征”(Feature)。
    的头像 发表于 04-08 09:44 673次阅读
    <b class='flag-5'>特征</b>空间在端侧的作用

    RTC芯片有Linux PCA2131驱动程序吗?

    RTC 芯片有 Linux PCA2131驱动程序吗? 1) 如果没有,我可以使用任何兼容的驱动程序来驱动这个 RTC 芯片吗? 2) 如果是,我在哪里可以找到它?
    发表于 03-31 06:22

    如何在i.MX6ULL定制板上启用IO Expander PCA6416A的控制?

    我想知道如何在 i.MX6ULL 定制板上启用 IO Expander PCA6416A 的控制。 我尝试修改 imx6ul-14x14-evk.dtsi,将 pca6416 节点添加到 i2c2
    发表于 03-26 07:10

    PID控制算法的C语言实现:PID算法原理

    的是,在我所接触的控制算法当中,PID 控制算法又是最简单,最能体现反馈思想的控制算法,可谓经典中的经典
    发表于 02-26 15:24

    请教技术大牛关于PCA9306 issue

    PCA9306我们采用的PCA9306 chip. 电路低压侧为3.3V, 高压侧为5V. EN and VREF2 信号 通过200k ohm 电阻连5V,100nf 电容接地! 发现当5V
    发表于 01-20 09:05

    PCA9306是否有最低工作电流?

    PCA9306的数据手册中,我看到了这样一段 以及这样一个表格: 从上面的文字以及表格我的理解是,流过这个器件的最高电流不得超过15mA,就如上表所示,每一个电压下不同电流时对应的电阻取值
    发表于 01-08 07:04

    PCA9306低压供电端即使不供电,会有2.5v电压,是什么原因?

    PCA9306按照参考设计,低压供电1.8v,高压供电3.3v;实测发现高压供电3.3v后,低压供电端即使不供电,会有2.5v电压,请问是什么原因,谢谢!
    发表于 01-07 07:54

    EE-116:SHARC词DMA

    电子发烧友网站提供《EE-116:SHARC词DMA.pdf》资料免费下载
    发表于 01-05 09:56 0次下载
    EE-116:SHARC<b class='flag-5'>简</b>词DMA

    PCA9306 I2C缓冲器评估模块

    电子发烧友网站提供《PCA9306 I2C缓冲器评估模块.pdf》资料免费下载
    发表于 12-23 15:16 0次下载
    <b class='flag-5'>PCA</b>9306 I2C缓冲器评估模块

    戴尔I7的图纸下载 版号是PCA40D

    戴尔I7的图纸 版号是PCA40D
    发表于 12-20 14:43 0次下载