0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何给工业大数据降维去噪,你可以试试特征选择

格创东智 2018-12-18 14:09 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文作者:格创东智OT团队 (转载请注明来源及作者)


在之前格物汇的文章中,我们介绍了特征构建的几种常用方法。特征构建是一种升维操作,针对特征解释能力不足,可以通过特征构建的方法来增加特征解释力,从而提升模型效果。随着近几年大数据技术的普及,我们可以获取海量数据,但是这些海量数据带给我们更多信息的同时,也带来了更多的噪音和异常数据。如何降维去噪成为很多企业关注的焦点,今天我们将介绍特征工程中的一种降维方法——特征选择


什么是特征选择

特征选择( Feature Selection )也称特征子集选择( FeatureSubset Selection , FSS ),或属性选择( Attribute Selection )。是指从已有的N个特征(Feature)中选择M个特征使得系统的特定指标最优化。

图1.jpg



特征选择主要有两个功能

  • 减少特征数量、降维,使模型泛化能力更强,减少过拟合

  • 增强对特征和特征值之间的理解


特征选择的流程


特征选择的目标是寻找一个能够有效识别目标的最小特征子集。寻找的一般流程可用下图表示:


一般来说,通过枚举来对特征子集进行选择是一个比较费时的步骤,所以应使用一些策略来进行特征选择,通常来说,我们会从两个方面考虑来选择特征:

>>>>

特征是否发散

如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。

>>>>

特征与目标的相关性

这点比较显见,与目标相关性高的特征,应当优选选择。除方差法外,本文介绍的其他方法均从相关性考虑。

根据特征选择的形式又可以将特征选择方法分为3种:

  • Filter

  • Wrapper

  • Embedded

特征选择的方法


01

Filter


过滤法,按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。

评分指标有:

  • 方差:评价指标的离散程度,越离散说明包含的信息越多。

  • 相关性:衡量特征对目标的解释能力,相关系数越大说明解释能力越强。

  • 卡方检验:检验定性自变量对定性因变量的相关性。

图3.jpg

  • 互信息:也是评价定性自变量对定性因变量的相关性的。

图4.jpg


02

Wrapper

包装法,根据目标函数(通常是预测效果)评分,每次选择若干特征,或者排除若干特征,主要的方法是递归特征消除法。递归消除特征法使用一个基模型来进行多轮训练,每轮训练后,减少若干特征,或者新增若干特征,进行评估看新增的特征是否需要保留,剔除的特征是否需要还原。最后再基于新的特征集进行下一轮训练。

03

Embedded


嵌入法,先使用某些机器学习算法和模型进行训练,得到各个特征的权值系数,根据系数从大到小选择特征。类似于Filter方法,但是是通过训练来确定特征的优劣。

一般分为如下两大类:

>>>>

基于惩罚项的特征选择法

这个方法可以用线性回归模型来举例说明,我们在线性模型的目标函数中增加L1正则项(实际上这就是lasso模型)。由于该正则项的存在,某些与目标y不太相关的特征的系数将缩减至0,而保留的特征系数将相应调整,从而达到了对特征进行筛选的效果,L1正则项系数越大,筛选的力度也就越大。

>>>>

基于树模型的特征选择法

在我们之前的文章中介绍过随机森林,GDBT等等基于树的模型,他们均有一个特点就是模型可以计算出特征的重要性。决策树会优先将对预测目标y帮助最大的特征放在模型的顶端,因此根据这个效果我们计算得到特征的重要性,进而我们可以根据特征重要性对特征进行选择。


今天我们大致了解了如何给工业大数据降维去噪,进行特征选择,在后续文章中,我们将继续带大家了解特征工程的另一个内容——特征抽取,敬请期待。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 特征选择
    +关注

    关注

    0

    文章

    12

    浏览量

    7371
  • 大数据
    +关注

    关注

    64

    文章

    9029

    浏览量

    143062
  • 智能制造
    +关注

    关注

    48

    文章

    6136

    浏览量

    79464
  • 工业互联网
    +关注

    关注

    28

    文章

    4383

    浏览量

    95993
  • 工业大数据
    +关注

    关注

    0

    文章

    72

    浏览量

    8157
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    北京工业大学开源鸿蒙技术俱乐部正式揭牌成立

    2025年10月29日上午,由OpenAtom OpenHarmony(以下简称“开源鸿蒙”)项目群技术指导委员会和北京工业大学计算机学院共同举办的“北京工业大学开源鸿蒙技术俱乐部成立大会暨智能物联
    的头像 发表于 11-04 09:23 638次阅读
    北京<b class='flag-5'>工业大</b>学开源鸿蒙技术俱乐部正式揭牌成立

    湖北大数据集团到访智科技参观交流

    近日,湖北大数据集团有限公司党委书记、董事长汪小波率队到访智科技。双方围绕时空数据融合、公共数据授权运营及行业应用场景开发等议题展开深入探讨。
    的头像 发表于 11-03 10:02 403次阅读

    产教融合新落地!视智造与安徽工业大学共建智能视觉实验室

    近日,视智造与安徽工业大学电气与信息工程学院达成深度合作,共建智能视觉实验室,并于今年完成了MV-VS1100S-VB机器视觉应用教学实验平台的交付,为该校智能感知工程专业的教学实践注入“工业级”力量。
    的头像 发表于 10-29 15:27 122次阅读

    工业数据云平台有哪些好用的?

    )。 华为云:华为云工业互联平台专注于工业数字化转型,提供工业物联网、边缘计算和工业大数据分析等服务。其应用场景广泛,涵盖制造业、能源、交通等领域。华为云凭借强大的生态系统和持续的技术
    的头像 发表于 10-20 17:25 445次阅读
    <b class='flag-5'>工业</b><b class='flag-5'>数据</b>云平台有哪些好用的?

    工业大舵机和普通舵机的区别?

    工业大舵机和普通舵机在设计定位、性能参数、应用场景等多方面存在显著差异,以下是具体对比: 核心性能参数 精度控制 工业大舵机 :配备高精度位置传感器(如磁阻式绝对值编码器),精度可达 0.1 度以下
    的头像 发表于 09-25 10:41 476次阅读

    御控工业物联网大数据解决方案:排水设备远程监控与大数据统计系统

    御控工业物联网推出排水设备远程监控与大数据统计系统,通过物联网、大数据、云计算等技术构建“感知-传输-分析-决策”闭环管理体系,助力排水行业数字化转型。
    的头像 发表于 09-12 10:04 488次阅读

    智科技荣获2025年第七届浦东新区大数据创新应用竞赛优胜奖

    智科技凭借基于时空AI技术打造的“城市时空智能服务平台",荣获第七届浦东新区大数据创新应用竞赛——城市数字化转型场景创新赛《优胜奖》。
    的头像 发表于 09-06 16:47 1288次阅读

    智科技亮相2025中国国际大数据产业博览会

    近日,全球大数据领域瞩目的盛会——2025中国国际大数据产业博览会隆重开幕。作为华为重要生态合作伙伴,智科技作为时空人工智能与城市数字化领域的领先企业,受邀参加展览展示。
    的头像 发表于 09-04 18:03 1197次阅读

    数据中台可以接入哪些物联网云平台

    : 一、工业互联网平台 工业互联网平台聚焦制造业场景,提供设备连接、协议解析、边缘计算及工业大数据分析能力,与数据中台结合可实现生产数据全链
    的头像 发表于 08-19 15:22 533次阅读

    工业组态云平台可以实现哪些功能

    工业组态云平台可以实现数据采集与监控、报警通知、远程控制与运数据分析与决策、组态设计与可视化等多种功能,以下是具体介绍: 1、
    的头像 发表于 08-18 14:36 280次阅读

    工业大模型利用全流程数据采集推动显示行业生产制造升级

    挖掘与智能分析,显示工业大模型能够突破传统生产模式的局限,在工艺优化、质量管控、设备运等关键环节实现智能化跃升,推动显示制造向更高效率、更高质量、更低成本的方向发展。 全流程数据:显示工业大
    的头像 发表于 07-28 10:37 365次阅读

    欧菲光荣获第七届“深圳工业大奖” 深圳工业界最高荣誉

    近日,第七届“深圳工业大奖”名单公示,经深圳工业大奖独立评审团成员认真审议、记名投票,分别评选产生第七届“深圳工业大奖”企业10家、工业家10位、项目10个。其中,欧菲光集团股份有限公
    的头像 发表于 07-15 18:07 1068次阅读

    工业大数据管理平台是什么?有什么功能?

    PLC跨网段通信网关是一种用于解决工业自动化领域中不同网络段内PLC(可编程逻辑控制器)设备通信问题的关键设备,其核心作用是实现不同网络协议、IP网段之间的数据交互与信息传输,下面从多个方面详细介绍
    的头像 发表于 06-13 15:43 334次阅读

    京东工业大模型Joy industrial重磅发布

    京东工业多年深耕工业数智供应链领域形成的经验积累和数据沉淀,通过“工业大模型+供应链场景应用”双引擎,构建从底层算力、算法、数据到应用的全栈
    的头像 发表于 05-28 17:12 768次阅读

    数据聚类工具介绍——SpatialPCA

    ,NMF)等,多是基于单细胞数据进行开发的,因此不一定完全适用于空间转录组数据。例如,常用的聚类方法并没有运用空间转录组所特有的组织空间定位信息,而仅仅只是基于表达谱进行聚类。但是
    的头像 发表于 02-07 11:19 1050次阅读
    <b class='flag-5'>数据</b><b class='flag-5'>降</b><b class='flag-5'>维</b>聚类工具介绍——SpatialPCA