0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习特征选择的三种方法

倩倩 来源:云溪初阁 2020-04-15 15:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

特征选择,这是一个在机器学习中非常重要的东西,那些好的特征可以从整体上来提升模型的性能,可以帮助我们更加清晰的理解真个数据的特点及底层结构,对于后面的模型,算法有着非常重要的作用。

备注:在很多情况下,特征选择并非必要的,业务特征的选择有很强烈的业务契合度在里面,代表着这些特征在业务中的重要性也是很高,如果去掉,很有可能会有一定的副作用,但是无法说清这个副作用,这个需要进入到训练中去训练数据来验证这个效果。

特征选择作用

这里有些同学可能是刚开始接触做特征选择,并不是很了解为什么要做特征选择,做了有什么作用?是否只是简单地减少特征?是否这样子做了,对结果有没有影响?

这里每个人都有自己的理解,小编根据自己的经验,总结有两个,参考一下:

1、减少特征的数量,降低维度,这样子可以在一定程度上加强模型的泛化能力,从而尽可能地减少过拟合,这里要注意一下:过拟合只能减少,无法消灭,好比这个世上,其实没有最优解的一样,拥有的只有不满足。

2、在一定程度上降低特征后,从直观上来看,很多时候可以一目了然看到特征与特征值之间的关联,这个场景,需要实际业务的支撑,生产上的业务数据更加明显,有兴趣的同学可以私信我加群,一起研究。

特征选择从何入手

这是一个非常重要的问题,有很多同学可能刚开始接触或者想往这方面发展,拿到了一组数组,很多时候就是直接拿了一个算法,直接做分类或者做回归或者做聚类,但是这样子正常情况下,数据会存在很多噪音(科普:噪音可以理解为一些垃圾数据,对我们的结果或者期望造成了干扰),这样子的数据不会很好。

那如果我要特征选择呢,又不知从何入手?

这里有两个方法,可以作为参考:

1、从业务范围分析,直接观察特征与业务的相关性,这点非常重要,那些对业务有着直接指标的数据,建议保留,否则,可以考虑手动删除掉。

2、从发散特性分析,这个很多同学毕业后,就忘了这个东西,简单用成语一个成语来理解一下:一成不变。如果这个特征满足这种条件,那证明不发散,其实在数学中,用方差来计算的,这种不发散的特征,基本就没有什么差异性了,例如某一项特征都是0,怎么有影响呢,这样子的特征其实就没什么用。

特征选择的三种方法

进行特征选择的时候,其实有一定的方法或者规律可言,总结起来有三个

1、过滤法:目前这是小编用的最普遍的方法,因为最简单,与业务契合度最高,操作过程就是我可以设定某一个阈值,然后根据数据的发散情况或者与业务是否相关来打分,一般都是当低于这个阈值的时候,就可以考虑过滤掉。

2、嵌入法:这个方法无法直接从字面来理解,但是其实也是很好的东西,小编把它叫做过滤法的进化版。如何理解这个进化版,原先我们采用过滤法的时候,很多时候是人肉直接撸一撸,但是这时候特征多呢,给你200个特征,然后我就可能瞎了或者手废掉了,此时的做法是此案用机器学习的算法或者模型来训练,然后可以得到各个特征的权重值,做个排序,干掉那些排序地的,例如树的特征选择,这些算法,后面会逐一介绍。

3、包装法:听这个名字,是不是也是很迷糊,其实这个也比较好理解,不断循环训练模型,进行目标函数的计算,一般我们是采用预测的效果来评分,逐一选择一定量的特征来做,不断循环,得到结果进行对比,这样就可以看到哪些特征不好。不过这个小编比较少用,计算上比较费时费力,后面的具体算法也会介绍到。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4807

    浏览量

    98571
  • 机器学习
    +关注

    关注

    67

    文章

    8565

    浏览量

    137228
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    机器学习特征工程:缩放、编码、聚合、嵌入与自动化

    取值范围仅0到1的列。常用的三种缩放器各有适用场景:StandardScaler适合近似正态分布的数据,也是最常见的选择;MinMaxScaler将值压缩到0和1
    的头像 发表于 04-08 14:41 731次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>特征</b>工程:缩放、编码、聚合、嵌入与自动化

    器件工艺协同优化中加速版图设计的三种方法

    器件工艺协同优化(DTCO)流程需要生成海量版图。本文将介绍几种借助自动化手段,加速这一耗时流程的实现方法
    的头像 发表于 03-24 09:41 228次阅读
    器件工艺协同优化中加速版图设计的<b class='flag-5'>三种方法</b>

    机器学习特征工程:分类变量的数值化处理方法

    编码是机器学习流程里最容易被低估的环节之一,模型没办法直接处理文本形式的分类数据,尺寸(Small/Medium/Large)、颜色(Red/Blue/Green)、城市、支付方式等都是典型的分类
    的头像 发表于 02-10 15:58 455次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>特征</b>工程:分类变量的数值化处理<b class='flag-5'>方法</b>

    提高石英晶体振荡器相位噪声性能的4种方法

    如果你正在设计一款用于5G基站或精密雷达的振荡器,单纯靠一种方法是不够的。你需要“SC切割晶体 + 四点封装”作为基础,配合“电子补偿”电路来应对动态环境,同时辅以“超低噪声电源”和“精密温控”。这套组合拳,就是目前业界公认的“硬核”降噪方案。
    的头像 发表于 01-16 16:38 1395次阅读
    提高石英晶体振荡器相位噪声性能的4<b class='flag-5'>种方法</b>

    嵌入式中的浮点型数据转换为字节类型的三种方法

    什么是浮点数 浮点数是指一既包含小数又包含整数的数据类型。 浮点型变量分类 浮点型分为单精度(float型)和双精度(double型)。浮点型变量使用定义。如下: float a; // 声明
    发表于 01-07 06:28

    C语言中实现函数宏的三种方式

    ,在 {}、do{...}while(0) 和 ({}) 这三种函数宏的封装方式之中,应尽可能不使用 {},考虑兼容性一般选择使用 do{...}while(0),当需要函数宏返回时可以考虑使用 ({}) 或直接定义函数。
    发表于 12-29 07:34

    请问CW32芯片的三种工作模式是什么?

    CW32芯片的三种工作模式是什么?
    发表于 12-26 06:48

    PA300系列功率计 :三种数据记录方法详解,应对不同测试场景

    本文导读致远仪器PA300系列功率计具有高精度、易集成、高性价比的特点,广泛应用于光伏、家电、电源、电机等行业。本文介绍其三种数据记录方法,适应不同测试场景需求。PA300系列功率计功率计是一
    的头像 发表于 11-25 11:37 465次阅读
    PA300系列功率计 :<b class='flag-5'>三种</b>数据记录<b class='flag-5'>方法</b>详解,应对不同测试场景

    有多少种方法可以进行频响曲线测量?

    。下面列出APx500软件包含的至少10种方法都可以进行频响曲线的测量:FrequencyResponseContinuousSweepAcousticRespo
    的头像 发表于 11-14 11:29 1223次阅读
    有多少<b class='flag-5'>种方法</b>可以进行频响曲线测量?

    伺服电机的三种制动方式有什么区别?

    伺服电机作为自动化控制系统中执行元件的核心部件,其制动性能直接影响设备的定位精度和安全可靠性。目前主流的伺服电机制动方式包括动态制动、再生制动和电磁机械制动三种,它们在制动原理、应用场景及技术特点上
    的头像 发表于 09-19 18:26 2243次阅读
    伺服电机的<b class='flag-5'>三种</b>制动方式有什么区别?

    量子机器学习入门:三种数据编码方法对比与应用

    在传统机器学习中数据编码确实相对直观:独热编码处理类别变量,标准化调整数值范围,然后直接输入模型训练。整个过程更像是数据清洗,而非核心算法组件。量子机器学习的编码完全是另一回事。传统算
    的头像 发表于 09-15 10:27 960次阅读
    量子<b class='flag-5'>机器</b><b class='flag-5'>学习</b>入门:<b class='flag-5'>三种数据编码方法</b>对比与应用

    MEMS中的三种测温方式

    在集成MEMS芯片的环境温度测量领域,热阻、热电堆和PN结原理是三种主流技术。热阻是利用热敏电阻,如金属铂或注入硅的温度电阻系数恒定,即电阻随温度线性变化的特性测温,电阻变化直接对应绝对温度,需恒流源供电。
    的头像 发表于 07-16 13:58 1907次阅读
    MEMS中的<b class='flag-5'>三种</b>测温方式

    HarmonyOS基础组件:Button三种类型的使用

    中的Button相较于Android原生来说,功能比较丰富,扩展性高,减少了开发者的代码数量,简化了使用方式。不仅可以自定义圆角还支持三种样式。 常用属性 名称 参数类型 描述 type
    的头像 发表于 06-09 15:48 2712次阅读
    HarmonyOS基础组件:Button<b class='flag-5'>三种</b>类型的使用

    介绍三种常见的MySQL高可用方案

    在生产环境中,为了确保数据库系统的连续可用性、降低故障恢复时间以及实现业务的无缝切换,高可用(High Availability, HA)方案至关重要。本文将详细介绍三种常见的 MySQL 高可用
    的头像 发表于 05-28 17:16 1439次阅读

    精选好文!噪声系数测量的三种方法

    器件噪声系数的三种方法。每种方法都有其优缺点,适用于特定的应用。下表是三种方法优缺点的总结。理论上,同一个射频器件的测量结果应该一样,但是由于射频设备的限制(可用性、精度、频率范围、噪声基底等),必须
    发表于 05-07 10:18