0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

想掌握机器学习技术?从了解特征工程开始

格创东智 2018-12-05 09:36 次阅读

本文作者:格创东智科技有限公司 OT团队


人工智能是过去两到三年时间内科技行业最热的话题。而人工智能技术进步的背后,实质上是机器学习快速发展后所带来的巨大提升。


机器学习被广泛定义为“利用经验来改善计算机系统的自身性能”。事实上,“经验”在计算机中主要是以数据的形式存在的,因此数据是机器学习的前提和基础。

在第一期格物汇的文章中,我们介绍了工业数据预处理的方法,主要针对数据格式异常,数据内容异常等问题进行了简要探讨。做数据预处理的主要目的是将杂乱无章的数据规整成我们想要的矩阵、表格、张量等结构,方便在之后的机器学习中进行模型训练。然而数据中的问题还包含了冗余,噪声,高维度,体量大等很多问题。解决这些问题的方法与数据预处理的方法在机器学习中被统称为特征工程,今天我们就来了解一下吧。


特征工程是什么


当你想要你的预测模型性能达到最佳时,你要做的不仅是要选取最好的算法,还要尽可能的从原始数据中获取更多的信息。那么问题来了,你应该如何为你的预测模型得到更好的数据呢?这就是特征工程要做的事,它的目的就是获取更好的训练数据

维基百科中给特征工程做出了简单定义:特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。简而言之,特征工程就是一个把原始数据转变成特征的过程,这些特征可以很好的描述这些数据,并且利用它们建立的模型在未知数据上的表现性能可以达到最优(或者接近最佳性能)。从数学的角度来看,特征工程就是人工地去设计输入变量X


特征工程的重要性


关于特征工程(Feature Engineering),已经是很古老很常见的话题了,坊间常说:“数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已”。由此可见,特征工程在机器学习中占有相当重要的地位


1、特征越好,灵活性越强

只要特征选得好,即使是一般的模型(或算法)也能获得很好的性能,因为大多数模型(或算法)在好的数据特征下表现的性能都还不错。好特征的灵活性在于它允许你选择不复杂的模型,同时运行速度也更快,也更容易理解和维护。


2、特征越好,构建的模型越简单

有了好的特征,即便你的参数不是最优的,你的模型性能也能仍然会表现的很nice,所以你就不需要花太多的时间去寻找最有参数,这大大的降低了模型的复杂度,使模型趋于简单。


3、特征越好,模型的性能越出色

显然,这一点是毫无争议的,我们进行特征工程的最终目的就是提升模型的性能。


特征工程怎么做

既然特征工程这么重要,那么我们就来看看特征工程到底是如何实现或者工作的。特征工程到底分为哪些内容?我们大致可以参考如下流程图来看看。



简单来说,特征处理主要分如下三个方法:

特征构建

特征构建是指从原始数据中人工的找出一些具有实际意义的特征。需要花时间去观察原始数据,思考问题的潜在形式和数据结构,对数据敏感性和机器学习实战经验能帮助特征构建。除此之外,属性分割和结合是特征构建时常使用的方法。特征构建是个非常麻烦的问题,书里面也很少提到具体的方法,需要对问题有比较深入的理解。

特征抽取

一些观测数据如果直接建模,其原始状态的数据太多。像图像、音频和文本数据,如果将其看做是表格数据,那么其中包含了数以千计的属性。特征抽取是自动地对原始观测降维,使其特征集合小到可以进行建模的过程。通常可采用主成分分析(PCA)、线性判别分析(LDA))等方法;对于图像数据,可以进行线(line)或边缘(edge)的提取;根据相应的领域,图像、视频和音频数据可以有很多数字信号处理的方法对其进行处理。

特征选择

不同的特征对模型的准确度的影响不同,有些特征与要解决的问题不相关,有些特征是冗余信息,这些特征都应该被移除掉。特征选择是自动地选择出对于问题最重要的那些特征子集的过程。常用的特征选择方法可以分为3类:过滤式(filter)、包裹式(wrapper)和嵌入式(embedding)。


小结

总的来说,数据会存在各种各样的问题,针对这些问题我们的特征工程给出了相应的解决办法:1.特征解释能力不足,我们可以尝试使用特征构建,对数据进行升维来提升特征解释能力;2.特征冗余,维度太高,噪声太多,我们可以通过特征抽取和特征选择,来对数据进行降维去噪,提炼特征。当然还有其他的特征处理方法,一般需要根据具体问题而定。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130557
  • 智能制造
    +关注

    关注

    48

    文章

    5111

    浏览量

    75553
  • 工业互联网
    +关注

    关注

    28

    文章

    4233

    浏览量

    93812
收藏 人收藏

    评论

    相关推荐

    嵌入式工程师需要掌握哪些技术?

    嵌入式工程师需要掌握哪些技术? 嵌入式系统是当今科技领域中的重要组成部分,它们存在于我们生活的方方面面,智能手机到汽车控制系统,家电到
    发表于 03-04 16:38

    数据预处理和特征工程的常用功能

    机器学习最基础的5个流程,分别是数据获取,数据预处理,特征工程,建模、测试和预测,上线与部署。
    的头像 发表于 01-25 11:26 277次阅读

    什么是特征工程机器学习特征工程详解解读

    One-hot 编码对于用机器学习模型能够理解的简单数字数据替换分类数据很有用。
    发表于 12-28 17:14 170次阅读
    什么是<b class='flag-5'>特征</b><b class='flag-5'>工程</b>?<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的<b class='flag-5'>特征</b><b class='flag-5'>工程</b>详解解读

    了解AI,从它的底层技术开始

    随着科技的高速发展,人工智能(AI)毫无悬念的成为了当今科技领域的热门话题,它正在改变我们的生活方式,工作方式,甚至是我们的思考方式。然而,AI并不是一夜之间就能实现的,它需要一系列的关键技术作为支撑。想要了解AI,就得从它的底层技术
    的头像 发表于 11-24 09:53 338次阅读

    Python如何进行特征重要性分析

    特征重要性分析用于了解每个特征(变量或输入)对于做出预测的有用性或价值。目标是确定对模型输出影响最大的最重要的特征,它是机器
    发表于 10-13 12:32 174次阅读
    Python如何进行<b class='flag-5'>特征</b>重要性分析

    机器学习技术是什么?机器学习技术在新型电力系统安全稳定中的应用

    机器学习技术是什么?机器学习技术在新型电力系统安全稳定中的应用
    的头像 发表于 08-17 16:30 792次阅读

    机器学习有哪些算法?机器学习分类算法有哪些?机器学习预判有哪些算法?

    机器学习有哪些算法?机器学习分类算法有哪些?机器学习预判有哪些算法?
    的头像 发表于 08-17 16:30 1396次阅读

    机器学习theta是什么?机器学习tpe是什么?

    机器学习theta是什么?机器学习tpe是什么? 机器学习是近年来蓬勃发展的一个领域,其相关
    的头像 发表于 08-17 16:30 1225次阅读

    机器学习是什么意思?机器学习属于什么分支?机器学习有什么用处?

    技术。在这个过程中,计算机通过不断地迭代和学习,提高算法的准确性和可靠性,从而可以更好地解决各种实际问题。 机器学习属于计算机科学领域的一种技术
    的头像 发表于 08-17 16:30 1273次阅读

    机器学习算法入门 机器学习算法介绍 机器学习算法对比

    机器学习算法入门 机器学习算法介绍 机器学习算法对比 机器
    的头像 发表于 08-17 16:27 625次阅读

    机器学习算法总结 机器学习算法是什么 机器学习算法优缺点

    机器学习算法总结 机器学习算法是什么?机器学习算法优缺点?
    的头像 发表于 08-17 16:11 1074次阅读

    机器学习和深度学习的区别

    机器学习和深度学习的区别 随着人工智能技术的不断发展,机器学习和深度
    的头像 发表于 08-17 16:11 3383次阅读

    机器学习可以分为哪几类?机器学习技术有哪些?

    机器学习可以分为哪几类?机器学习技术有哪些 机器学习
    的头像 发表于 08-17 16:11 4381次阅读

    特征空间映射(2)#机器学习

    机器学习
    未来加油dz
    发布于 :2023年07月14日 16:47:05

    机器学习的经典算法与应用

      一、机器学习基础概念   关于数据   机器学习就是喂入算法和数据,让算法从数据中寻找一种相应的关系。   Iris 鸢尾花数据集是一个经典数据集,在统计
    的头像 发表于 05-28 11:29 742次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>的经典算法与应用