0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习特征工程的五个方面优点

汽车玩家 来源:今日头条 作者:不一样的程序猿 2020-03-15 16:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

特征工程是用数学转换的方法将原始输入数据转换为用于机器学习模型的新特征。特征工程提高了机器学习模型的准确度和计算效率,体现在以下五个方面

1、把原始数据转换成与目标相关的数据

我们可以使用特征工程对原始数据进行转换,使其更接近目标变量,转换后的特征对目标更有预测性。在这种情况下,虽然未加工输入出现在原始数据集中,但如果将转换后的特征作为输入,则机器学习将提高预测的准确性。

2、引入额外的数据源

特征工程可以使从业者向机器学习模型引入额外的数据源。对于首次注册的用户,我们可以猜测该用户的终生价值。在众多指标中,我们可以捕捉每个用户的地理位置。虽然这个数据可以直接作为分类特征(例如,IP地址和邮政编码)提供,但模型基于这些来确定位置信息仍存在困难。

通过第三方的人口统计数据,我们可以做的更好。例如,这将允许我们计算每个用户区域的平均收入和人口密度,并把这些因素直接插入到训练集中。现在,这些预测性因素立即变得更容易推断,而不是依赖模型从原始位置数据推断这种微妙的关系。更进一步,位置信息转换成收入和人口密度的特征工程,可使我们估计这些位置衍生出的特征哪一个更为重要。

3、使用非结构化的数据源

特征工程可使我们在机器学习模型中使用非结构化的数据源。许多数据源本质上并不是结构化的特征向量。非结构化数据,如文本、时间序列、图像、视频、日志数据和点击流等,占创建数据的绝大多数。特征工程使从业者从上述原始数据流中产生机器学习的特征向量。

4、创建更容易解释的特征

特征工程使机器学习的从业者能够创建更易于解释和实用的特征。通常,使用机器学习发现数据中的模式,对于产生精确的预测十分有用,但会遇到模型的可解释性和模型的最终应用的一些限制。这些情况下,在驱动数据生成、链接原始数据和目标变量的过程中,产生更有指示性的新特征,这样更有价值。

5、用大特征集提高创造性

特征工程使得我们可以扔进大量的特征,观察它们代表了什么。我们能创建尽可能多的数据,观察在训练模型中哪些更有预测力。这使得机器学习的从业者在创建和测试特征时摆脱僵化心理,并能够发现新的趋势和模式。

虽然当几十个甚至上百个特征用于训练机器学习模型时,过拟合成为一个问题,但严谨的特征选择算法,可减少特征使其易于管理。例如,我们可以自主选择前10个特征的预测,与所有1000个特征的预测是一样好,还是优于后者。

特征工程

引自《机器学习实战》

在机器学习应用领域中,特征工程扮演着非常重要的角色,可以说特征工程是机器学习应用的基础。在机器学习业界流传着这样一句话:“数据和特征决定了机器学习算法的上限,而模型和算法只是不断逼近而已。”在机器学习应用中,特征工程介于“数据”和“模型”之间,特征工程是使用数据的专业领域知识创建能够使机器学习算法工作的特征的过程,而好的数据胜于多的数据。美国计算机科学家Peter Norvig有两句经典名言:“基于大量数据的简单模型胜于少量数据的复杂模型。”以及“更多的数据胜于聪明的算法,而好的数据胜于多的数据。”因此,特征工程的前提是收集足够多的数据,其次是从大量数据中提取关键信息并表示为模型所需要的形式。合适的特征可以让模型预测更加容易,机器学习应用更有可能成功。

引自《美团机器学习》

在监督机器学习过程中,我们使用数据教自动系统如何做出准确的决策。机器学习算法被设计成发现模式和历史训练数据间的联系;它们从数据中学习并将学习结果编码到模型中,从而对新数据的重要属性做出准确的预测。因此,训练数据是机器学习中的基本问题。有了高质量的数据,就可以捕捉到细微的差别和关联关系,从而建立高保真的预测系统。相反,若训练数据质量不佳,则再好的机器学习算法也无济于事。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    67

    文章

    8565

    浏览量

    137228
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    机器学习特征工程:缩放、编码、聚合、嵌入与自动化

    本文转自:DeepHubIMBA好模型的秘诀不在于更花哨的算法,而在于更好的特征。第1部分:数值特征1.1缩放多数机器学习算法对尺度敏感。一
    的头像 发表于 04-08 14:41 731次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>特征</b><b class='flag-5'>工程</b>:缩放、编码、聚合、嵌入与自动化

    Neway电机方案在机器人技术方面的优势

    Neway电机方案在机器人技术方面的优势Neway电机方案在机器人技术方面展现出显著优势,其通过全国产器件替代、高功率密度设计、多重保护功能、宽温工作能力以及快速交付与供应链稳定性等核
    发表于 03-30 09:39

    算法工程师需要具备哪些技能?

    算法工程师需要掌握一系列跨学科的技能,涵盖数学基础、编程能力、算法理论、工程实践以及业务理解等多个方面。 以下是具体技能及学习建议: 线性代数核心内容:矩阵运算、
    发表于 02-27 10:53

    机器学习特征工程:分类变量的数值化处理方法

    编码是机器学习流程里最容易被低估的环节之一,模型没办法直接处理文本形式的分类数据,尺寸(Small/Medium/Large)、颜色(Red/Blue/Green)、城市、支付方式等都是典型的分类
    的头像 发表于 02-10 15:58 451次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b><b class='flag-5'>特征</b><b class='flag-5'>工程</b>:分类变量的数值化处理方法

    机器学习和深度学习中需避免的 7 常见错误与局限性

    无论你是刚入门还是已经从事人工智能模型相关工作一段时间,机器学习和深度学习中都存在一些我们需要时刻关注并铭记的常见错误。如果对这些错误置之不理,日后可能会引发诸多麻烦!只要我们密切关注数据、模型架构
    的头像 发表于 01-07 15:37 351次阅读
    <b class='flag-5'>机器</b><b class='flag-5'>学习</b>和深度<b class='flag-5'>学习</b>中需避免的 7 <b class='flag-5'>个</b>常见错误与局限性

    方面帮您分辨光缆是否优质?

    光缆是由缆芯、加强钢丝、填充物和护套等几部分组成,另外根据需要还有防水层、缓冲层、绝缘金属导线等构件。 方面帮您分辨光缆是否优质? 1、填充物油膏:它是存在于松套管中的物质,主要含有纤膏与缆膏
    的头像 发表于 12-25 10:05 124次阅读

    工程师实战指南:关于离子捕捉剂应用的关键问题与解答

    在考虑使用离子捕捉剂时,工程师们常有一些具体的实操疑问。本文收集了最具代表性的问题,并结合东亚合成IXE系列的产品特性,给出清晰的技术解答,为您扫清应用障碍。
    的头像 发表于 12-08 16:38 453次阅读
    <b class='flag-5'>工程</b>师实战指南:关于离子捕捉剂应用的<b class='flag-5'>五</b><b class='flag-5'>个</b>关键问题与解答

    自动驾驶中常提的“强化学习”是啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,有些方案中会提到“强化学习(Reinforcement Learning,简称RL)”,强化学习是一类让机器通过试错来学会做决策的技术。简单理解
    的头像 发表于 10-23 09:00 896次阅读
    自动驾驶中常提的“强化<b class='flag-5'>学习</b>”是<b class='flag-5'>个</b>啥?

    大电磁频谱管理监测系统软件:有哪些优点和缺点

    大电磁频谱管理监测系统软件:有哪些优点和缺点
    的头像 发表于 09-28 16:50 978次阅读
    <b class='flag-5'>五</b>大电磁频谱管理监测系统软件:有哪些<b class='flag-5'>优点</b>和缺点

    大海上安全事件应急处置系统:有哪些优点和缺点

    大海上安全事件应急处置系统:有哪些优点和缺点
    的头像 发表于 09-04 17:09 1203次阅读
    <b class='flag-5'>五</b>大海上安全事件应急处置系统:有哪些<b class='flag-5'>优点</b>和缺点

    【Sipeed MaixCAM Pro开发板试用体验】 + 04 + 机器学习YOLO体验

    机器学习YOLO体验 1.在线训练 Sipeed矽速科技拥有自研搭建的MaixHub平台,可以快速简单的完成yolo训练。 下面我将展示训练集拍摄标注和训练的相关图片 数据集有直接上传和拍摄2种
    发表于 07-24 21:35

    FPGA在机器学习中的具体应用

    ,越来越多地被应用于机器学习任务中。本文将探讨 FPGA 在机器学习中的应用,特别是在加速神经网络推理、优化算法和提升处理效率方面的优势。
    的头像 发表于 07-16 15:34 3098次阅读

    电子硬件工程师如何从零开始学习?(文末免费分享从零开始学习资料)

    经常有用户咨询,如何学习和提升电子硬件能力,有没有适合小白学习的资料等等;电子硬件工程师是一结合理论、实践和创新能力的职业,需要掌握电路设计、元器件选型、PCB设计、嵌入式系统、测试
    的头像 发表于 06-04 07:36 2764次阅读
    电子硬件<b class='flag-5'>工程</b>师如何从零开始<b class='flag-5'>学习</b>?(文末免费分享从零开始<b class='flag-5'>学习</b>资料)

    玻璃通孔技术的独特优势

    TGV(Through Glass Via)工艺之所以选择在玻璃上打孔,主要是因为玻璃在以下方面相较于硅具有独特优势。
    的头像 发表于 05-23 16:32 1320次阅读
    玻璃通孔技术的<b class='flag-5'>五</b><b class='flag-5'>个</b>独特优势

    【「# ROS 2智能机器人开发实践」阅读体验】视觉实现的基础算法的应用

    阅读心得体会:ROS2机器人视觉与地图构建技术 通过对本书第7章(ROS2视觉应用)和第8章(ROS2地图构建)的学习,我对机器人视觉感知和自主导航的核心技术有了更深入的理解。以下是我的心得体会
    发表于 05-03 19:41