0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

机器学习特征工程的五个方面优点

汽车玩家 来源:今日头条 作者:不一样的程序猿 2020-03-15 16:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

特征工程是用数学转换的方法将原始输入数据转换为用于机器学习模型的新特征。特征工程提高了机器学习模型的准确度和计算效率,体现在以下五个方面

1、把原始数据转换成与目标相关的数据

我们可以使用特征工程对原始数据进行转换,使其更接近目标变量,转换后的特征对目标更有预测性。在这种情况下,虽然未加工输入出现在原始数据集中,但如果将转换后的特征作为输入,则机器学习将提高预测的准确性。

2、引入额外的数据源

特征工程可以使从业者向机器学习模型引入额外的数据源。对于首次注册的用户,我们可以猜测该用户的终生价值。在众多指标中,我们可以捕捉每个用户的地理位置。虽然这个数据可以直接作为分类特征(例如,IP地址和邮政编码)提供,但模型基于这些来确定位置信息仍存在困难。

通过第三方的人口统计数据,我们可以做的更好。例如,这将允许我们计算每个用户区域的平均收入和人口密度,并把这些因素直接插入到训练集中。现在,这些预测性因素立即变得更容易推断,而不是依赖模型从原始位置数据推断这种微妙的关系。更进一步,位置信息转换成收入和人口密度的特征工程,可使我们估计这些位置衍生出的特征哪一个更为重要。

3、使用非结构化的数据源

特征工程可使我们在机器学习模型中使用非结构化的数据源。许多数据源本质上并不是结构化的特征向量。非结构化数据,如文本、时间序列、图像、视频、日志数据和点击流等,占创建数据的绝大多数。特征工程使从业者从上述原始数据流中产生机器学习的特征向量。

4、创建更容易解释的特征

特征工程使机器学习的从业者能够创建更易于解释和实用的特征。通常,使用机器学习发现数据中的模式,对于产生精确的预测十分有用,但会遇到模型的可解释性和模型的最终应用的一些限制。这些情况下,在驱动数据生成、链接原始数据和目标变量的过程中,产生更有指示性的新特征,这样更有价值。

5、用大特征集提高创造性

特征工程使得我们可以扔进大量的特征,观察它们代表了什么。我们能创建尽可能多的数据,观察在训练模型中哪些更有预测力。这使得机器学习的从业者在创建和测试特征时摆脱僵化心理,并能够发现新的趋势和模式。

虽然当几十个甚至上百个特征用于训练机器学习模型时,过拟合成为一个问题,但严谨的特征选择算法,可减少特征使其易于管理。例如,我们可以自主选择前10个特征的预测,与所有1000个特征的预测是一样好,还是优于后者。

特征工程

引自《机器学习实战》

在机器学习应用领域中,特征工程扮演着非常重要的角色,可以说特征工程是机器学习应用的基础。在机器学习业界流传着这样一句话:“数据和特征决定了机器学习算法的上限,而模型和算法只是不断逼近而已。”在机器学习应用中,特征工程介于“数据”和“模型”之间,特征工程是使用数据的专业领域知识创建能够使机器学习算法工作的特征的过程,而好的数据胜于多的数据。美国计算机科学家Peter Norvig有两句经典名言:“基于大量数据的简单模型胜于少量数据的复杂模型。”以及“更多的数据胜于聪明的算法,而好的数据胜于多的数据。”因此,特征工程的前提是收集足够多的数据,其次是从大量数据中提取关键信息并表示为模型所需要的形式。合适的特征可以让模型预测更加容易,机器学习应用更有可能成功。

引自《美团机器学习》

在监督机器学习过程中,我们使用数据教自动系统如何做出准确的决策。机器学习算法被设计成发现模式和历史训练数据间的联系;它们从数据中学习并将学习结果编码到模型中,从而对新数据的重要属性做出准确的预测。因此,训练数据是机器学习中的基本问题。有了高质量的数据,就可以捕捉到细微的差别和关联关系,从而建立高保真的预测系统。相反,若训练数据质量不佳,则再好的机器学习算法也无济于事。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    大电磁频谱管理监测系统软件:有哪些优点和缺点

    大电磁频谱管理监测系统软件:有哪些优点和缺点
    的头像 发表于 09-28 16:50 567次阅读
    <b class='flag-5'>五</b>大电磁频谱管理监测系统软件:有哪些<b class='flag-5'>优点</b>和缺点

    大海上安全事件应急处置系统:有哪些优点和缺点

    大海上安全事件应急处置系统:有哪些优点和缺点
    的头像 发表于 09-04 17:09 724次阅读
    <b class='flag-5'>五</b>大海上安全事件应急处置系统:有哪些<b class='flag-5'>优点</b>和缺点

    【Sipeed MaixCAM Pro开发板试用体验】 + 04 + 机器学习YOLO体验

    机器学习YOLO体验 1.在线训练 Sipeed矽速科技拥有自研搭建的MaixHub平台,可以快速简单的完成yolo训练。 下面我将展示训练集拍摄标注和训练的相关图片 数据集有直接上传和拍摄2种
    发表于 07-24 21:35

    FPGA在机器学习中的具体应用

    ,越来越多地被应用于机器学习任务中。本文将探讨 FPGA 在机器学习中的应用,特别是在加速神经网络推理、优化算法和提升处理效率方面的优势。
    的头像 发表于 07-16 15:34 2634次阅读

    电子硬件工程师如何从零开始学习?(文末免费分享从零开始学习资料)

    经常有用户咨询,如何学习和提升电子硬件能力,有没有适合小白学习的资料等等;电子硬件工程师是一结合理论、实践和创新能力的职业,需要掌握电路设计、元器件选型、PCB设计、嵌入式系统、测试
    的头像 发表于 06-04 07:36 1463次阅读
    电子硬件<b class='flag-5'>工程</b>师如何从零开始<b class='flag-5'>学习</b>?(文末免费分享从零开始<b class='flag-5'>学习</b>资料)

    SOLIDWORKS教育版——全方面学习资源与教程

    功能,更以其全方面学习资源与教程,为学生构建了一从理论到实践、从基础到进阶的完整学习体系。本文将深入探讨SOLIDWORKS教育版如何凭借其丰富的
    的头像 发表于 04-23 11:03 666次阅读
    SOLIDWORKS教育版——全<b class='flag-5'>方面</b>的<b class='flag-5'>学习</b>资源与教程

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习模型市场的未来发展。
    的头像 发表于 02-13 09:39 624次阅读

    人工智能之机器学习在推荐系统中的应用

    机器学习在推荐系统中发挥着关键作用,提升用户体验和业务价值。 协同过滤算法是常用方法。基于用户行为数据,如购买记录、浏览历史,计算用户或物品间相似度。比如,用户 A 和用户 B 购买过很多相同商品
    的头像 发表于 01-21 16:19 790次阅读

    传统机器学习方法和应用指导

    在上一篇文章中,我们介绍了机器学习的关键概念术语。在本文中,我们会介绍传统机器学习的基础知识和多种算法特征,供各位老师选择。 01 传统
    的头像 发表于 12-30 09:16 1982次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    使用机器学习改善库特征提取的质量和运行时间

    有预期工作条件下按规范运行。但由于特征化数据的复杂性和数量,传统的库特征提取和验证在计算和工程工作量方面的成本变得越来越高昂。
    的头像 发表于 12-26 11:15 738次阅读
    使用<b class='flag-5'>机器</b><b class='flag-5'>学习</b>改善库<b class='flag-5'>特征</b>提取的质量和运行时间

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器
    的头像 发表于 12-25 11:54 699次阅读

    《具身智能机器人系统》第7-9章阅读心得之具身智能机器人与大模型

    ,避免灾难性遗忘。 通过这个表格,我们可以清晰地看到预训练+微调+ICL方法与元学习+GPICL方法在各个方面的利弊权衡。作者明确指出,从环境中学习,是具身智能系统的关键特征。因此元
    发表于 12-24 15:03

    cmp在机器学习中的作用 如何使用cmp进行数据对比

    机器学习领域,"cmp"这个术语可能并不是一常见的术语,它可能是指"比较"(comparison)的缩写。 比较在机器学习中的作用 模型
    的头像 发表于 12-17 09:35 1324次阅读

    【面试题】人工智能工程师高频面试题汇总:机器学习深化篇(题目+答案)

    随着人工智能技术的突飞猛进,AI工程师成为了众多求职者梦寐以求的职业。想要拿下这份工作,面试的时候得展示出你不仅技术过硬,还得能解决问题。所以,提前准备一些面试常问的问题,比如机器学习的那些算法
    的头像 发表于 12-16 13:42 3310次阅读
    【面试题】人工智能<b class='flag-5'>工程</b>师高频面试题汇总:<b class='flag-5'>机器</b><b class='flag-5'>学习</b>深化篇(题目+答案)

    构建云原生机器学习平台流程

    构建云原生机器学习平台是一复杂而系统的过程,涉及数据收集、处理、特征提取、模型训练、评估、部署和监控等多个环节。
    的头像 发表于 12-14 10:34 676次阅读