0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

特征工程实施步骤

颖脉Imgtec 2024-10-23 08:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来源:Coggle数据科学


入门特征工程

1. 为什么特征工程很重要?

对于不同的数据科学家,特征工程可能呈现不同的意义。对于一些数据科学家,特征工程是我们如何缩减用于监督模型的特征(例如,试图预测响应或结果变量)。

be9c071c-90d2-11ef-b5cd-92fbcf53809c.png

对于其他人,它是从非结构化数据中提取数值表示以供无监督模型使用的方法(例如,试图从之前非结构化的数据集中提取结构)。特征工程包括这两种情况,以及更多内容。数据从业者通常依赖ML和深度学习算法,即使所使用的数据格式不良且非最佳。如果我们不构建适当的特征,依赖复杂而耗时的ML模型来解决问题,我们可能会得到糟糕的ML模型。如果我们花时间了解我们的数据,并为我们的ML模型构建特征,使其能够学习,那么我们最终可以得到更小、更快的模型,其性能可以与甚至优于复杂的模型相媲美。

2. 特征工程的局限性

特征工程并不是解决所有问题的灵丹妙药。例如,在数据量过小的情况下,特征工程无法解决机器学习模型面临的数据不足问题。对于包含少于1000行数据的数据集,在特征工程方面的努力有限,很难从这些数据观察中提取更多信息。

特征工程也不能在特征和响应之间创建本来不存在的联系。如果最初的特征在隐含上对于响应变量没有任何预测能力,那么再多的特征工程也无法创造这种联系。可以在性能上取得一些小幅度的提升,但不能指望特征工程或机器学习模型能够奇迹般地在特征和响应之间创造关系。

3. 特征工程的步骤特征工程是指将原始数据转化为机器学习模型能够理解的数据表示的过程,它是整个ML流水线的关键一环。以下是文本中提到的主要概念和步骤:机器学习流水线的五个步骤:

定义问题领域(Defining the problem domain):这一步骤涉及明确我们想要通过机器学习解决的问题,同时考虑模型预测速度或可解释性等特点。这些考虑将在模型评估阶段起到关键作用。

获取准确代表问题的数据(Obtaining data):考虑并实施数据收集方法,确保数据收集公平、安全,并尊重数据提供者的隐私。此时还可以进行探索性数据分析(EDA),以更好地了解正在处理的数据。

特征工程(Feature engineering):这是文本中重点介绍的部分。特征工程涵盖了将数据转化为适合输入机器学习模型的最佳表示的所有工作。

模型选择和训练(Model selection and training):在这个阶段,选择适合数据和问题的模型,并进行仔细的训练。如果在第一步中强调模型的可解释性,可能会选择基于树的模型而不是深度学习模型。

模型部署和评估(Model deployment and evaluation):在这个阶段,数据准备就绪,模型已经训练完毕,可以将模型投入生产。同时需要考虑模型版本控制和预测速度等因素。必须部署评估过程,以跟踪模型随时间的性能变化,并注意模型的衰退情况。

概念漂移和数据漂移:

  • 概念漂移(Concept Drift):这是指随着时间推移,特征或响应的统计特性发生变化。模型训练时的数据代表了某个时间点的快照,随着时间的推移,数据所代表的环境可能会发生变化,导致我们对特征和响应的认识也发生变化。这可能需要更新模型以适应新的概念。
  • 数据漂移(Data Drift):这是指数据的基础分布因某种原因发生了变化,但我们对特征的解释保持不变。例如,在全球大流行病爆发后,人们的观影习惯发生了变化,观影时间的分布可能会发生显著变化。这需要我们调整模型以适应新的数据分布。

特征工程细分的步骤:

  1. 特征理解(Feature understanding):理解正在处理的数据的层级结构对选择适当的特征工程方法至关重要。
  2. 特征结构化(Feature structuring):如果数据是非结构化的(如文本、图像、视频等),需要将其转换为结构化格式,以便机器学习模型能够理解。这可能需要应用特征提取或学习方法。
  3. 特征优化(Feature optimization):一旦数据被结构化,可以应用优化技术,如特征改进、提取、构建和选择,以获得最适合模型的数据表示。
  4. 特征评估(Feature evaluation):在尝试不同特征工程方案时,可以选择一个学习算法和一些参数选项进行快速调整,以评估应用不同特征工程技术的效果。

数据类型1. 结构化数据和非结构化数据结构化数据是按照严格的数据模型或设计组织起来的,通常以表格(行/列)格式表示,其中行代表个体观察,列代表特征。

beceb45a-90d2-11ef-b5cd-92fbcf53809c.png

而非结构化数据则没有预定义的设计,不遵循特定的数据模型,例如客户服务对话的转录、YouTube 视频、播客音频等。2. 数据的四个级别

名义级别、序数级别、间隔级别和比例级别。名义级别是纯粹的定性数据,没有顺序和数值含义。序数级别在定性数据中具有一定的顺序,但值之间的差异没有实际意义。间隔级别中,数据之间的差异有一致的意义,可以进行加法和减法操作。比例级别是最高级别,除了有一致的差异意义外,还存在真正的零点,允许进行乘法和除法操作。

bee6c324-90d2-11ef-b5cd-92fbcf53809c.png

特征工程的类型

特征工程是指在机器学习流程中对原始数据进行预处理和转换,以便更好地适应模型的需求,提高模型的性能和效果。

bf045650-90d2-11ef-b5cd-92fbcf53809c.png
  1. 特征改进(Feature Improvement):特征改进技术通过各种数学转换来增强现有的结构化特征。通常是对数值特征应用转换,如填充缺失数据、标准化和归一化。这可以包括应用z-score转换、使用统计中位数来填充缺失值等。特征改进在早期的案例研究中扮演着重要角色。它适用于不同层级的数据,根据数据的层级可以选择不同的改进方式。
  2. 特征构建(Feature Construction):特征构建是通过直接转换现有特征或将原始数据与新数据源的数据进行连接,从而手动创建新特征的过程。这可以包括从新数据源中提取信息,创建新的特征。例如,从住房数据集中提取户主总收入以及家庭人数作为新特征。特征构建可以涉及将分类特征转换为数值特征,或者将数值特征通过分桶转换为分类特征。
  3. 特征选择(Feature Selection):特征选择涉及从现有特征集中选择最佳特征,以减少模型需要学习的特征数量,同时减少特征之间的依赖关系。这可以防止模型中出现特征之间的混淆,从而提高模型的性能。特征选择适用于处理维度灾难、特征之间存在依赖性以及需要提高模型速度的情况。
  4. 特征提取(Feature Extraction):特征提取是自动生成新特征的过程,基于对数据的潜在形状做出假设。这可以涉及应用线性代数技术来执行主成分分析(PCA)和奇异值分解(SVD)等。在自然语言处理(NLP)案例研究中,可以通过学习词汇并将原始文本转换为词频向量来执行特征提取。

特征学习(Feature Learning):特征学习类似于特征提取,但不同之处在于它是通过应用非参数(不对原始数据的形状做出假设)的深度学习模型来自动生成一组特征,从而自动发现原始数据的潜在表示。特征学习适用于处理非结构化数据,如文本、图像和视频。但它也可能需要更多的数据,并且生成的特征可能难以解释。


特征工程的评估方法

在特征工程中,需要采用多种评估方法来确保模型的质量。以下将介绍几种评估特征工程成果的指标。

1. 机器学习指标

与基准相比,机器学习指标可能是最直接的评估方法。这包括在应用特征工程方法之前和之后查看模型性能。具体步骤如下:

在应用任何特征工程之前,获取计划使用的机器学习模型的基准性能。

对数据进行特征工程处理。

从机器学习模型中获取新的性能指标值,并将其与第一步得到的值进行比较。如果性能有所提升,并且超过了数据科学家定义的某个阈值,则表明特征工程取得了成功。

2. 解释性指标

数据科学家和其他模型相关者应该深刻关注管道的可解释性,因为它可能会影响业务和工程决策。可解释性可以定义为我们能够多好地询问我们的模型“为什么”做出了特定的决策,并将该决策与用于做出模型决策的个别特征或特征组联系起来。

3. 公平性和偏见评估指标为了确保模型不会根据数据中固有的偏见产生预测,必须根据公平性标准来评估模型。这在涉及个人高度影响的领域特别重要,比如金融贷款授予系统、识别算法、欺诈检测和学术表现预测。在同一份2020年的数据科学调查中,超过一半的受访者表示已经实施或计划实施解释性更强(可解释性)的解决方案,而只有38%的受访者表示对公平性和偏见缓解的情况也是如此。

4. 机器学习复杂性和速度评估指标机器学习流程的复杂性、规模和速度通常是一个被忽视的方面,但有时可能决定部署的成败。正如之前提到的,有时数据科学家会转向大型学习算法,例如神经网络或集成模型,而不是进行适当的特征工程,希望模型能够自己解决问题。


建议1:结构化数据工程在结构化数据上进行特征工程是提高模型性能和泛化能力的关键步骤,在结构化数据上进行特征工程的步骤:

查看字段类型、确定字段的噪音和分布:

  1. 计算字段与标签的相关性:
  2. 对字段进行编码,找到新特征:

建议2:文本数据特征工程

将原始文本数据转化为可供机器学习算法使用的特征,有多种方式:

bf1dd13e-90d2-11ef-b5cd-92fbcf53809c.png

1. 文本向量化:对于定量特征,可以考虑使用诸如TF-IDF(词频-逆文档频率)等技术将文本数据转化为数值特征。TF-IDF可以将文本中的每个词转化为一个数值,表示该词在文本中的重要性。

2. 清洗和分词:对原始文本进行清洗,去除特殊字符、标点符号和无关信息。然后,将清洗后的文本进行分词,将文本划分为词语或标记。可以使用各种文本处理库(如NLTK、spaCy)来实现。

3. 特征提取:在深度学习方面,可以使用词嵌入技术(如Word2Vec、GloVe)来将每个词转化为具有语义信息的向量表示。

4. 迁移学习:使用预训练的大型模型(如BERT、T5、ChatGPT等)来进行迁移学习。这些模型在大规模文本数据上进行了预训练,可以捕捉丰富的语义信息。


建议3:图像数据特征工程

深度学习模型特别是卷积神经网络(CNN),已经在图像处理领域取得了显著的成功。可以使用预训练的深度学习模型(如VGG、ResNet、Inception等)作为特征提取器,通过去掉最后的分类层,将模型用作特征提取器。然后可以对这些提取的特征进行降维(如PCA或t-SNE)或直接用于机器学习模型。

bf297278-90d2-11ef-b5cd-92fbcf53809c.png

建议4:时序数据特征工程

bf4b8246-90d2-11ef-b5cd-92fbcf53809c.png

1. 理解时序数据:首先需要理解你的时序数据的特点。了解时间戳、观测频率、时间间隔等信息。

2. 构建自定义特征集和响应变量:根据问题的需求,你可能需要构建自定义的特征集和响应变量。这可能包括计算滚动统计量(如移动平均、滚动标准差)、创建时间窗口特征、构建滞后特征等。

3. 使用标准时序特征类型:在时序数据中,有一些常见的特征类型,如趋势、季节性、周期性等。你可以尝试提取这些特征,并将它们作为模型的输入。

4. 添加领域特定的特征:在一些情况下,你可能有领域特定的知识,可以用于构建有用的特征。例如,在股票市场数据中,你可以添加技术指标(如移动平均线、相对强弱指标等)作为特征。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4829

    浏览量

    106846
  • ML
    ML
    +关注

    关注

    0

    文章

    154

    浏览量

    35395
  • 深度学习
    +关注

    关注

    73

    文章

    5591

    浏览量

    123930
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    工程实施不卡壳!蓝蜂MQTT 边缘计算网关让设备联网快 3 倍

    工程实施不卡壳!蓝蜂MQTT 边缘计算网关让设备联网快 3 倍 对项目工程实施团队来说,现场最怕遇到两件事:一是设备对接“卡脖子”,二是数据上报 “掉链子”。比如某智慧工厂项目,现场摆
    的头像 发表于 10-23 17:30 388次阅读
    <b class='flag-5'>工程</b><b class='flag-5'>实施</b>不卡壳!蓝蜂MQTT 边缘计算网关让设备联网快 3 倍

    ERP系统实施全流程,从统一思想到持续运行

    ERP成功上线的关键在于科学的实施步骤和全流程管理。 选择合适的ERP工具是成功的第一步: 工具的选择至关重要,正确的选型决定了后续实施的基础是否稳固。 召开启动会议以统一管理思想: 通过启动会议
    的头像 发表于 10-20 09:34 176次阅读
    ERP系统<b class='flag-5'>实施</b>全流程,从统一思想到持续运行

    如何进行动态校准与补偿策略的实施

    工具类型(硬件 / 软件)、环境特征(强电磁 / 高温高湿等)分步骤落地,形成 “环境感知 - 模型计算 - 实时修正 - 验证优化” 的闭环流程,具体实施方法如下: 一、实施前准备:
    的头像 发表于 09-23 17:56 612次阅读

    封闭式园区安全管控解决方案应该如何实施

    封闭式园区安全管控解决方案的实施是一项系统工程,涉及前期规划、设备部署与系统搭建、人员培训等多个环节
    的头像 发表于 08-20 11:08 607次阅读
    封闭式园区安全管控解决方案应该如何<b class='flag-5'>实施</b>?

    openstack搭建详细步骤

    openstack搭建详细步骤
    的头像 发表于 05-07 14:05 1631次阅读

    光纤涂覆质量金标准实施总结汇报

    光纤涂覆质量金标准实施总结汇报 一、项目背景 为突破行业光纤涂覆质量参差不齐的技术瓶颈,潍坊华纤光电科技基于15年研发经验,率先建立 六大涂覆质量金标准 ,通过技术创新与工艺优化,实现涂覆精度
    发表于 03-28 11:45

    企业与建筑防雷检测及防雷接地工程实施指南

    科技 将系统阐述防雷检测的关键技术、工程实施规范及行业解决方案。 一、防雷系统工程核心组成 1. 防雷接地系统构造 完整的防雷体系包含三大子系统: 接闪装置:由避雷针、避雷带、金属屋面等构成,采用滚球法确定保护范围 引下
    的头像 发表于 03-20 11:02 852次阅读
    企业与建筑防雷检测及防雷接地<b class='flag-5'>工程</b><b class='flag-5'>实施</b>指南

    深度解析:PCBA设计打样的核心步骤有哪些?

    、组装、测试等多个步骤,每一步都需要精确和谨慎,以保证最终产品的质量。 PCBA设计打样的主要步骤 1. 原理图设计与审核 - 设计原理图:工程师根据产品需求和功能要求绘制电路原理图,明确各个电子元器件的连接关系。 - 审核原理
    的头像 发表于 02-19 09:12 684次阅读

    带通滤波器的设计步骤与优化方法

    带通滤波器作为信号处理领域的重要组件,其设计步骤与优化方法对于确保滤波器性能满足特定应用需求至关重要。本文将详细阐述带通滤波器的设计步骤,并深入探讨优化方法,以期为相关领域的研究者和工程师提供全面的技术参考。
    的头像 发表于 02-05 16:48 2995次阅读

    数字化车间中,如何有效实施数据中台?

    在数字化车间中,有效实施数据中台是一个系统工程,需要综合考虑车间的实际情况和业务需求。以下是一些关键步骤和建议: 一、明确目标和需求 在实施数据中台之前,首先要明确数字化车间的目标和需
    的头像 发表于 01-09 17:45 614次阅读

    需求工程咨询和实施服务

    经纬恒润多年来在汽车电子产品开发与量产、工程服务、研发流程体系建设方面积累了大量的实际研发经验,并为国内外主流OEM和核心供应商提供了相应的量产产品和研发服务,可以针对ASPICE、功能安全、特定OEM专有质量要求提供实操性的系统和软件需求工程服务。
    的头像 发表于 12-27 17:00 587次阅读
    需求<b class='flag-5'>工程</b>咨询和<b class='flag-5'>实施</b>服务

    DCS控制系统的配置与实施流程

    DCS(分布式控制系统)控制系统的配置与实施流程是一个复杂但有序的过程,涉及多个步骤和环节。以下是一个典型的DCS控制系统配置与实施流程: 一、筹备工作 确定需求 :明确控制系统的控制对象、控制范围
    的头像 发表于 12-27 16:47 2754次阅读

    使用机器学习改善库特征提取的质量和运行时间

    基于静态时序分析(STA)的现代设计流程非常依赖标准单元、IO、存储器和定制模块的特征化Liberty模型。高效、准确的库特征提取是全芯片或模块级设计流程的关键步骤之一,因为它能确保所有库单元在所
    的头像 发表于 12-26 11:15 749次阅读
    使用机器学习改善库<b class='flag-5'>特征</b>提取的质量和运行时间

    半导体辅助设备如何实施品牌定位?

    ‌半导体辅助设备的品牌定位实施可以通过以下几个步骤进行‌:‌了解工业品牌定位的概念‌:工业品牌定位是基于品牌战略方向,通过深入的市场、行业、竞争者分析,确定与品牌形象相符的差异化决策。这包括明确目标
    的头像 发表于 12-24 14:30 673次阅读
    半导体辅助设备如何<b class='flag-5'>实施</b>品牌定位?

    SOLIDWORKS 2025新功能——零件和特征功能增强

    工程设计领域,SOLIDWORKS一直以其强大的三维设计与工程解决方案带领着行业的发展。随着SOLIDWORKS 2025的发布,其零件和特征功能得到了显著增强,为工程师提供了更加有
    的头像 发表于 12-19 16:52 1210次阅读
    SOLIDWORKS 2025新功能——零件和<b class='flag-5'>特征</b>功能增强