0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

快速掌握特征构建的常用方法

格创东智 2018-12-12 11:49 次阅读

在之前格物汇的文章中,我们介绍了工业数据预处理的方法以及特征工程的基本知识,今天要带大家来了解如何做特征构建。


特征构建常用方法


特征构建的常用方法是属性分割和结合,这一般根据我们具体的问题所决定。我们通过具体的应用场景来看看:


时间列处理

时间戳属性通常需要分离成多个维度比如年、月、日、小时、分钟、秒钟。通常时间序列数据会含有一定的趋势和周期性,这时需要我们去构建趋势因子和周期因子


分解类别属性

一些属性是类别型而不是数值型,举一个简单的例子,由{红,绿、蓝}组成的颜色属性,最常用的方式是把每个类别属性转换成二元属性,即从{0,1}取一个值。因此基本上增加的属性等于相应数目的类别,并且对于你数据集中的每个实例,只有一个是1(其他的为0),这也就是独热(one-hot)编码方式。我们在前面的文章中介绍过了,在此不再赘述。


分箱和分区

有时候,将数值型属性转换成类别呈现更有意义,同时能使算法减少噪声的干扰,通过将一定范围内的数值划分成确定的块。举个例子,我们预测一个人是否拥有某款衣服,这里年龄是一个确切的因子。其实年龄组是更为相关的因子,所以我们可以将年龄分布划分成1-10,11-18,19-25,26-40等年龄段,分别表示 幼儿,青少年,青年,中年四个年龄组,让相近的年龄组表现出相似的属性。此外,我们还可以对分箱,分区做一些统计量字段作为数据的特征。


只有在了解属性的领域知识的基础,确定属性能够划分成简洁的范围时分区才有意义。即所有的数值落入一个分区时能够呈现出共同的特征。在实际应用中,当你不想让你的模型总是尝试区分值之间是否太近时,分区能够避免出现过拟合。例如,如果你所感兴趣的是将一个城市作为整体,这时你可以将所有落入该城市的维度值进行整合成一个整体。分箱也能减小小错误的影响,通过将一个给定值划入到最近的块中。如果划分范围的数量和所有可能值相近,或对你来说准确率很重要的话,此时分箱就不适合了。

交叉特征

交叉特征是特征工程中重要的方法之一,交叉特征是一种很独特的方式,它将两个或更多的类别属性组合成一个。当组合的特征要比单个特征更好时,这是一项非常有用的技术。数学上来说,是对类别特征的所有可能值进行交叉相乘。当然我们不仅仅会去查找交叉项关系,还可以去寻找更加复杂的二次项,三次项乃至更复杂的关系,这根据问题求解的需要决定。


经度与纬度的组合便是交叉特征的应用实例,一个相同的经度对应了地图上很多的地方,纬度也是一样。但是一旦你将经度和纬度组合到一起,它们就代表了地理上特定的一块区域,区域中每一部分是拥有着类似的特性。

小结

一般我们会收集与问题相关的数据作为我们的特征,但是这些特征有时不足以解释我们的问题,我们还是会通过特征构建来增加解释能力。这其实是对数据进行升维操作,总的来说,特征构建可以给我们的模型提供一些关键的信息,来解决模型解释能力不足的情况。但如果我们收集的数据包含了过多的特征,如何对这些特征进行提纯呢?请继续关注格物汇,我们将在之后的文章中详细讲解。


本文作者:格创东智 OT团队 (转载请注明来源及作者)


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能制造
    +关注

    关注

    48

    文章

    5111

    浏览量

    75553
  • 工业互联网
    +关注

    关注

    28

    文章

    4233

    浏览量

    93812
收藏 人收藏

    评论

    相关推荐

    自动焊常用的焊接方法有哪些

    跟踪系统将介绍几种常用的自动焊接方法。 激光焊 激光焊是一种利用高能激光束作为热源进行焊接的方法。激光束具有高能量密度、高速度和高精度的特点,能够实现快速、高质量的焊接。激光焊适用于薄
    的头像 发表于 04-09 16:22 97次阅读
    自动焊<b class='flag-5'>常用</b>的焊接<b class='flag-5'>方法</b>有哪些

    QDAT非信令测试常用的测试方法介绍

    高通WIFI6的IPQ系列芯片非信令测试常用的测试方法有两种
    的头像 发表于 01-17 09:43 842次阅读
    QDAT非信令测试<b class='flag-5'>常用</b>的测试<b class='flag-5'>方法</b>介绍

    消除自激振荡的常用方法

    消除自激振荡是指在电路或系统中消除自激振荡的现象,自激振荡是指电路或系统因为自身的反馈而产生不断增强的振荡。为了解决这个问题,工程师们提出了一系列的方法,下面将详细介绍几种常用方法。 增加阻尼
    的头像 发表于 01-16 14:43 1126次阅读

    辐射整改的常用方法

    辐射整改的常用方法?|深圳比创达电子
    的头像 发表于 01-04 10:36 233次阅读
    辐射整改的<b class='flag-5'>常用</b><b class='flag-5'>方法</b>?

    电源时序控制的正确方法,你掌握了吗?

    电源时序控制的正确方法,你掌握了吗?
    的头像 发表于 12-15 09:27 778次阅读
    电源时序控制的正确<b class='flag-5'>方法</b>,你<b class='flag-5'>掌握</b>了吗?

    几种常用的产生负电源的方法

    几种常用的产生负电源的方法
    的头像 发表于 12-05 15:54 819次阅读
    几种<b class='flag-5'>常用</b>的产生负电源的<b class='flag-5'>方法</b>

    Python中进行特征重要性分析的9个常用方法

    重要性分析可以识别并关注最具信息量的特征,从而带来以下几个优势: 改进的模型性能 减少过度拟合 更快的训练和推理 增强的可解释性 下面我们深入了解在Python中的一些特性重要性分析的方法特征重要性分析
    的头像 发表于 10-16 11:09 377次阅读
    Python中进行<b class='flag-5'>特征</b>重要性分析的9个<b class='flag-5'>常用</b><b class='flag-5'>方法</b>

    点-线特征联合的全景图像位姿解算方法

    使用真实场景的车载激光点云和两幅全景图像进行试验,验证点-线特征联合的位姿解算方法优于单纯的点特征解算方法
    的头像 发表于 09-29 08:01 357次阅读
    点-线<b class='flag-5'>特征</b>联合的全景图像位姿解算<b class='flag-5'>方法</b>

    常用的远程控制方法总结

    开个新系列,写一下在调试工作中,常用的远程控制方法
    的头像 发表于 09-06 15:32 1168次阅读
    <b class='flag-5'>常用</b>的远程控制<b class='flag-5'>方法</b>总结

    构建神经网络模型的常用方法 神经网络模型的常用算法介绍

    神经网络模型是一种通过模拟生物神经元间相互作用的方式实现信息处理和学习的计算机模型。它能够对输入数据进行分类、回归、预测和聚类等任务,已经广泛应用于计算机视觉、自然语言处理、语音处理等领域。下面将就神经网络模型的概念和工作原理,构建神经网络模型的常用
    发表于 08-28 18:25 624次阅读

    使用快速Fourier变换法将ADC样本转换为频域频谱的方法和结果

    : NuTiny-SDK-NUC121_V1.0 快速傅里叶变换(FFT)是一种常用的信号分析方法,可用于将离散时间信号转换为频域频谱,用户可以从FFFT中受益,观察频谱并找出原始信号的频率构成。这个示例将展示如何使用ADC
    发表于 08-22 08:13

    五种先进的SSD故障预测特征选择方法盘点

    本文比较了没有特征选择(即使用所有学习特征)和五种最先进的特征选择方法(第II-C节)的WEFR的预测精度。对于五种最先进的特征选择
    发表于 07-12 09:09 848次阅读
    五种先进的SSD故障预测<b class='flag-5'>特征</b>选择<b class='flag-5'>方法</b>盘点

    构建一个自动化标签快速准确的检测系统

    电子发烧友网站提供《构建一个自动化标签快速准确的检测系统.zip》资料免费下载
    发表于 06-12 15:26 0次下载
    <b class='flag-5'>构建</b>一个自动化标签<b class='flag-5'>快速</b>准确的检测系统

    如何快速掌握11种开关电源拓扑结构?看这篇就够了!

    干货 | 如何快速掌握11种开关电源拓扑结构?看这篇就够了! 本文主要讲述常见的开关电源拓扑结构特点和优缺点对比。 常见的拓扑结构,包括Buck降压、Boost升压、Buck-Boost降压-升压
    发表于 05-22 12:57

    激光焊接光束焦点的常用测定方法

    了解影响激光焊接工艺的因素,掌握生产实际中几种常用快速测定激光光束焦点位置的简便方法。一、定位激光束焦点的意义激光器发出的激光在焦点处的功率密度最高,光斑尺寸最小,对焊接(也包括切割
    的头像 发表于 05-05 09:56 992次阅读
    激光焊接光束焦点的<b class='flag-5'>常用</b>测定<b class='flag-5'>方法</b>