0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

企业如何实现对工业大数据的预处理?

格创东智 2018-12-05 09:36 次阅读

数据分析,包括大数据分析,在企业的业务中,特别是在传统的商务行业,已有多年的应用实践,在消费者市场的营销中已成了必不可缺的技术。随着工业互联网和智能制造的兴起和发展,工业大数据技术也越来越受到各方关注。在“中国制造2025”的技术路线图中,工业大数据是作为重要突破点来规划的,而在未来的十年,以数据为核心构建的智能化体系会成为支撑智能制造和工业互联网的核心动力。

对制造企业而言,不论是新实施的系统还是老旧系统,要实施大数据分析平台,就需要先弄明白自己到底需要采集哪些数据。因为考虑到数据的采集难度和成本,大数据分析平台并不是对企业所有的数据都进行采集,而是相关的、有直接或者间接联系的数据,企业要知道哪些数据是对于战略性的决策或者一些细节决策有帮助的,分析出来的数据结果是有价值的。

比如企业只是想了解产线设备的运行状态,这时候就只需要对影响产线设备性能的关键参数进行采集。

再比如,在产品售后服务环节,企业需要了解产品使用状态、购买群体等信息,这些数据对支撑新产品的研发和市场的预测都有着非常重要的价值。

因此,建议企业在进行大数据分析规划的时候针对一个项目的目标进行精确的分析,比较容易满足业务的目标。明确目标以后,就要着手开始搜集数据并进行预处理了。本期格物汇将跟大家介绍,企业如何实现对工业大数据的预处理。

数据采集

首先我们看看数据是如何获取的,在现实生活中,我们所面对的问题,往往都是抽象复杂的。我们来看如下两个例子:

如何提升产品的良率

可能这是制造业最为普遍的一个问题,如果我们要分析解决这个问题,常常就会问到:什么产品?有多少条产线在生成?经过了哪些机台?影响产品良率的因素有哪些?我们可能会提出很多很多这样的问题,解决这些问题需要对相关业务知识非常了解,尽可能多的找出与问题有关的数据。

如何进行人脸识别

这问题更加复杂一些,虽然我们每个人的大脑每天都在做人脸识别,但是大脑如何工作的却异常难懂。我们可能需要做很多科研工作,去挖掘到底哪些数据会影响到人脸识别的正确率。如果这些数据本身没有,很可能还需要进行测量采集,比如两眼之间的距离,嘴的宽度和长度等等。当然,我们还会评估采集的成本,并对这些数据有效性进行评估,验证我们的成本是否值得去花费精力测量。

数据预处理简介

数据采集以后,数据往往存放在数据库或文件系统中,我们需要把他们导入到算法模型中进行训练,得到我们想要的模型。但是我们的数据往往杂乱无章,总的来说,数据一般存在如下几类问题:


数据类型多种多样

我们的数据中常常出现字符型,时间型,数字型等多种数据类型。其中:字符型是无法代入模型计算的,所以我们根据需要,可以对字符型数据进行编码转换。常用的编码方法有:

数字编码:对于有大小比较的字符型数据,可以直接转换成数字编码。比如:

Onehot编码:对于没有大小比较的字符型数据,可以使用Onehot独热编码。比如:

时间类型往往是一类特殊的数据,把时间简单看成一个实数的话,往往不符合逻辑。对于带时间的数据,我们通常使用时间序列的分析方法进行分析。有时候我们更加关注的是两列时间的差值,这时我们可以构建时间差值列作为新的变量加入模型之中。

数字型往往是导入模型进行训练的主要部分,数字型又可以细分为离散型和连续型,因为离散与连续的数据分布显著不同,我们可以对其进行分开处理。数字型之间各个列常存在量纲差异,有的数据可能很大,有的数据可能很小,我们需要去除数据量纲,防止模型对数据较大的列进行偏倚(数据值较大时通常方差也较大)。常用的数据去量纲的方法有最大最小值归一化法,均值标准差标准化法等等。


数据格式不对

我们期望数据格式是表结构,矩阵格式,或者是张量格式。然而我们拿到的数据往往不是格式化的数据,比如机台的日志数据,图像数据,音频视频数据。我们需要对上述数据转换,把数据格式转换成我们想要的格式。

数据中存在异常

数据中还会出现缺失值,异常值等异常,这些情况也会强烈影响到模型的训练,我们需要对空值进行补值。如何补值需要我们对数据非常了解,才能推断出该用什么值来补值,才不会改变原有的数据分布。一般的补值方法有:0值补值,均值补值,中位数补值,按上一个数补值,移动平均补值,线性插值,相关列补值法等等,对于缺失值比例较大的列,可以采取直接删除的方法。异常值则需要创建规则,对异常值进行识别,再用正常的值进行替换,故异常值也有类似于缺失值的替换方法。

本文作者:格创东智OT团队

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大数据
    +关注

    关注

    64

    文章

    8643

    浏览量

    136585
  • 智能制造
    +关注

    关注

    48

    文章

    5108

    浏览量

    75546
  • 工业互联网
    +关注

    关注

    28

    文章

    4233

    浏览量

    93810
收藏 人收藏

    评论

    相关推荐

    工业路由器如何助力企业实现数字化转型?

    工业路由器在企业数字化转型中扮演重要角色,具有高效数据传输、灵活组网和强大数据处理能力等特点。它能够实现设备互联、提供稳定网络连接、支持多种
    的头像 发表于 04-24 14:33 59次阅读

    工业大数据发展面临的问题

    工业大数据作为工业与数字经济之间的桥梁纽带,对加快工业数字化转型、推进数实融合,支撑新型工业化建设意义重大。
    的头像 发表于 04-16 11:52 161次阅读

    数据预处理和特征工程的常用功能

    机器学习最基础的5个流程,分别是数据获取,数据预处理,特征工程,建模、测试和预测,上线与部署。
    的头像 发表于 01-25 11:26 276次阅读

    基于工业大数据和物联网的智能工厂如何实现

    在中国制造2025及工业4.0技术的加持下,离散制造业的流程工业实现生产设备网络化、生产数据可视化、生产现场无人化等现金数据应用,做到横向与
    的头像 发表于 12-25 15:32 307次阅读

    C语言有哪些预处理操作?

    C语言的预处理是在编译之前对源代码进行处理的阶段,它主要由预处理器完成。预处理器是一个独立的程序,它负责对源代码进行一些文本替换和处理,生成
    的头像 发表于 12-08 15:40 283次阅读
    C语言有哪些<b class='flag-5'>预处理</b>操作?

    工业设备数据中台是什么?有什么功能?

    随着工业自动化和信息化的不断发展,企业对于数据的依赖性日益提高。机器设备的不间断运转和庞大的生产规模,使得工业大数据实时处理和分析需求越来越高。 通过
    的头像 发表于 10-07 15:48 253次阅读

    工业互联网中的标识解析技术

    工业互联网的核心是数据的价值发现问题,但由于历史原因,“信息孤岛”现象在企业内部、企业之间大量存在。标识解析技术是目前可见解决“信息孤岛”、完成工业
    发表于 09-19 06:07

    机器学习为什么需要数据预处理

    数据预处理是准备原始数据并使其适合机器学习模型的过程。这是创建机器学习模型的第一步也是关键的一步。 创建机器学习项目时,我们并不总是遇到干净且格式化的数据。在对
    的头像 发表于 08-24 09:20 1146次阅读
    机器学习为什么需要<b class='flag-5'>数据</b><b class='flag-5'>预处理</b>

    工业智能化背景下,大数据的应用与智能工厂的发展

    在近些年的不断发展中,工业大数据成为了新的服务业态与信息技术,主要涉及对各企业工业数据的采取、分析以及储存。通过这部分工作的开展,能够对数据
    的头像 发表于 08-22 16:37 600次阅读

    工业物联网之“设备数据采集与控制+大数据存储分析+APP无代码应用开发”

    实现对PLC、CNC、MQTT、NB-IOT、OPC、水表、电表以及各类仪器仪表等设备毫秒级数据采集与控制;满足企业工业现场设备的数据
    发表于 08-07 20:53

    数据预处理概述(2)#大数据分析

    大数据
    学习硬声知识
    发布于 :2023年07月11日 13:47:27

    数据预处理概述(1)#大数据分析

    大数据
    学习硬声知识
    发布于 :2023年07月11日 13:46:39

    智慧农业大数据

    智慧农业,作为未来农业的发展方向,其实现基于种植环境、生长管理、农机设备等数据。农业大数据核心在于技术,包括获取技术和处理数据技术。相比
    的头像 发表于 07-10 16:18 572次阅读

    C语言预处理命令有哪些?

    往往我说今天上课的内容是预处理时,便有学生质疑:预处理不就是include 和define么?这也用得着讲啊?。是的,非常值得讨论,即使是include 和define。但是预处理仅限于此吗?远远
    发表于 06-25 06:15

    PyTorch教程之数据预处理

    电子发烧友网站提供《PyTorch教程之数据预处理.pdf》资料免费下载
    发表于 06-02 14:11 0次下载
    PyTorch教程之<b class='flag-5'>数据</b><b class='flag-5'>预处理</b>