0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

企业如何实现对工业大数据的预处理?

格创东智 2018-12-05 09:36 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据分析,包括大数据分析,在企业的业务中,特别是在传统的商务行业,已有多年的应用实践,在消费者市场的营销中已成了必不可缺的技术。随着工业互联网和智能制造的兴起和发展,工业大数据技术也越来越受到各方关注。在“中国制造2025”的技术路线图中,工业大数据是作为重要突破点来规划的,而在未来的十年,以数据为核心构建的智能化体系会成为支撑智能制造和工业互联网的核心动力。

对制造企业而言,不论是新实施的系统还是老旧系统,要实施大数据分析平台,就需要先弄明白自己到底需要采集哪些数据。因为考虑到数据的采集难度和成本,大数据分析平台并不是对企业所有的数据都进行采集,而是相关的、有直接或者间接联系的数据,企业要知道哪些数据是对于战略性的决策或者一些细节决策有帮助的,分析出来的数据结果是有价值的。

比如企业只是想了解产线设备的运行状态,这时候就只需要对影响产线设备性能的关键参数进行采集。

再比如,在产品售后服务环节,企业需要了解产品使用状态、购买群体等信息,这些数据对支撑新产品的研发和市场的预测都有着非常重要的价值。

因此,建议企业在进行大数据分析规划的时候针对一个项目的目标进行精确的分析,比较容易满足业务的目标。明确目标以后,就要着手开始搜集数据并进行预处理了。本期格物汇将跟大家介绍,企业如何实现对工业大数据的预处理。

数据采集

首先我们看看数据是如何获取的,在现实生活中,我们所面对的问题,往往都是抽象复杂的。我们来看如下两个例子:

如何提升产品的良率

可能这是制造业最为普遍的一个问题,如果我们要分析解决这个问题,常常就会问到:什么产品?有多少条产线在生成?经过了哪些机台?影响产品良率的因素有哪些?我们可能会提出很多很多这样的问题,解决这些问题需要对相关业务知识非常了解,尽可能多的找出与问题有关的数据。

如何进行人脸识别

这问题更加复杂一些,虽然我们每个人的大脑每天都在做人脸识别,但是大脑如何工作的却异常难懂。我们可能需要做很多科研工作,去挖掘到底哪些数据会影响到人脸识别的正确率。如果这些数据本身没有,很可能还需要进行测量采集,比如两眼之间的距离,嘴的宽度和长度等等。当然,我们还会评估采集的成本,并对这些数据有效性进行评估,验证我们的成本是否值得去花费精力测量。

数据预处理简介

数据采集以后,数据往往存放在数据库或文件系统中,我们需要把他们导入到算法模型中进行训练,得到我们想要的模型。但是我们的数据往往杂乱无章,总的来说,数据一般存在如下几类问题:


数据类型多种多样

我们的数据中常常出现字符型,时间型,数字型等多种数据类型。其中:字符型是无法代入模型计算的,所以我们根据需要,可以对字符型数据进行编码转换。常用的编码方法有:

数字编码:对于有大小比较的字符型数据,可以直接转换成数字编码。比如:

Onehot编码:对于没有大小比较的字符型数据,可以使用Onehot独热编码。比如:

时间类型往往是一类特殊的数据,把时间简单看成一个实数的话,往往不符合逻辑。对于带时间的数据,我们通常使用时间序列的分析方法进行分析。有时候我们更加关注的是两列时间的差值,这时我们可以构建时间差值列作为新的变量加入模型之中。

数字型往往是导入模型进行训练的主要部分,数字型又可以细分为离散型和连续型,因为离散与连续的数据分布显著不同,我们可以对其进行分开处理。数字型之间各个列常存在量纲差异,有的数据可能很大,有的数据可能很小,我们需要去除数据量纲,防止模型对数据较大的列进行偏倚(数据值较大时通常方差也较大)。常用的数据去量纲的方法有最大最小值归一化法,均值标准差标准化法等等。


数据格式不对

我们期望数据格式是表结构,矩阵格式,或者是张量格式。然而我们拿到的数据往往不是格式化的数据,比如机台的日志数据,图像数据,音频视频数据。我们需要对上述数据转换,把数据格式转换成我们想要的格式。

数据中存在异常

数据中还会出现缺失值,异常值等异常,这些情况也会强烈影响到模型的训练,我们需要对空值进行补值。如何补值需要我们对数据非常了解,才能推断出该用什么值来补值,才不会改变原有的数据分布。一般的补值方法有:0值补值,均值补值,中位数补值,按上一个数补值,移动平均补值,线性插值,相关列补值法等等,对于缺失值比例较大的列,可以采取直接删除的方法。异常值则需要创建规则,对异常值进行识别,再用正常的值进行替换,故异常值也有类似于缺失值的替换方法。

本文作者:格创东智OT团队

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大数据
    +关注

    关注

    64

    文章

    9029

    浏览量

    143062
  • 智能制造
    +关注

    关注

    48

    文章

    6136

    浏览量

    79465
  • 工业互联网
    +关注

    关注

    28

    文章

    4383

    浏览量

    95993
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    组态大数据平台是什么?有什么功能?

    组态大数据平台是融合 组态技术 与 大数据处理能力 的综合性平台,通过图形化、可配置的方式实现数据采集、存储、分析、可视化及远程控制,适用于工业
    的头像 发表于 10-30 11:29 90次阅读
    组态<b class='flag-5'>大数据</b>平台是什么?有什么功能?

    数据预处理软核加速模块设计

    ,如果用ARM处理器或上位机来实现这个过程会十分耗时,利用FPGA的并行处理技术可以轻易实现这个功能,整理后的数据传输形式会为之后的设计产生
    发表于 10-29 08:09

    工业数据云平台有哪些好用的?

    )。 华为云:华为云工业互联平台专注于工业数字化转型,提供工业物联网、边缘计算和工业大数据分析等服务。其应用场景广泛,涵盖制造业、能源、交通等领域。华为云凭借强大的生态系统和持续的技术
    的头像 发表于 10-20 17:25 446次阅读
    <b class='flag-5'>工业</b><b class='flag-5'>数据</b>云平台有哪些好用的?

    御控工业物联网大数据解决方案:排水设备远程监控与大数据统计系统

    御控工业物联网推出排水设备远程监控与大数据统计系统,通过物联网、大数据、云计算等技术构建“感知-传输-分析-决策”闭环管理体系,助力排水行业数字化转型。
    的头像 发表于 09-12 10:04 490次阅读

    友思特方案 | FPGA 加持,友思特图像采集卡高速预处理助力视觉系统运行提速增效

    分拣等系统快速决策。针对高速接口及实时 / 大数据量场景,该采集卡是必备组件,可在 FPGA 上完成去拜耳化、HDR 等预处理,为视觉系统高效运行奠基。
    的头像 发表于 08-20 09:18 596次阅读
    友思特方案 | FPGA 加持,友思特图像采集卡高速<b class='flag-5'>预处理</b>助力视觉系统运行提速增效

    FPGA 加持,友思特图像采集卡高速预处理助力视觉系统运行提速增效

    图像预处理是图像处理关键环节,可优化数据传输、减轻主机负担,其算法可在FPGA等硬件上执行。友思特FPGA图像采集卡凭借FPGA特性,能缩短处理时间、降低延迟,适用于高速接口及实时、
    的头像 发表于 08-13 17:41 771次阅读
    FPGA 加持,友思特图像采集卡高速<b class='flag-5'>预处理</b>助力视觉系统运行提速增效

    锂电池制造 | 电芯预处理工艺的步骤详解

    电芯预处理是锂电池包制造的首要工序,无论是新能源汽车的续航稳定性,还是储能系统的循环寿命,其根基都可追溯至预处理工序对电芯一致性的把控,其核心在于通过系统检测与筛选消除量产电芯的性能差异,为后续组装
    的头像 发表于 08-11 14:53 879次阅读
    锂电池制造 | 电芯<b class='flag-5'>预处理</b>工艺的步骤详解

    工业大模型利用全流程数据采集推动显示行业生产制造升级

    挖掘与智能分析,显示工业大模型能够突破传统生产模式的局限,在工艺优化、质量管控、设备运维等关键环节实现智能化跃升,推动显示制造向更高效率、更高质量、更低成本的方向发展。 全流程数据:显示工业大
    的头像 发表于 07-28 10:37 365次阅读

    欧菲光荣获第七届“深圳工业大奖” 深圳工业界最高荣誉

    近日,第七届“深圳工业大奖”名单公示,经深圳工业大奖独立评审团成员认真审议、记名投票,分别评选产生第七届“深圳工业大奖”企业10家、工业家1
    的头像 发表于 07-15 18:07 1069次阅读

    工业大数据管理平台是什么?有什么功能?

    PLC跨网段通信网关是一种用于解决工业自动化领域中不同网络段内PLC(可编程逻辑控制器)设备通信问题的关键设备,其核心作用是实现不同网络协议、IP网段之间的数据交互与信息传输,下面从多个方面详细介绍
    的头像 发表于 06-13 15:43 334次阅读

    京东工业大模型Joy industrial重磅发布

    近日,中国领先的工业供应链技术与服务企业京东工业于上海正式对外发布行业首个以供应链为核心的工业大模型Joy industrial。Joy industrial锁定
    的头像 发表于 05-28 17:12 768次阅读

    FPGA Verilog HDL语法之编译预处理

    Verilog HDL语言和C语言一样也提供了编译预处理的功能。“编译预处理”是Verilog HDL编译系统的一个组成部分。Verilog HDL语言允许在程序中使用几种特殊的命令(它们不是一般
    的头像 发表于 03-27 13:30 1088次阅读
    FPGA Verilog HDL语法之编译<b class='flag-5'>预处理</b>

    深度解析SSD2351核心板:硬核视频处理+工业级可靠性设计

    明远智睿SSD2351核心板基于SigmaStar SSD2351芯片打造,专为高可靠性工业场景设计,其硬件配置与接口能力充分满足复杂环境下的多模态数据处理需求。 芯片技术细节 : 视频处理能力
    发表于 02-21 17:19

    缓存对大数据处理的影响分析

    缓存对大数据处理的影响显著且重要,主要体现在以下几个方面: 一、提高数据访问速度 在大数据环境中,数据存储通常采用分布式存储系统,数据量庞大
    的头像 发表于 12-18 09:45 1108次阅读

    cmp在数据处理中的应用 如何优化cmp性能

    ,然后在多个处理器上并行处理,显著提高了数据处理的速度和吞吐量。 1. CMP在大数据处理中的应用 在大数据处理中,CMP技术可以应用于
    的头像 发表于 12-17 09:27 1756次阅读