0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

国际纸业:为机器学习魔兽馈送数据

倩倩 来源:lq 作者:国际纸业流程信息 2019-09-20 11:06 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

国际纸业公司拥有 55,000 名员工,年销售额超过 210 亿美元,是世界上最大的纸浆和造纸公司。大规模的生产也会带来大规模的数据:该公司目前跟踪着全球 37 家工厂,近 200 万个活跃的数据点。国际纸业公司的 PI System会产生大量的数据,可以从这些生产数据中挖掘业务洞察力。通过使用 PI System工具深入研究如何收集和组织数据,工程师们能够将数据处理时间缩短 80% 以上,从而使公司新推出的机器学习计划能够更快执行。

国际纸业训练机器算法,作为其“未来之战”现代化计划的一部分

国际纸业公司的工程师致力于高效地处理他们正在使用和生成的海量数据。“我们的工程师们需要花费他们 80% 到 90%的时间来检索和清理数据,”国际纸业公司的化学工程师和流程信息经理Rick Smith 在 OSIsoft 的 PI World 2018 旧金山大会上这样说。“我们支付工资让他们进行决策并改进我们的流程。我们需要以适当的频率向工程师提供正确的数据,以便于他们工作。”

几年前,公司在减少数据检索时间方面做了一些努力。使用 PI OLEDB 工具后,工程师可以将 PI System 数据存档视为关系数据库。通过运行 SQL 查询可以将提取出来的数据自动填充到 Microsoft Excel 电子表格中,而无需在 Excel 内运行耗时的计算。采用这种方法后,国际纸业能够将审计中经常使用的数据检索过程从 3-12小时缩短到 15-45 分钟。

这是一个良好的开端,但后面还有更大的挑战。2017 年,国际纸业发起了一个以数据和机器学习为核心的试点项目,作为其“未来之战”现代化计划的一部分。为了训练机器算法,工程师需要同时在数千个标签上提取几年的历史数据并将这些数据输入机器学习引擎。

为了获取数据检索过程所需的时间值,Smith提出了一个他称之为“年标签”的时间单位:即从单个 PI 数据标签中检索一年的信息所需的时间。因为不同的标签收集数据的间隔不同,所以各个标签的“年标签”值不尽相同,有些甚至差异极大。

Smith 有关检索数据所需时间的初步估计发人深省。使用 10,000 个数据标签一到三年的数据,数据采集间隔为一分钟,会产生大约 160 亿行数据,整个过程需要耗时数月。

“对于我们的数据标签,如果所有标签都是上面这种情形,那么读取三年的数据,将需要100 到 200 天的时间来检索数据。我不了解其他公司的情况,但我们的副总裁可不想等待200 天才开始这个项目,” Smith 说。

国际纸业创建了另外的数据标签,每隔一分钟而不是每隔 1-2 秒写一次数据,从而简化了大数据机器学习的数据提取过程。

优秀的数据管理员的价值

使用 PI System 工具,Smith 开始研究数据,探索如何能减少不必要的存储与数据处理。他发现,在一家造纸厂,不到百分之一的数据标签占据了存档空间的近 37%。对于不同类型的分析,可能需要以不同的频率采集数据。Smith 采用 Asset framework(PI Server 的一部分)为采集频率密集的标签同时设置了较低的采集频率,以较长的间隔来收集相同的数据,在确保数据存档丰富性的同时,实现更快的检索速度。

对于某些数据标签,密集的数据收集频率对于存档很重要,但并非所有分析都需要细粒度的数据。在对一组数据标签进行分析时,Smith发现,与一秒钟间隔的数据相比,一分钟间隔的数据其数据读取时间可以减少 85%。

对数据进行适当的管理和组织,也会使数据检索时间在原来长度的基础上大幅减少。在一项分析中,Smith 使用了 50 个数据标签并在Asset framework 为它们构建了一个结构,这一举措将读取一年数据的时间从 15 分钟以上缩短到 5 分钟以内。通过使用数据平均值而不是工厂仪表上传感器的原始值,将另一项分析的时间从 14 小时缩短到 40 秒。

仔细研究公司的数据如何生成、存储和处理,这一工作平淡无奇,但它所产生的结果却令人瞩目。

“所有系统都需要管理者,”Smith 说。“每个人都想成为架构师。但我们更需要脚踏实地的数据管理员。”

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4761

    浏览量

    97153
  • 数据采集
    +关注

    关注

    40

    文章

    7820

    浏览量

    119873
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    普渡楼宇配送机器人荣获2025年IDEA国际设计卓越奖

    近日,普渡楼宇配送机器人“闪电匣”凭借其卓越的产品设计与创新理念,成功斩获美国IDEA国际设计大奖(International Design Excellence Awards) !这是全球设计业内
    的头像 发表于 10-15 17:58 1007次阅读

    量子机器学习入门:三种数据编码方法对比与应用

    在传统机器学习数据编码确实相对直观:独热编码处理类别变量,标准化调整数值范围,然后直接输入模型训练。整个过程更像是数据清洗,而非核心算法组件。量子
    的头像 发表于 09-15 10:27 484次阅读
    量子<b class='flag-5'>机器</b><b class='flag-5'>学习</b>入门:三种<b class='flag-5'>数据</b>编码方法对比与应用

    FPGA在机器学习中的具体应用

    随着机器学习和人工智能技术的迅猛发展,传统的中央处理单元(CPU)和图形处理单元(GPU)已经无法满足高效处理大规模数据和复杂模型的需求。FPGA(现场可编程门阵列)作为一种灵活且高效的硬件加速平台
    的头像 发表于 07-16 15:34 2638次阅读

    使用MATLAB进行无监督学习

    无监督学习是一种根据未标注数据进行推断的机器学习方法。无监督学习旨在识别数据中隐藏的模式和关系,
    的头像 发表于 05-16 14:48 1183次阅读
    使用MATLAB进行无监督<b class='flag-5'>学习</b>

    **【技术干货】Nordic nRF54系列芯片:传感器数据采集与AI机器学习的完美结合**

    【技术干货】nRF54系列芯片:传感器数据采集与AI机器学习的完美结合 近期收到不少伙伴咨询nRF54系列芯片的应用与技术细节,今天我们整理几个核心问题与解答,带你快速掌握如何在nRF54上部署AI
    发表于 04-01 00:00

    请问STM32部署机器学习算法硬件至少要使用哪个系列的芯片?

    STM32部署机器学习算法硬件至少要使用哪个系列的芯片?
    发表于 03-13 07:34

    机器学习模型市场前景如何

    当今,随着算法的不断优化、数据量的爆炸式增长以及计算能力的飞速提升,机器学习模型的市场前景愈发广阔。下面,AI部落小编将探讨机器学习模型市场
    的头像 发表于 02-13 09:39 626次阅读

    嵌入式机器学习的应用特性与软件开发环境

    作者:DigiKey Editor 在许多嵌入式系统中,必须采用嵌入式机器学习(Embedded Machine Learning)技术,这是指将机器学习模型部署在资源受限的设备(如微
    的头像 发表于 01-25 17:05 1215次阅读
    嵌入式<b class='flag-5'>机器</b><b class='flag-5'>学习</b>的应用特性与软件开发环境

    传统机器学习方法和应用指导

    用于开发生物学数据机器学习方法。尽管深度学习(一般指神经网络算法)是一个强大的工具,目前也非常流行,但它的应用领域仍然有限。与深度学习相比
    的头像 发表于 12-30 09:16 1982次阅读
    传统<b class='flag-5'>机器</b><b class='flag-5'>学习</b>方法和应用指导

    【「具身智能机器人系统」阅读体验】1.全书概览与第一章学习

    景不确定性、产业链成本高企、系统集成难度大、数据瓶颈、伦理规范的挑战。 其中系统集成难度大中,作者非常形象地将具身智能机器人分解“大脑”、“小脑”和“躯干”三个关键技术,其中“大脑”就是机器
    发表于 12-27 14:50

    如何选择云原生机器学习平台

    当今,云原生机器学习平台因其弹性扩展、高效部署、低成本运营等优势,逐渐成为企业构建和部署机器学习应用的首选。然而,市场上的云原生机器
    的头像 发表于 12-25 11:54 701次阅读

    【「具身智能机器人系统」阅读体验】+数据在具身人工智能中的价值

    数据对于训练增强和优化机器人能力的深度学习模型至关重要。 从财务上讲,用户数据对互联网公司具有重要价值,估计每个用户 600 美元,考虑到大规模商业化后每个
    发表于 12-24 00:33

    zeta在机器学习中的应用 zeta的优缺点分析

    的应用(基于低功耗广域物联网技术ZETA) ZETA作为一种低功耗广域物联网(LPWAN)技术,虽然其直接应用于机器学习的场景可能并不常见,但它可以通过提供高效、稳定的物联网通信支持,间接促进机器
    的头像 发表于 12-20 09:11 1629次阅读

    cmp在机器学习中的作用 如何使用cmp进行数据对比

    机器学习领域,"cmp"这个术语可能并不是一个常见的术语,它可能是指"比较"(comparison)的缩写。 比较在机器学习中的作用 模型评估 :比较不同模型的性能是
    的头像 发表于 12-17 09:35 1324次阅读

    构建云原生机器学习平台流程

    构建云原生机器学习平台是一个复杂而系统的过程,涉及数据收集、处理、特征提取、模型训练、评估、部署和监控等多个环节。
    的头像 发表于 12-14 10:34 676次阅读