0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深入研究数据分析技术

星星科技指导员 来源:嵌入式计算设计 作者:Seth DeLand 2022-07-06 14:17 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

数据的海啸为企业提供了优化流程和提供差异化​​产品的机会。一套新的算法​​和基础设施已经出现,允许企业使用大数据或机器学习等关键数据分析技术来利用这些机会。

此外,大数据或机器学习背后的这种新基础设施导致了许多不同的技术,这些技术支持构建数据分析算法的迭代过程。正是构建算法的迭代过程的这个开始阶段可以让企业走向成功。这个迭代过程涉及尝试多种策略,例如寻找其他数据源以及不同的机器学习方法和特征转换。

鉴于要尝试的组合可能无限多,因此快速迭代至关重要。领域专家非常适合快速迭代,因为他们可以利用他们的知识和直觉来避免不太可能产生强大结果的方法。具有领域知识的工程师越快将他们的知识应用到支持快速迭代的工具中,企业就能越快获得竞争优势。

但在深入研究支持这项活动的技术之前,让我们先来看看这个迭代过程的一个例子,以及在此过程中要问的一些问题。

迭代数据集

假肢公司知道,如果它知道客户会做什么活动(站立、坐着、走路等),它可以制造更智能的假肢。因此,它提出的第一个问题是:我们可以使用哪些数据来确定这一点?

该公司的工程师知道他们的大多数客户都有智能手机,因此他们希望使用来自智能手机传感器的数据来确定他们的活动。该公司的工程师首先记录加速度计的数据。他们将机器学习算法直接应用于数据,但学习结果不如他们希望的那么好。迭代过程开始了,工程师接着问:我们是否有其他方法可以为机器学习准备数据,从而产生更好的结果?

该公司的工程师应用信号处理技术从传感器数据中提取频率内容,并再次尝试机器学习技术。结果更好,但还没有完全达到,所以他们问:我们可以使用其他数据来源来改进我们的预测吗?

他们决定还记录来自智能手机的陀螺仪数据,并将其与加速度计数据相结合。再次训练他们的机器学习模型,他们现在对结果感到满意,并开始生产。

工程师在迭代过程中可能会问的其他问题包括:

有哪些可用数据?

还有其他数据源吗?

可以使用哪些类型的流程从数据中提取高级信息?

该模型将在哪里运行?

某些类型的错误分类是否比其他类型的错误分类成本更高?

我们如何才能快速进行实验来验证想法并回答上述问题?

既然您已经看到了迭代过程的示例和要问的问题,那么这个过程背后的技术呢?

大数据迭代

随着越来越多的数据产生,系统需要发展以处理所有数据。在这个“大数据”领域,两个大型项目重塑了格局:Hadoop 和 Spark。这两个项目都是 Apache 软件基金会的一部分。它们共同使存储和分析大量数据变得更容易、更便宜。

这些技术可以极大地影响工程师的工作。对于习惯于在台式机、网络驱动器或传统数据库中处理文件中数据的工程师来说,这些新工具需要一种不同的方式来访问数据,然后才能考虑进行分析。在许多情况下,可能会造成人为的数据孤岛和低效率,例如每次执行新分析时都需要联系某人将数据从大数据系统中提取出来。

工程师在处理大数据时面临的另一个挑战是需要改变他们的计算方法。当数据小到足以放入内存时,标准的工作流程是加载数据并执行计算;计算通常会很快,因为数据已经在内存中。但是对于大数据,通常会有磁盘读/写,以及跨网络的数据传输,这会减慢计算速度。

当工程师设计一种新算法时,他们需要能够快速迭代许多设计。结果是一个新的工作流程,包括获取数据样本并在本地使用它,从而实现快速迭代和轻松使用有用的开发工具,如调试器。一旦算法在样本上经过审查,它就会针对大数据系统中的完整数据集运行。

这些挑战的解决方案是一个系统,让工程师可以使用熟悉的环境编写代码,该代码既可以在本地数据样本上运行,也可以在大数据系统中的完整数据集上运行。MATLAB 等工具与 Hadoop 等大数据系统建立连接。可以下载数据样本,并在本地制作算法原型。利用延迟评估框架的新计算模型用于以性能优化的方式在完整数据集上运行算法。对于工程和数据科学工作流程中常见的迭代分析,这种延迟评估模型是减少完成完整数据集分析所需时间的关键,这通常可能是几分钟或几小时的数量级。

大数据技术一直是数据科学发展的关键推动力。随着大量数据的收集,需要新的算法来对这些数据进行推理,这导致了机器学习的使用热潮。

机器学习

机器学习用于识别数据中的潜在趋势和结构。机器学习分为无监督学习和监督学习。

在无监督学习中,我们试图发现数据中的关系,例如所有相似的数据点组。例如,我们可能想查看驾驶数据,以了解人们驾驶汽车的模式是否不同。通过聚类分析,我们可能会发现不同的趋势,例如城市驾驶与高速公路驾驶,或者更有趣的是,不同风格的驾驶员(例如,激进的司机)。

在监督学习中,我们得到输入和输出数据,目标是训练一个模型,该模型在给定新输入的情况下可以预测新输出。监督学习通常用于图像中的预测性维护、欺诈检测和面部识别等应用。

机器学习的每个领域——无监督学习和监督学习——都有几十种流行的算法(还有数百种不太流行的算法)。但是,很难知道这些算法中的哪一种最适合您正在处理的特定问题。通常,最好的办法就是尝试一下并比较结果。这在某些环境中可能是相当大的挑战,因为研究人员根据他们的问题和偏好构建具有不同接口的算法。

成熟的机器学习工具为各种算法提供一致的界面,并且可以轻松快速地尝试不同的方法。这对于执行数据科学的领域专家来说至关重要,因为它使他们能够识别机器学习比传统方法提供改进的“速赢”。这种方法还可以防止他们花费数天或数周的时间将机器学习模型调整为不适合机器学习的数据集。MATLAB 等工具通过提供训练和比较多个机器学习模型的点击式应用​​程序来解决这个问题。

迭代更快

大数据和机器学习相结合,有望为长期存在的业务问题带来新的解决方案。底层技术掌握在非常熟悉这些业务问题的领域专家手中,可以产生显着的成果。例如,贝克休斯的工程师使用机器学习技术来预测他们的天然气和石油开采卡车上的泵何时会出现故障。他们从这些卡车上收集了近 1 TB 的数据,然后使用信号处理技术来识别相关的频率内容。领域知识在这里至关重要,因为他们需要了解卡车上可能出现在传感器读数中的其他系统,但这对预测泵故障没有帮助。他们应用了机器学习技术,可以区分健康的泵和不健康的泵。由此产生的系统预计将减少 1000 万美元的总成本。在整个过程中,他们对泵车系统的了解使他们能够深入挖掘数据并快速迭代。

利用处理大数据和应用机器学习的工具,贝克休斯的工程师能够很好地解决改善业务成果的问题。凭借对这些复杂系统的领域知识,工程师们将这些工具远远超出了网络和营销应用程序的传统用途。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • matlab
    +关注

    关注

    189

    文章

    3018

    浏览量

    237594
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136231
  • 大数据
    +关注

    关注

    64

    文章

    9029

    浏览量

    143060
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    经营数据分析可以通过哪些方式

    在数聚股份看来,提起经营数据分析,大家往往会联想到一些密密麻麻的数字表格,或是高级的数据建模手法,再或是华丽的数据报表。其实,“ 分析 ”本身是每个人都具备的能力,对于业务决策者而言,
    的头像 发表于 12-05 16:31 354次阅读

    广立微DE-G零断档重构智能数据分析

    近日,数据分析领域被一则消息推上风口浪尖:一家老牌软件巨头将撤出中国。在此背景下,其旗下以灵活著称的数据分析软件,在中国市场的未来将面临极大的不确定性。
    的头像 发表于 11-07 10:39 450次阅读

    如何有效利用高光谱成像技术提升数据分析效率

    随着人工智能和大数据技术的快速发展,高光谱成像技术作为一种融合光谱信息与空间影像的新兴技术,正日益成为提升数据分析效率的重要工具。在农业监测
    的头像 发表于 09-11 16:13 583次阅读
    如何有效利用高光谱成像<b class='flag-5'>技术</b>提升<b class='flag-5'>数据分析</b>效率

    普迪飞 Exensio®数据分析平台 | Test Operations解锁半导体测试新纪元

    TestOperations是Exensio数据分析平台的四个主要模块之一。T-Ops模块旨在帮助集成器件制造商(IDM)、无晶圆厂半导体公司(Fabless)和外包半导体(产品)封测厂(OSAT
    的头像 发表于 08-19 13:53 817次阅读
    普迪飞 Exensio®<b class='flag-5'>数据分析</b>平台 | Test Operations解锁半导体测试新纪元

    如何通过数据分析识别设备故障模式?

    通过数据分析识别设备故障模式,本质是从声振温等多维数据中提取故障特征,建立 “数据特征 - 故障类型” 的映射关系,核心可通过特征提取、模式匹配、趋势分析三步实现,精准定位故障根源与发
    的头像 发表于 08-19 11:14 536次阅读
    如何通过<b class='flag-5'>数据分析</b>识别设备故障模式?

    构建自定义电商数据分析API

      在电商业务中,数据是驱动决策的核心。随着数据量的增长,企业需要实时、灵活的分析工具来监控销售、用户行为和库存等指标。一个自定义电商数据分析API(应用程序接口)可以自动化
    的头像 发表于 07-17 14:44 398次阅读
    构建自定义电商<b class='flag-5'>数据分析</b>API

    AI数据分析仪设计原理图:RapidIO信号接入 平板AI数据分析

    AI数据分析仪, 平板数据分析仪, 数据分析仪, AI边缘计算, 高带宽数据输入
    的头像 发表于 07-17 09:20 498次阅读
    AI<b class='flag-5'>数据分析</b>仪设计原理图:RapidIO信号接入 平板AI<b class='flag-5'>数据分析</b>仪

    电容器深入研究:电路保护、滤波和能量存储

    校参加了一些课程,并获得了一些关于何时使用电容器以及它们如何工作的真实示例。从电路保护到滤波,从能量存储到传感,我正在深入研究简单而复杂的电容器世界。 这些东西是如何运作的? 事实上,构成电容器的只是由绝缘体隔开的两个导体。
    的头像 发表于 01-25 15:13 923次阅读
    电容器<b class='flag-5'>深入研究</b>:电路保护、滤波和能量存储

    电力系统数据分析技术

    随着智能电网技术的发展和大数据时代的到来,电力系统数据分析技术已成为电力行业不可或缺的一部分。这些技术能够帮助电力公司更好地理解电网的运行状
    的头像 发表于 01-18 09:46 1221次阅读

    智能焊接数据分析设备提升工业效率与精度

    随着科技的不断进步,智能制造已经成为推动工业4.0发展的关键力量。在众多的智能制造技术中,智能焊接数据分析设备因其在提高生产效率和焊接质量方面的显著效果而受到广泛关注。本文将探讨智能焊接数据分析设备
    的头像 发表于 01-15 14:11 664次阅读

    智能焊接数据分析设备提升制造精度与效率

    不稳定、生产效率低等问题。而智能焊接数据分析设备的应用,则为解决这些问题提供了新的思路和技术手段。本文将探讨智能焊接数据分析设备如何通过数据采集、
    的头像 发表于 01-14 09:36 741次阅读

    ADC12D1800RF使用DESCLKIQ模式采样数据分析时二次谐波大,有什么方法可以改善?

    请问利用ADC12D1800RF参考电路设计,对比于数据手册,使用DESCLKIQ模式采样数据分析时二次谐波大,有什么方法可以改善?
    发表于 01-02 07:14

    NeuroBlade携手亚马逊EC2 F2实例,加速数据分析

    里程碑式的合作,标志着NeuroBlade的创新技术将与亚马逊云科技的先进计算资源强强联合,共同推动云原生数据分析工作负载的性能与效率迈向新高度。 据悉,Amazon EC2 F2实例融合了AMD
    的头像 发表于 12-31 11:37 814次阅读

    Mathematica 在数据分析中的应用

    数据分析是现代科学研究和商业决策中不可或缺的一部分。随着数据量的爆炸性增长,对数据分析工具的需求也在不断增加。Mathematica,作为一种强大的计算软件,以其独特的符号计算能力和广
    的头像 发表于 12-26 15:41 1077次阅读

    绝缘电阻测试仪数据分析与处理

    绝缘电阻测试仪主要用于检查电气设备或电气线路对地及相间的绝缘电阻。将所测得的结果与有关数据比较,这是对实验结果进行分析判断的重要方法。以下是对绝缘电阻测试仪的数据分析与处理方法的介绍: 一、
    的头像 发表于 12-10 15:00 1514次阅读