0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深入研究数据分析技术

星星科技指导员 来源:嵌入式计算设计 作者:Seth DeLand 2022-07-06 14:17 次阅读

数据的海啸为企业提供了优化流程和提供差异化​​产品的机会。一套新的算法​​和基础设施已经出现,允许企业使用大数据或机器学习等关键数据分析技术来利用这些机会。

此外,大数据或机器学习背后的这种新基础设施导致了许多不同的技术,这些技术支持构建数据分析算法的迭代过程。正是构建算法的迭代过程的这个开始阶段可以让企业走向成功。这个迭代过程涉及尝试多种策略,例如寻找其他数据源以及不同的机器学习方法和特征转换。

鉴于要尝试的组合可能无限多,因此快速迭代至关重要。领域专家非常适合快速迭代,因为他们可以利用他们的知识和直觉来避免不太可能产生强大结果的方法。具有领域知识的工程师越快将他们的知识应用到支持快速迭代的工具中,企业就能越快获得竞争优势。

但在深入研究支持这项活动的技术之前,让我们先来看看这个迭代过程的一个例子,以及在此过程中要问的一些问题。

迭代数据集

假肢公司知道,如果它知道客户会做什么活动(站立、坐着、走路等),它可以制造更智能的假肢。因此,它提出的第一个问题是:我们可以使用哪些数据来确定这一点?

该公司的工程师知道他们的大多数客户都有智能手机,因此他们希望使用来自智能手机传感器的数据来确定他们的活动。该公司的工程师首先记录加速度计的数据。他们将机器学习算法直接应用于数据,但学习结果不如他们希望的那么好。迭代过程开始了,工程师接着问:我们是否有其他方法可以为机器学习准备数据,从而产生更好的结果?

该公司的工程师应用信号处理技术从传感器数据中提取频率内容,并再次尝试机器学习技术。结果更好,但还没有完全达到,所以他们问:我们可以使用其他数据来源来改进我们的预测吗?

他们决定还记录来自智能手机的陀螺仪数据,并将其与加速度计数据相结合。再次训练他们的机器学习模型,他们现在对结果感到满意,并开始生产。

工程师在迭代过程中可能会问的其他问题包括:

有哪些可用数据?

还有其他数据源吗?

可以使用哪些类型的流程从数据中提取高级信息

该模型将在哪里运行?

某些类型的错误分类是否比其他类型的错误分类成本更高?

我们如何才能快速进行实验来验证想法并回答上述问题?

既然您已经看到了迭代过程的示例和要问的问题,那么这个过程背后的技术呢?

大数据迭代

随着越来越多的数据产生,系统需要发展以处理所有数据。在这个“大数据”领域,两个大型项目重塑了格局:Hadoop 和 Spark。这两个项目都是 Apache 软件基金会的一部分。它们共同使存储和分析大量数据变得更容易、更便宜。

这些技术可以极大地影响工程师的工作。对于习惯于在台式机、网络驱动器或传统数据库中处理文件中数据的工程师来说,这些新工具需要一种不同的方式来访问数据,然后才能考虑进行分析。在许多情况下,可能会造成人为的数据孤岛和低效率,例如每次执行新分析时都需要联系某人将数据从大数据系统中提取出来。

工程师在处理大数据时面临的另一个挑战是需要改变他们的计算方法。当数据小到足以放入内存时,标准的工作流程是加载数据并执行计算;计算通常会很快,因为数据已经在内存中。但是对于大数据,通常会有磁盘读/写,以及跨网络的数据传输,这会减慢计算速度。

当工程师设计一种新算法时,他们需要能够快速迭代许多设计。结果是一个新的工作流程,包括获取数据样本并在本地使用它,从而实现快速迭代和轻松使用有用的开发工具,如调试器。一旦算法在样本上经过审查,它就会针对大数据系统中的完整数据集运行。

这些挑战的解决方案是一个系统,让工程师可以使用熟悉的环境编写代码,该代码既可以在本地数据样本上运行,也可以在大数据系统中的完整数据集上运行。MATLAB 等工具与 Hadoop 等大数据系统建立连接。可以下载数据样本,并在本地制作算法原型。利用延迟评估框架的新计算模型用于以性能优化的方式在完整数据集上运行算法。对于工程和数据科学工作流程中常见的迭代分析,这种延迟评估模型是减少完成完整数据集分析所需时间的关键,这通常可能是几分钟或几小时的数量级。

大数据技术一直是数据科学发展的关键推动力。随着大量数据的收集,需要新的算法来对这些数据进行推理,这导致了机器学习的使用热潮。

机器学习

机器学习用于识别数据中的潜在趋势和结构。机器学习分为无监督学习和监督学习。

在无监督学习中,我们试图发现数据中的关系,例如所有相似的数据点组。例如,我们可能想查看驾驶数据,以了解人们驾驶汽车的模式是否不同。通过聚类分析,我们可能会发现不同的趋势,例如城市驾驶与高速公路驾驶,或者更有趣的是,不同风格的驾驶员(例如,激进的司机)。

在监督学习中,我们得到输入和输出数据,目标是训练一个模型,该模型在给定新输入的情况下可以预测新输出。监督学习通常用于图像中的预测性维护、欺诈检测和面部识别等应用。

机器学习的每个领域——无监督学习和监督学习——都有几十种流行的算法(还有数百种不太流行的算法)。但是,很难知道这些算法中的哪一种最适合您正在处理的特定问题。通常,最好的办法就是尝试一下并比较结果。这在某些环境中可能是相当大的挑战,因为研究人员根据他们的问题和偏好构建具有不同接口的算法。

成熟的机器学习工具为各种算法提供一致的界面,并且可以轻松快速地尝试不同的方法。这对于执行数据科学的领域专家来说至关重要,因为它使他们能够识别机器学习比传统方法提供改进的“速赢”。这种方法还可以防止他们花费数天或数周的时间将机器学习模型调整为不适合机器学习的数据集。MATLAB 等工具通过提供训练和比较多个机器学习模型的点击式应用​​程序来解决这个问题。

迭代更快

大数据和机器学习相结合,有望为长期存在的业务问题带来新的解决方案。底层技术掌握在非常熟悉这些业务问题的领域专家手中,可以产生显着的成果。例如,贝克休斯的工程师使用机器学习技术来预测他们的天然气和石油开采卡车上的泵何时会出现故障。他们从这些卡车上收集了近 1 TB 的数据,然后使用信号处理技术来识别相关的频率内容。领域知识在这里至关重要,因为他们需要了解卡车上可能出现在传感器读数中的其他系统,但这对预测泵故障没有帮助。他们应用了机器学习技术,可以区分健康的泵和不健康的泵。由此产生的系统预计将减少 1000 万美元的总成本。在整个过程中,他们对泵车系统的了解使他们能够深入挖掘数据并快速迭代。

利用处理大数据和应用机器学习的工具,贝克休斯的工程师能够很好地解决改善业务成果的问题。凭借对这些复杂系统的领域知识,工程师们将这些工具远远超出了网络和营销应用程序的传统用途。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • matlab
    +关注

    关注

    175

    文章

    2924

    浏览量

    228518
  • 机器学习
    +关注

    关注

    66

    文章

    8136

    浏览量

    130671
  • 大数据
    +关注

    关注

    64

    文章

    8660

    浏览量

    136614
收藏 人收藏

    评论

    相关推荐

    FPGA图书分享系列-2024.01.31

    FPGA在金融领域的具体应用案例,帮助读者了解理论与实践的结合,以及如何在真实世界的问题中应用FPGA技术研究前景:指出了未来神经网络加速器研究的潜力,为有志于在该领域深入研究的学
    发表于 01-31 21:14

    深入理解FFmpeg阅读体验》+ 书收到了,崭新的开篇

    今天收到了《深入理解FFmpeg》 崭新的书,一个在2022年较近距离接触过却尚未深入研究的领域图像处理。最近刚好在作这方面的研究,希望自己可以把握这次机会,好好学习下 FFMpeg,相信可以让自己
    发表于 01-07 18:57

    基于振弦采集仪的工程监测数据分析方法研究

    基于振弦采集仪的工程监测数据分析方法研究 基于振弦采集仪的工程监测数据分析方法研究主要涉及以下几个方面: 基于振弦采集仪的工程监测数据分析
    的头像 发表于 01-02 15:12 177次阅读
    基于振弦采集仪的工程监测<b class='flag-5'>数据分析</b>方法<b class='flag-5'>研究</b>

    Get职场新知识:做分析,用大数据分析工具

    为什么企业每天累积那么多的数据,也做数据分析,但最后决策还是靠经验?很大程度上是因为这些数据都被以不同的指标和存储方式放在各自的系统中,这就导致了数据
    发表于 12-05 09:36

    别再埋头苦干了,标准化财务数据分析方案开箱即用!

    在这个数字化、智能化的时代,一味埋头苦干只会换来效率低下的结果,还是得巧用各种现成资源,以财务数据分析为例,就可以下载奥威BI财务数据分析方案。一键套用,立得覆盖各个主题的财务数据分析报表,快速摸清
    发表于 09-05 10:06

    千人千面的数据分析有没可能?奥威BI数据可视化工具告诉你

    数据分析要做到千人千面,就意味着不同角色的用户在分析报表时,都可以站在自身的立场、按照自己的分析思维变化去展开数据分析,更多维地获取数据信息
    发表于 08-29 14:45

    财务数据分析?奥威BI数据可视化工具很擅长

    BI数据可视化工具通常是可以用户各行各业,用于不同主题的数据可视化分析,但面对财务数据分析这块难啃的骨头,能够好好地完成的,还真不多。接下来要介绍的这款BI
    发表于 08-29 09:44

    分享一套财务数据分析模板,零开发,更好用

    财务数据分析是很麻烦,数据量大且牵扯到多个业务数据来源、分析指标计算组合多变,换作一般的数据分析软件早就大呼搞不定了,但这些对BI
    发表于 08-15 10:47

    基于云平台的多维数据分析研究与应用

    分析处理是现在企业进行数据分析使用的一种方式。目前市场上大多数的OLAP展示工具都需要安装庞大的客户端来支持各种报表的功能,并且价格昂贵,不为多数企业所选用;而对于开源的OLAP展示工具,大部分只能提供简单的分析操作
    发表于 07-19 10:30 0次下载

    电商数据分析攻略,让你轻松搞定数据分析

    在当今的数字经济时代,运用大数据分析来促进业务增长已然成为一种普遍行为,拥有一套系统化的数据分析方案尤为重要。奥威BI电商数据分析方案是一种基于数据挖掘和机器学习
    发表于 06-27 09:22

    浅谈大数据分析技术在军事应用

    数据分析技术的发展历史可追溯至20世纪初。从那时起,大数据在军事领域的应用便逐渐显现。
    的头像 发表于 05-23 12:44 2375次阅读

    什么是大数据分析

    数据分析行业是最近这几年比较火,比较高薪的行业了,很多人都想分一杯羹,经常同学问我什么是大数据分析?什么是python?这些能学到什么技能?以后能学到什么知识?有太多的疑问,小编今天就简单写出来
    的头像 发表于 05-19 11:47 887次阅读

    数据分析到底是什么?_光点科技

    数据分析是当今信息时代中一个非常重要的概念。随着技术的不断发展和大数据的爆炸式增长,数据分析已成为各行各业的关键工具。
    的头像 发表于 05-19 10:46 472次阅读

    事实证明,国产BI软件的财务数据分析性价比极高!

    国产BI软件做财务数据分析的性价比极高,主要得益于两个因素,一个是国产BI软件按功能模块购买,大幅度降低BI大数据分析平台的使用成本;另一个则是国产BI软件已打磨出标准化、系统化的财务数据分析方案
    发表于 05-16 11:06

    数据分析的重要性

    数据分析有助于找到问题的解决方案,如降低成本,节省时间并降低决策风险。通过结合数据分析和机器学习,企业可以通过以下方式获益匪浅:
    的头像 发表于 05-10 15:34 678次阅读