0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

工业大数据处理领域的“网红”——Apache Spark

格创东智 2018-12-17 10:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

生活离不开水,同样离不开数据,我们被数据包围,在数据中生活。当数据越来越多时,就成了大数据。


在“中国制造2025”的技术路线图中,工业大数据是作为重要突破点来规划的,而在未来的十年,以数据为核心构建的智能化体系会成为支撑智能制造和工业互联网的核心动力。而想要理解大数据,就需要理解大数据相关的查询、处理、机器学习、图计算和统计分析等Apache Spark作为新一代轻量级大数据快速处理平台,集成了大数据相关的各种能力,是理解大数据的首选

简单来讲,Spark就是一个快速、通用的大规模数据处理引擎,各种不同的应用,如实时流处理、机器学习、交互式查询等,都可以通过Spark 建立在不同的存储和运行系统上。今天的格物汇,就带大家来认识一下如日中天、高速发展的大数据处理明星——Spark。

1Spark发展历程


  • 2009年,Spark诞生于伯克利大学AMPLab,最开初属于伯克利大学的研究性项目,最开始Spark只是一个实验性的项目,代码量非常少,仅有3900行代码左右,属于轻量级的框架。

  • 2010年,伯克利大学正式开源了Spark项目

  • 2013年6月,Spark成为了Apache基金会下的项目,进入高速发展期,第三方开发者贡献了大量的代码,活跃度非常高。

  • 2014年2月,Spark以飞快的速度称为了Apache的顶级项目

  • 2014年5月底Spark1.0.0发布。

  • 2016年6月Spark2.0.0发布

  • 2018年11月 Spark2.4.0 发布


Spark作为Hadoop生态中重要的一员,其发展速度堪称恐怖,从诞生到成为Apache顶级项目不到五年时间,不过在如今数据量飞速增长的环境与背景下,Spark作为高效的计算框架能收到如此大的关注也是有所依据的。

2Spark的特点


速度快

Spark通过使用先进的DAG调度器、查询优化器和物理执行引擎,可以高性能地进行批量及流式处理。使用逻辑回归算法进行迭代计算,Spark比Hadoop速度快100多倍。


简单易用

Spark目前支持多种编程语言,比如Java、Scala、Python、R。熟悉其中任一门语言的都可以直接上手编写Spark程序,非常方便。还支持超过80种高级算法,使用户可以快速构建不同应用。并且Spark还支持交互式的Python和Scala的Shell,这意味着可以非常方便的在这些Shell中使用Spark集群来验证解决问题的方法,而不是像以前一样,需要打包、上传集群、验证等。这对于原型开发非常重要。


通用性高

Spark 目前主要由四大组件,如下:

  • Spark SQL:SQL on Hadoop,能够提供交互式查询和报表查询,通过JDBC等接口调用;

  • Spark Streaming::流式计算引擎;

  • Spark MLlib:机器学习库;

  • Spark GraphX:图计算引擎。

拥有这四大组件,成功解决了大数据领域中,离线批处理、交互式查询、实时流计算、机器学习与图计算等最重要的任务和问题,这些不同类型的处理都可以在同一应用中无缝使用。Spark统一的解决方案非常具有吸引力,毕竟任何公司都想用统一的平台处理问题,减少开发和维护的人力成本和部署平台的物理成本。当然还有,作为统一的解决方案,Spark并没有以牺牲性能为代价。相反,在性能方面Spark具有巨大优势。


可融合性

Spark可以运行在standalone、YARN、Mesos、Kubernetes及EC2多种调度平台上。其中Standalone模式不依赖第三方的资源管理器和调度器,这样降低了Spark的使用门槛,使得所有人可以非常容易地部署和使用Spark。

Spark可以处理所有Hadoop支持的数据,包括HDFS、Apach HBase、Apach Kudu、Apach Cassanda等。这对于已部署Hadoop集群的用户特别重要,因为不需要做任何数据迁移就可以使用Spark强大的处理能力。



3Spark相比MapReduce优势

Spark与MapReduce 同为计算框架,但作为后起之秀,Spark借鉴了MapReduce,并在其基础上进行了改进,使得算法性能明显优于MapReduce,下面大致总结一下两者差异:

1)Spark把运算的中间数据存放在内存,迭代计算效率更高;MapReduce的中间结果需要落地到磁盘,磁盘io操作多,影响性能。

2)Spark容错性高,它通过Lineage机制实现RDD算子的高效容错,某一部分丢失或者出错,可以通过整个数据集的计算流程的血缘关系来实现重建;MapReduce的话容错可能只能重新计算了,成本较高。

3)Spark更加通用,Spark提供了transformation和action这两大类的多个功能算子,操作更为方便;MapReduce只提供了map和reduce两种操作。

4)Spark框架和生态更为复杂,首先有RDD、血缘lineage、执行时的有向无环图DAG、stage划分等等,很多时候spark作业都需要根据不同业务场景的需要进行调优已达到性能要求;MapReduce框架及其生态相对较为简单,对性能的要求也相对较弱,但是运行较为稳定,适合长期后台运行。

4Spark与工业互联平台


工业互联网带来了工业数据的快速发展,对于日益增加的海量数据,传统单机因本身的软硬件限制无法应对海量数据的处理、分析以及深度挖掘,但作为分布式计算框架的Spark却能轻松应付这些场景。在工业互联网平台上,Spark 既能快速实现工业现场海量流数据的处理转换,又能轻松应对工业大数据平台中海量数据的快速批处理分析,自身集成的机器学习框架能够对海量工业数据进行深度挖掘分析,从而帮助管理者进行决策分析。


基于Spark框架自身的优良设计理念以及社区的蓬勃发展状态,相信未来Spark会在工业互联网平台扮演越来越重要的角色。

本文作者:黄欢,格创东智大数据工程师 (转载请注明来源及作者)



声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大数据
    +关注

    关注

    64

    文章

    9029

    浏览量

    143055
  • 智能制造
    +关注

    关注

    48

    文章

    6136

    浏览量

    79461
  • 工业互联网
    +关注

    关注

    28

    文章

    4383

    浏览量

    95992
  • SPARK
    +关注

    关注

    1

    文章

    108

    浏览量

    21111
  • 工业大数据
    +关注

    关注

    0

    文章

    72

    浏览量

    8156
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    MCU数据采集模块的数据处理和分析能力如何?

    MCU数据采集模块的数据处理和分析能力如何?在现代化结构物安全监测领域,MCU数据采集模块扮演着至关重要的角色。它不仅仅是数据的“搬运工”,
    的头像 发表于 12-02 16:03 142次阅读
    MCU<b class='flag-5'>数据</b>采集模块的<b class='flag-5'>数据处理</b>和分析能力如何?

    组态大数据平台是什么?有什么功能?

    组态大数据平台是融合 组态技术 与 大数据处理能力 的综合性平台,通过图形化、可配置的方式实现数据采集、存储、分析、可视化及远程控制,适用于工业自动化、能源管理、楼宇监控等
    的头像 发表于 10-30 11:29 89次阅读
    组态<b class='flag-5'>大数据</b>平台是什么?有什么功能?

    如何利用 AI 算法优化碳化硅衬底 TTV 厚度测量数据处理

    摘要 本文聚焦碳化硅衬底 TTV 厚度测量数据处理环节,针对传统方法的局限性,探讨 AI 算法在数据降噪、误差校正、特征提取等方面的应用,为提升数据处理效率与测量准确性提供新的技术思路。 引言 在
    的头像 发表于 08-25 14:06 485次阅读
    如何利用 AI 算法优化碳化硅衬底 TTV 厚度测量<b class='flag-5'>数据处理</b>

    电商API的实时数据处理

      在现代电商平台中,API(应用程序接口)扮演着核心角色,它连接用户、商家和后台系统,实现数据的高效交换。随着电商业务规模的扩大,实时数据处理变得至关重要——它要求系统在毫秒级内响应API请求
    的头像 发表于 07-23 15:39 371次阅读
    电商API的实时<b class='flag-5'>数据处理</b>

    使用NVIDIA GPU加速Apache Spark中Parquet数据扫描

    随着各行各业的企业数据规模不断增长,Apache Parquet 已经成为了一种主流数据存储格式。Apache Parquet 是一种列式存储格式,专为高效的大规模
    的头像 发表于 07-23 10:52 711次阅读
    使用NVIDIA GPU加速<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>中Parquet<b class='flag-5'>数据</b>扫描

    抖音电商 API 接口和传统电商接口,直播数据处理谁更快?

    ​ 在直播电商蓬勃发展的今天,数据处理速度成为平台竞争力的关键。抖音电商作为新兴力量,其API接口针对直播场景进行了优化,而传统电商接口则基于通用模型设计。本文将逐步分析两者的数据处理速度差异,帮助
    的头像 发表于 07-09 15:39 426次阅读
    抖音电商 API 接口和传统电商接口,直播<b class='flag-5'>数据处理</b>谁更快?

    京东工业大模型Joy industrial重磅发布

    京东工业多年深耕工业数智供应链领域形成的经验积累和数据沉淀,通过“工业大模型+供应链场景应用”双引擎,构建从底层算力、算法、
    的头像 发表于 05-28 17:12 768次阅读

    NVIDIA加速的Apache Spark助力企业节省大量成本

    随着 NVIDIA 推出 Aether 项目,通过采用 NVIDIA 加速的 Apache Spark 企业得以自动加速其数据中心规模的分析工作负载,从而节省数百万美元。
    的头像 发表于 03-25 15:09 894次阅读
    NVIDIA加速的<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>助力企业节省大量成本

    树莓派5 + Hailo AI加速器:工业级数值数据处理实战,打通SQLite与机器学习全链路

    本文讨论了在工业自动化背景下,开发者利用树莓派5和HailoAI加速器进行工业级数值数据处理实战,打通SQLite与机器学习全链路时遇到的问题及解决方案。关键要点包括:1.开发者需求:构建能从
    的头像 发表于 03-25 09:22 993次阅读
    树莓派5 + Hailo AI加速器:<b class='flag-5'>工业</b>级数值<b class='flag-5'>数据处理</b>实战,打通SQLite与机器学习全链路

    RAM容量不足导致的数据溢出如何预防和处理

    在 STM32F411 中,RAM 容量是有限的,特别是在进行复杂的数据处理和存储时,可能会遇到数据溢出问题。数据溢出是指程序运行时,数据超出了 RAM 的分配区域,导致程序崩溃或
    发表于 03-07 16:09

    Hut 8与比特大陆再度携手,强化数据处理能力

    北美数据处理领域的佼佼者Hut 8(纳斯达克代码:HUT)与全球领先的挖矿设备制造商比特大陆,于2024年11月宣布达成一项重要合作。根据协议,Hut 8计划在2025年第一季度部署数万台
    的头像 发表于 02-18 14:37 759次阅读

    Hadoop 生态系统在大数据处理中的应用与实践

    随着数据量的爆发式增长,大数据处理技术成为企业关注焦点,Hadoop 生态系统在其中扮演着核心角色。 Hadoop Distributed File System(HDFS)是其分布式文件存储
    的头像 发表于 01-21 17:48 671次阅读

    康谋分享 | 如何应对ADAS/AD海量数据处理挑战?

    如何有效处理ADAS/AD海量数据并从中获得见解?IVEX数据处理流程可自动从原始传感器数据等输入中识别出值得关注的事件和场景,推动数据高效
    的头像 发表于 12-25 10:05 4268次阅读
    康谋分享 | 如何应对ADAS/AD海量<b class='flag-5'>数据处理</b>挑战?

    缓存对大数据处理的影响分析

    缓存对大数据处理的影响显著且重要,主要体现在以下几个方面: 一、提高数据访问速度 在大数据环境中,数据存储通常采用分布式存储系统,数据量庞大
    的头像 发表于 12-18 09:45 1107次阅读

    cmp在数据处理中的应用 如何优化cmp性能

    CMP在数据处理中的应用 CMP(并行处理)技术在数据处理领域扮演着越来越重要的角色。随着数据量的爆炸性增长,传统的串行
    的头像 发表于 12-17 09:27 1756次阅读