0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

工业大数据处理领域的“网红”——Apache Spark

格创东智 2018-12-17 10:55 次阅读

生活离不开水,同样离不开数据,我们被数据包围,在数据中生活。当数据越来越多时,就成了大数据。


在“中国制造2025”的技术路线图中,工业大数据是作为重要突破点来规划的,而在未来的十年,以数据为核心构建的智能化体系会成为支撑智能制造和工业互联网的核心动力。而想要理解大数据,就需要理解大数据相关的查询、处理、机器学习、图计算和统计分析等Apache Spark作为新一代轻量级大数据快速处理平台,集成了大数据相关的各种能力,是理解大数据的首选

简单来讲,Spark就是一个快速、通用的大规模数据处理引擎,各种不同的应用,如实时流处理、机器学习、交互式查询等,都可以通过Spark 建立在不同的存储和运行系统上。今天的格物汇,就带大家来认识一下如日中天、高速发展的大数据处理明星——Spark。

1Spark发展历程


  • 2009年,Spark诞生于伯克利大学AMPLab,最开初属于伯克利大学的研究性项目,最开始Spark只是一个实验性的项目,代码量非常少,仅有3900行代码左右,属于轻量级的框架。

  • 2010年,伯克利大学正式开源了Spark项目

  • 2013年6月,Spark成为了Apache基金会下的项目,进入高速发展期,第三方开发者贡献了大量的代码,活跃度非常高。

  • 2014年2月,Spark以飞快的速度称为了Apache的顶级项目

  • 2014年5月底Spark1.0.0发布。

  • 2016年6月Spark2.0.0发布

  • 2018年11月 Spark2.4.0 发布


Spark作为Hadoop生态中重要的一员,其发展速度堪称恐怖,从诞生到成为Apache顶级项目不到五年时间,不过在如今数据量飞速增长的环境与背景下,Spark作为高效的计算框架能收到如此大的关注也是有所依据的。

2Spark的特点


速度快

Spark通过使用先进的DAG调度器、查询优化器和物理执行引擎,可以高性能地进行批量及流式处理。使用逻辑回归算法进行迭代计算,Spark比Hadoop速度快100多倍。


简单易用

Spark目前支持多种编程语言,比如Java、Scala、Python、R。熟悉其中任一门语言的都可以直接上手编写Spark程序,非常方便。还支持超过80种高级算法,使用户可以快速构建不同应用。并且Spark还支持交互式的Python和Scala的Shell,这意味着可以非常方便的在这些Shell中使用Spark集群来验证解决问题的方法,而不是像以前一样,需要打包、上传集群、验证等。这对于原型开发非常重要。


通用性高

Spark 目前主要由四大组件,如下:

  • Spark SQL:SQL on Hadoop,能够提供交互式查询和报表查询,通过JDBC等接口调用;

  • Spark Streaming::流式计算引擎;

  • Spark MLlib:机器学习库;

  • Spark GraphX:图计算引擎。

拥有这四大组件,成功解决了大数据领域中,离线批处理、交互式查询、实时流计算、机器学习与图计算等最重要的任务和问题,这些不同类型的处理都可以在同一应用中无缝使用。Spark统一的解决方案非常具有吸引力,毕竟任何公司都想用统一的平台处理问题,减少开发和维护的人力成本和部署平台的物理成本。当然还有,作为统一的解决方案,Spark并没有以牺牲性能为代价。相反,在性能方面Spark具有巨大优势。


可融合性

Spark可以运行在standalone、YARN、Mesos、Kubernetes及EC2多种调度平台上。其中Standalone模式不依赖第三方的资源管理器和调度器,这样降低了Spark的使用门槛,使得所有人可以非常容易地部署和使用Spark。

Spark可以处理所有Hadoop支持的数据,包括HDFS、Apach HBase、Apach Kudu、Apach Cassanda等。这对于已部署Hadoop集群的用户特别重要,因为不需要做任何数据迁移就可以使用Spark强大的处理能力。



3Spark相比MapReduce优势

Spark与MapReduce 同为计算框架,但作为后起之秀,Spark借鉴了MapReduce,并在其基础上进行了改进,使得算法性能明显优于MapReduce,下面大致总结一下两者差异:

1)Spark把运算的中间数据存放在内存,迭代计算效率更高;MapReduce的中间结果需要落地到磁盘,磁盘io操作多,影响性能。

2)Spark容错性高,它通过Lineage机制实现RDD算子的高效容错,某一部分丢失或者出错,可以通过整个数据集的计算流程的血缘关系来实现重建;MapReduce的话容错可能只能重新计算了,成本较高。

3)Spark更加通用,Spark提供了transformation和action这两大类的多个功能算子,操作更为方便;MapReduce只提供了map和reduce两种操作。

4)Spark框架和生态更为复杂,首先有RDD、血缘lineage、执行时的有向无环图DAG、stage划分等等,很多时候spark作业都需要根据不同业务场景的需要进行调优已达到性能要求;MapReduce框架及其生态相对较为简单,对性能的要求也相对较弱,但是运行较为稳定,适合长期后台运行。

4Spark与工业互联平台


工业互联网带来了工业数据的快速发展,对于日益增加的海量数据,传统单机因本身的软硬件限制无法应对海量数据的处理、分析以及深度挖掘,但作为分布式计算框架的Spark却能轻松应付这些场景。在工业互联网平台上,Spark 既能快速实现工业现场海量流数据的处理转换,又能轻松应对工业大数据平台中海量数据的快速批处理分析,自身集成的机器学习框架能够对海量工业数据进行深度挖掘分析,从而帮助管理者进行决策分析。


基于Spark框架自身的优良设计理念以及社区的蓬勃发展状态,相信未来Spark会在工业互联网平台扮演越来越重要的角色。

本文作者:黄欢,格创东智大数据工程师 (转载请注明来源及作者)



声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大数据
    +关注

    关注

    64

    文章

    8632

    浏览量

    136568
  • 智能制造
    +关注

    关注

    48

    文章

    5090

    浏览量

    75534
  • 工业互联网
    +关注

    关注

    28

    文章

    4228

    浏览量

    93804
  • SPARK
    +关注

    关注

    1

    文章

    99

    浏览量

    19719
  • 工业大数据
    +关注

    关注

    0

    文章

    72

    浏览量

    7760
收藏 人收藏

    评论

    相关推荐

    工业大数据发展面临的问题

    工业大数据作为工业与数字经济之间的桥梁纽带,对加快工业数字化转型、推进数实融合,支撑新型工业化建设意义重大。
    的头像 发表于 04-16 11:52 145次阅读

    如何利用DPU加速Spark大数据处理? | 总结篇

    SSD速度通过NVMe接口得到了大幅提升,并且网络传输速率也进入了新的高度,但CPU主频发展并未保持同等步调,3GHz左右的核心频率已成为常态。 在当前背景下Apache Spark大数据处理工具中,尽管存储和网络性能的提升极
    的头像 发表于 04-02 13:45 410次阅读
    如何利用DPU加速<b class='flag-5'>Spark</b><b class='flag-5'>大数据处理</b>? | 总结篇

    RDMA技术在Apache Spark中的应用

    背景介绍 在当今数据驱动的时代,Apache Spark已经成为了处理大规模数据集的首选框架。作为一个开源的分布式计算系统,
    的头像 发表于 03-25 18:13 1054次阅读
    RDMA技术在<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>中的应用

    基于DPU和HADOS-RACE加速Spark 3.x

    、Python、Java、Scala、R)等特性在大数据计算领域被广泛使用。其中,Spark SQL 是 Spark 生态系统中的一个重要组件,它允许用户以结构化
    的头像 发表于 03-25 18:12 916次阅读
    基于DPU和HADOS-RACE加速<b class='flag-5'>Spark</b> 3.x

    工程监测领域振弦采集仪的数据处理与分析方法探讨

    工程监测领域振弦采集仪的数据处理与分析方法探讨 在工程监测领域,振弦采集仪是常用的一种设备,用于测量和记录结构物的振动数据数据处理和分析是
    的头像 发表于 01-10 14:44 142次阅读
    工程监测<b class='flag-5'>领域</b>振弦采集仪的<b class='flag-5'>数据处理</b>与分析方法探讨

    数据处理

    初学者想请教一下大家,采集的噪声信号,想要对采集到的数据累计到一定数量再进行处理,计划每隔0.2秒进行一次数据处理,(得到均方根值等一些特征值)请问大家有什么方法可以实现
    发表于 01-07 10:11

    基于工业大数据和物联网的智能工厂如何实现

    在中国制造2025及工业4.0技术的加持下,离散制造业的流程工业实现生产设备网络化、生产数据可视化、生产现场无人化等现金数据应用,做到横向与纵向的集成,实现边缘到云端的
    的头像 发表于 12-25 15:32 295次阅读

    NVIDIA 携手腾讯开发和优化 Spark UCX 实现性能跃升

    、稳定的大数据平台支撑和决策支持,是腾讯公司最大的离线数据处理平台。 Spark 业务所面临的挑战 Spark 网络目前的现状包括大规
    的头像 发表于 08-25 20:50 416次阅读
    NVIDIA 携手腾讯开发和优化 <b class='flag-5'>Spark</b> UCX 实现性能跃升

    大数据处理平台Spark(3)#大数据分析

    大数据分析
    学习硬声知识
    发布于 :2023年07月11日 18:30:06

    大数据处理平台Spark(2)#大数据分析

    大数据分析
    学习硬声知识
    发布于 :2023年07月11日 18:29:37

    大数据处理平台Spark(1)#大数据分析

    大数据分析
    学习硬声知识
    发布于 :2023年07月11日 18:29:11

    智慧农业大数据

    智慧农业,作为未来农业的发展方向,其实现基于种植环境、生长管理、农机设备等数据。农业大数据核心在于技术,包括获取技术和处理数据技术。相比工业大数据
    的头像 发表于 07-10 16:18 564次阅读

    大数据处理平台概述(1)#大数据处理

    大数据
    未来加油dz
    发布于 :2023年07月05日 11:18:24

    #大数据处理

    大数据
    未来加油dz
    发布于 :2023年07月05日 11:13:36

    分#大数据处理

    大数据
    未来加油dz
    发布于 :2023年07月05日 11:05:06