0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

工业大数据处理领域的“网红”——Apache Spark

格创东智 2018-12-17 10:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

生活离不开水,同样离不开数据,我们被数据包围,在数据中生活。当数据越来越多时,就成了大数据。


在“中国制造2025”的技术路线图中,工业大数据是作为重要突破点来规划的,而在未来的十年,以数据为核心构建的智能化体系会成为支撑智能制造和工业互联网的核心动力。而想要理解大数据,就需要理解大数据相关的查询、处理、机器学习、图计算和统计分析等Apache Spark作为新一代轻量级大数据快速处理平台,集成了大数据相关的各种能力,是理解大数据的首选

简单来讲,Spark就是一个快速、通用的大规模数据处理引擎,各种不同的应用,如实时流处理、机器学习、交互式查询等,都可以通过Spark 建立在不同的存储和运行系统上。今天的格物汇,就带大家来认识一下如日中天、高速发展的大数据处理明星——Spark。

1Spark发展历程


  • 2009年,Spark诞生于伯克利大学AMPLab,最开初属于伯克利大学的研究性项目,最开始Spark只是一个实验性的项目,代码量非常少,仅有3900行代码左右,属于轻量级的框架。

  • 2010年,伯克利大学正式开源了Spark项目

  • 2013年6月,Spark成为了Apache基金会下的项目,进入高速发展期,第三方开发者贡献了大量的代码,活跃度非常高。

  • 2014年2月,Spark以飞快的速度称为了Apache的顶级项目

  • 2014年5月底Spark1.0.0发布。

  • 2016年6月Spark2.0.0发布

  • 2018年11月 Spark2.4.0 发布


Spark作为Hadoop生态中重要的一员,其发展速度堪称恐怖,从诞生到成为Apache顶级项目不到五年时间,不过在如今数据量飞速增长的环境与背景下,Spark作为高效的计算框架能收到如此大的关注也是有所依据的。

2Spark的特点


速度快

Spark通过使用先进的DAG调度器、查询优化器和物理执行引擎,可以高性能地进行批量及流式处理。使用逻辑回归算法进行迭代计算,Spark比Hadoop速度快100多倍。


简单易用

Spark目前支持多种编程语言,比如Java、Scala、Python、R。熟悉其中任一门语言的都可以直接上手编写Spark程序,非常方便。还支持超过80种高级算法,使用户可以快速构建不同应用。并且Spark还支持交互式的Python和Scala的Shell,这意味着可以非常方便的在这些Shell中使用Spark集群来验证解决问题的方法,而不是像以前一样,需要打包、上传集群、验证等。这对于原型开发非常重要。


通用性高

Spark 目前主要由四大组件,如下:

  • Spark SQL:SQL on Hadoop,能够提供交互式查询和报表查询,通过JDBC等接口调用;

  • Spark Streaming::流式计算引擎;

  • Spark MLlib:机器学习库;

  • Spark GraphX:图计算引擎。

拥有这四大组件,成功解决了大数据领域中,离线批处理、交互式查询、实时流计算、机器学习与图计算等最重要的任务和问题,这些不同类型的处理都可以在同一应用中无缝使用。Spark统一的解决方案非常具有吸引力,毕竟任何公司都想用统一的平台处理问题,减少开发和维护的人力成本和部署平台的物理成本。当然还有,作为统一的解决方案,Spark并没有以牺牲性能为代价。相反,在性能方面Spark具有巨大优势。


可融合性

Spark可以运行在standalone、YARN、Mesos、Kubernetes及EC2多种调度平台上。其中Standalone模式不依赖第三方的资源管理器和调度器,这样降低了Spark的使用门槛,使得所有人可以非常容易地部署和使用Spark。

Spark可以处理所有Hadoop支持的数据,包括HDFS、Apach HBase、Apach Kudu、Apach Cassanda等。这对于已部署Hadoop集群的用户特别重要,因为不需要做任何数据迁移就可以使用Spark强大的处理能力。



3Spark相比MapReduce优势

Spark与MapReduce 同为计算框架,但作为后起之秀,Spark借鉴了MapReduce,并在其基础上进行了改进,使得算法性能明显优于MapReduce,下面大致总结一下两者差异:

1)Spark把运算的中间数据存放在内存,迭代计算效率更高;MapReduce的中间结果需要落地到磁盘,磁盘io操作多,影响性能。

2)Spark容错性高,它通过Lineage机制实现RDD算子的高效容错,某一部分丢失或者出错,可以通过整个数据集的计算流程的血缘关系来实现重建;MapReduce的话容错可能只能重新计算了,成本较高。

3)Spark更加通用,Spark提供了transformation和action这两大类的多个功能算子,操作更为方便;MapReduce只提供了map和reduce两种操作。

4)Spark框架和生态更为复杂,首先有RDD、血缘lineage、执行时的有向无环图DAG、stage划分等等,很多时候spark作业都需要根据不同业务场景的需要进行调优已达到性能要求;MapReduce框架及其生态相对较为简单,对性能的要求也相对较弱,但是运行较为稳定,适合长期后台运行。

4Spark与工业互联平台


工业互联网带来了工业数据的快速发展,对于日益增加的海量数据,传统单机因本身的软硬件限制无法应对海量数据的处理、分析以及深度挖掘,但作为分布式计算框架的Spark却能轻松应付这些场景。在工业互联网平台上,Spark 既能快速实现工业现场海量流数据的处理转换,又能轻松应对工业大数据平台中海量数据的快速批处理分析,自身集成的机器学习框架能够对海量工业数据进行深度挖掘分析,从而帮助管理者进行决策分析。


基于Spark框架自身的优良设计理念以及社区的蓬勃发展状态,相信未来Spark会在工业互联网平台扮演越来越重要的角色。

本文作者:黄欢,格创东智大数据工程师 (转载请注明来源及作者)



声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 大数据
    +关注

    关注

    64

    文章

    9113

    浏览量

    144174
  • 智能制造
    +关注

    关注

    48

    文章

    6325

    浏览量

    80236
  • 工业互联网
    +关注

    关注

    28

    文章

    4397

    浏览量

    96442
  • SPARK
    +关注

    关注

    1

    文章

    108

    浏览量

    21311
  • 工业大数据
    +关注

    关注

    0

    文章

    72

    浏览量

    8203
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    工业无线以太模块杰出榜:这个品牌值得关注

    300Mbps,满足工业大数据实时传输需求。具备无线自组网功能,轻松覆盖复杂厂区环境。工作温度范围 - 40℃~75℃,适应各种工况。 在智能制造、智慧矿山等项目中,稳定传输设备运行数据与水位监测信息,助力企业数字化转型。经行业机构测评与市场验证,成为
    的头像 发表于 04-13 10:52 192次阅读
    <b class='flag-5'>工业</b>无线以太<b class='flag-5'>网</b>模块杰出榜:这个品牌值得关注

    云端数据处理专利技术:重塑数字时代的算力基石

    一、云端数据处理:数字经济的核心引擎在数字化浪潮席卷全球的今天,每天产生的数据量呈指数级增长。从智能终端的实时传感数据,到企业的业务运营数据,再到科研
    的头像 发表于 04-07 11:20 1615次阅读
    云端<b class='flag-5'>数据处理</b>专利技术:重塑数字时代的算力基石

    DPU数据处理器的核心功能和应用领域

    DPU,全称数据处理器(Data Processing Unit),是一种专门用于处理数据中心中数据流动与基础设施任务的专用处理器。它既不像
    的头像 发表于 02-02 13:52 1171次阅读
    DPU<b class='flag-5'>数据处理</b>器的核心功能和应用<b class='flag-5'>领域</b>

    海光3350便携机主板:大数据处理利器

    随着企业数字化转型加速,大数据处理需求从固定机房向移动场景延伸。无论是金融机构外出调研、科研团队野外数据采集,还是个人创作者处理海量素材,便携设备的性能成为关键。海光便携机主板凭借独特的技术优势,正成为
    的头像 发表于 12-26 11:15 787次阅读

    SmartBug2.0 用户指南:硬件连接、功能使用与数据处理全解析

    SmartBug2.0 用户指南:硬件连接、功能使用与数据处理全解析 在电子设备的开发与应用中,传感器模块的功能和使用方式至关重要。SmartBug2.0 作为一款功能强大的模块,为我们在多领域
    的头像 发表于 12-26 09:15 611次阅读

    MCU数据采集模块的数据处理和分析能力如何?

    MCU数据采集模块的数据处理和分析能力如何?在现代化结构物安全监测领域,MCU数据采集模块扮演着至关重要的角色。它不仅仅是数据的“搬运工”,
    的头像 发表于 12-02 16:03 617次阅读
    MCU<b class='flag-5'>数据</b>采集模块的<b class='flag-5'>数据处理</b>和分析能力如何?

    组态大数据平台是什么?有什么功能?

    组态大数据平台是融合 组态技术 与 大数据处理能力 的综合性平台,通过图形化、可配置的方式实现数据采集、存储、分析、可视化及远程控制,适用于工业自动化、能源管理、楼宇监控等
    的头像 发表于 10-30 11:29 376次阅读
    组态<b class='flag-5'>大数据</b>平台是什么?有什么功能?

    御控工业物联网大数据解决方案:排水设备远程监控与大数据统计系统

    御控工业物联网推出排水设备远程监控与大数据统计系统,通过物联网、大数据、云计算等技术构建“感知-传输-分析-决策”闭环管理体系,助力排水行业数字化转型。
    的头像 发表于 09-12 10:04 882次阅读

    如何利用 AI 算法优化碳化硅衬底 TTV 厚度测量数据处理

    摘要 本文聚焦碳化硅衬底 TTV 厚度测量数据处理环节,针对传统方法的局限性,探讨 AI 算法在数据降噪、误差校正、特征提取等方面的应用,为提升数据处理效率与测量准确性提供新的技术思路。 引言 在
    的头像 发表于 08-25 14:06 819次阅读
    如何利用 AI 算法优化碳化硅衬底 TTV 厚度测量<b class='flag-5'>数据处理</b>

    电商API的实时数据处理

      在现代电商平台中,API(应用程序接口)扮演着核心角色,它连接用户、商家和后台系统,实现数据的高效交换。随着电商业务规模的扩大,实时数据处理变得至关重要——它要求系统在毫秒级内响应API请求
    的头像 发表于 07-23 15:39 748次阅读
    电商API的实时<b class='flag-5'>数据处理</b>

    使用NVIDIA GPU加速Apache Spark中Parquet数据扫描

    随着各行各业的企业数据规模不断增长,Apache Parquet 已经成为了一种主流数据存储格式。Apache Parquet 是一种列式存储格式,专为高效的大规模
    的头像 发表于 07-23 10:52 1309次阅读
    使用NVIDIA GPU加速<b class='flag-5'>Apache</b> <b class='flag-5'>Spark</b>中Parquet<b class='flag-5'>数据</b>扫描

    欧菲光荣获第七届“深圳工业大奖” 深圳工业界最高荣誉

    工业大奖”企业,彰显了公司在光学光电领域的技术研发、生产制造、市场拓展等方面的综合实力。 “深圳工业大奖”是伴随“中国工业大奖”应运而生的深圳工业
    的头像 发表于 07-15 18:07 1835次阅读

    抖音电商 API 接口和传统电商接口,直播数据处理谁更快?

    ​ 在直播电商蓬勃发展的今天,数据处理速度成为平台竞争力的关键。抖音电商作为新兴力量,其API接口针对直播场景进行了优化,而传统电商接口则基于通用模型设计。本文将逐步分析两者的数据处理速度差异,帮助
    的头像 发表于 07-09 15:39 931次阅读
    抖音电商 API 接口和传统电商接口,直播<b class='flag-5'>数据处理</b>谁更快?

    工业大数据管理平台是什么?有什么功能?

    PLC跨网段通信网关是一种用于解决工业自动化领域中不同网络段内PLC(可编程逻辑控制器)设备通信问题的关键设备,其核心作用是实现不同网络协议、IP网段之间的数据交互与信息传输,下面从多个方面详细介绍
    的头像 发表于 06-13 15:43 512次阅读

    京东工业大模型Joy industrial重磅发布

    京东工业多年深耕工业数智供应链领域形成的经验积累和数据沉淀,通过“工业大模型+供应链场景应用”双引擎,构建从底层算力、算法、
    的头像 发表于 05-28 17:12 1116次阅读