0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MapReduce和Spark概要介绍

RG15206629988 来源:行业学习与研究 2023-03-20 09:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一、MapReduce

(1)MapReduce概要介绍

MapReduce是一种编程模型,可用于大规模数据集(数据量大于1TB的数据集)的并行运算(根据百度百科:并行运算是一种一次可执行多个指令的算法,可提高计算速度)。MapReduce可使程序的并行运算更加简单。

Map(映射)是于各个节点对本地数据的预处理操作。 Reduce(归约)是将Map预处理操作后的数据汇总。Reduce可使编程人员不必关心如何实现分布式并行程序,基于Reduce,编程人员可只关注业务数据处理。

(2)处理模型

MapReduce框架负责处理并行计算中的复杂问题,包括:分布式存储、作业调度、负载均衡、容错处理、网络通信等。

MapReduce的处理流程如图一所示。

首先,数据在数据节点被划分为数据块(个人理解:数据块即图一中的split),MapReduce确定待处理的数据块数量并确定每个记录(个人理解:此处记录可被理解关系数据库的一行数据)在数据块中的位置;

然后,划分后的数据块作为Map的输入;

再然后,Map的输出数据需要经过sort(个人理解:分类)、copy(个人理解:复制)、merge(个人理解:合并)操作成为Reduce的输入,Reduce的输入数据间没有交集,系统中处于Reduce运行的节点的数量等于merge操作后的数据数量;

最后,输出Reduce运行后的数据。

53e687fe-c521-11ed-bfe3-dac502259ad0.png

图一,图片来源:学堂在线《大数据导论》

二、Spark

(1)Spark概要介绍

Spark是针对大规模数据处理的快速通用引擎,其功能是类似MapReduce的计算引擎。

(2)Spark的特点

1)计算速度快。Spark计算速度是Hadoop计算速度的一百倍。

2)可用性高。Spark可使用JavaPython、R、SQL等编程语言。

3)通用性。Spark由一系列解决处理复杂问题的组件构成,可处理多种类型有关数据库的复杂问题。

4)可运行于多种环境中,运行环境包括Hadoop等。

图片来源:学堂在线《大数据导论》

(3)Spark的体系架构

1)Cluster Manager:Cluster Manager是主节点,控制整个集群,监控 Worker Node。

2)Worker Node:Worker Node是从节点,负责控制计算节点,启动Executor 或者Driver

3)Driver:运行Application(个人理解:此处Application指某一应用)的main()函数

4)Executor:为Application运行Worker Node上的一个进程。

549d286a-c521-11ed-bfe3-dac502259ad0.png

图片来源:学堂在线《大数据导论》

(4)RDD

RDD(Resilient Distributed Dataset)被称为弹性分布式数据集,利用SparkContext实例(根据网络资料理解:每个SparkContext实例是Spark的一个应用)创建的对象均为RDD。RDD是不可变、可分区、其内部元素可并行计算的集合,数据可在RDD中运行RDD的自有函数。

RDD的函数被称为RDD算子,RDD算子分为Transformation和Action两种类型。Transformation具有类似于MapReduce的功能,Action的功能包括:触发RDD计算、统计RDD元素个数等。

RDD的特点包括:自动容错、位置感知性调度、可伸缩性(个人理解:数据量的多少对RDD的运行影响较小)、可在已有RDD的基础上创建新的RDD、延迟执行(延迟执行即Transformation只有在Action被触发后才执行)。

另外,RDD允许用户在执行多个查询时可将工作集缓存在内存中,后续的查询可重用工作集,可提升查询速度。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SQL
    SQL
    +关注

    关注

    1

    文章

    789

    浏览量

    46356
  • 编程语言
    +关注

    关注

    10

    文章

    1959

    浏览量

    38895
  • RDD
    RDD
    +关注

    关注

    0

    文章

    7

    浏览量

    8159
  • SPARK
    +关注

    关注

    1

    文章

    108

    浏览量

    21111
  • MapReduce
    +关注

    关注

    0

    文章

    45

    浏览量

    6779

原文标题:大数据相关介绍(22)——MapReduce和Spark

文章出处:【微信号:行业学习与研究,微信公众号:行业学习与研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    耐能携手Spark迪维科推动AI技术在垂直产业的应用发展

    全球领先的边缘 AI 芯片领域先行者Kneron耐能宣布与AI影像科技领导品牌 Spark全面开启战略合作。双方将以Argo AI VMS为核心,携手推动 AI 技术在各大垂直产业的应用发展。进一步延续双方在智能监控场景的成功经验,并标志着从“安防科技”迈向“AI 基础建设”的重要升级。
    的头像 发表于 11-28 14:55 235次阅读

    NVIDIA DGX Spark系统恢复过程与步骤

    在使用 NVIDIA DGX Spark 的过程中,可能会出现配置故障,而导致开发中断的问题,本篇教程将带大家了解如何一步步完成系统恢复。
    的头像 发表于 11-28 09:46 3527次阅读
    NVIDIA DGX <b class='flag-5'>Spark</b>系统恢复过程与步骤

    NVIDIA DGX Spark助力构建自己的AI模型

    2025 年 1 月 6 日,NVIDIA 正式宣布其 Project DIGITS 项目,并于 3 月 18 日更名为 NVIDIA DGX Spark,进一步公布了产品细节。DGX Spark
    的头像 发表于 11-21 09:25 526次阅读
    NVIDIA DGX <b class='flag-5'>Spark</b>助力构建自己的AI模型

    在NVIDIA DGX Spark平台上对NVIDIA ConnectX-7 200G网卡配置教程

    在 NVIDIA DGX Spark 平台上对 NVIDIA ConnectX-7 200G 网卡进行配置时,会遇到“4 个逻辑端口”现象。理解背后的真相是后续所有配置的基础。本文将从此现象入手,逐步解析其原理,并提供从基础配置到深度性能验证的完整流程。
    的头像 发表于 11-21 09:19 4411次阅读
    在NVIDIA DGX <b class='flag-5'>Spark</b>平台上对NVIDIA ConnectX-7 200G网卡配置教程

    NVIDIA DGX Spark快速入门指南

    NVIDIA DGX Spark 已正式向 AI 开发者交付,对于刚入手的全新 DGX Spark,该如何进行初始化设置?本篇文章将引导您完成 DGX Spark 首次设置。在初始设置的过程中,您
    的头像 发表于 11-17 14:11 4083次阅读
    NVIDIA DGX <b class='flag-5'>Spark</b>快速入门指南

    安泰新能源发布新一代智能跟踪支架AT-Spark,为大型光伏电站提供一体化解决方案

    厦门2025年11月13日 /美通社/ -- 安泰新能源在其"Spark ON"全球发布会上,正式推出新一代智能太阳能跟踪支架 AT-Spark 。该支架专为大型光伏电站设计,旨在满足市场对更高
    的头像 发表于 11-13 21:08 132次阅读

    NVIDIA黄仁勋向SpaceX马斯克交付DGX Spark

    革新于星舰基地开始。NVIDIA 创始人兼首席执行官黄仁勋亲手将全球迄今为止最小的 AI 超级计算机 NVIDIA DGX Spark 交付给埃隆·马斯克,拉开了该产品上市的序幕。
    的头像 发表于 10-21 11:12 601次阅读

    NVIDIA DGX Spark新一代AI超级计算机正式交付

    NVIDIA 创始人兼首席执行官黄仁勋在 SpaceX 向埃隆·马斯克交付 DGX Spark
    的头像 发表于 10-21 10:41 616次阅读

    NVIDIA DGX Spark桌面AI计算机开启预订

    DGX Spark 现已开启预订!丽台科技作为 NVIDIA 授权分销商,提供从产品到服务的一站式解决方案,助力轻松部署桌面 AI 计算机。
    的头像 发表于 09-23 17:20 905次阅读
    NVIDIA DGX <b class='flag-5'>Spark</b>桌面AI计算机开启预订

    使用NVIDIA GPU加速Apache Spark中Parquet数据扫描

    的方式组织数据,这使得 Parquet 在查询时仅读取所需的列,而无需扫描整行数据,即可实现高性能的查询和分析。高效的数据布局使 Parquet 在现代分析生态系统中成为了受欢迎的选择,尤其是在 Apache Spark 工作负载中。
    的头像 发表于 07-23 10:52 711次阅读
    使用NVIDIA GPU加速Apache <b class='flag-5'>Spark</b>中Parquet数据扫描

    NVIDIA加速的Apache Spark助力企业节省大量成本

    随着 NVIDIA 推出 Aether 项目,通过采用 NVIDIA 加速的 Apache Spark 企业得以自动加速其数据中心规模的分析工作负载,从而节省数百万美元。
    的头像 发表于 03-25 15:09 892次阅读
    NVIDIA加速的Apache <b class='flag-5'>Spark</b>助力企业节省大量成本

    NVIDIA 宣布推出 DGX Spark 个人 AI 计算机

    的 DGX™ 个人 AI 超级计算机。   DGX Spark(前身为 Project DIGITS)支持 AI 开发者、研究人员、数据科学家和学生,在台式电脑上对大模型进行原型设计、微调和推理。用
    发表于 03-19 09:59 503次阅读
       NVIDIA 宣布推出 DGX <b class='flag-5'>Spark</b> 个人 AI 计算机

    SHA105概要数据手册

    电子发烧友网站提供《SHA105概要数据手册.pdf》资料免费下载
    发表于 01-21 14:33 0次下载
    SHA105<b class='flag-5'>概要</b>数据手册

    SHA106概要数据手册

    电子发烧友网站提供《SHA106概要数据手册.pdf》资料免费下载
    发表于 01-21 14:31 0次下载
    SHA106<b class='flag-5'>概要</b>数据手册

    ECC206概要数据手册

    电子发烧友网站提供《ECC206概要数据手册.pdf》资料免费下载
    发表于 01-21 14:05 0次下载
    ECC206<b class='flag-5'>概要</b>数据手册