0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MapReduce和Spark概要介绍

RG15206629988 来源:行业学习与研究 2023-03-20 09:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一、MapReduce

(1)MapReduce概要介绍

MapReduce是一种编程模型,可用于大规模数据集(数据量大于1TB的数据集)的并行运算(根据百度百科:并行运算是一种一次可执行多个指令的算法,可提高计算速度)。MapReduce可使程序的并行运算更加简单。

Map(映射)是于各个节点对本地数据的预处理操作。 Reduce(归约)是将Map预处理操作后的数据汇总。Reduce可使编程人员不必关心如何实现分布式并行程序,基于Reduce,编程人员可只关注业务数据处理。

(2)处理模型

MapReduce框架负责处理并行计算中的复杂问题,包括:分布式存储、作业调度、负载均衡、容错处理、网络通信等。

MapReduce的处理流程如图一所示。

首先,数据在数据节点被划分为数据块(个人理解:数据块即图一中的split),MapReduce确定待处理的数据块数量并确定每个记录(个人理解:此处记录可被理解关系数据库的一行数据)在数据块中的位置;

然后,划分后的数据块作为Map的输入;

再然后,Map的输出数据需要经过sort(个人理解:分类)、copy(个人理解:复制)、merge(个人理解:合并)操作成为Reduce的输入,Reduce的输入数据间没有交集,系统中处于Reduce运行的节点的数量等于merge操作后的数据数量;

最后,输出Reduce运行后的数据。

53e687fe-c521-11ed-bfe3-dac502259ad0.png

图一,图片来源:学堂在线《大数据导论》

二、Spark

(1)Spark概要介绍

Spark是针对大规模数据处理的快速通用引擎,其功能是类似MapReduce的计算引擎。

(2)Spark的特点

1)计算速度快。Spark计算速度是Hadoop计算速度的一百倍。

2)可用性高。Spark可使用JavaPython、R、SQL等编程语言。

3)通用性。Spark由一系列解决处理复杂问题的组件构成,可处理多种类型有关数据库的复杂问题。

4)可运行于多种环境中,运行环境包括Hadoop等。

图片来源:学堂在线《大数据导论》

(3)Spark的体系架构

1)Cluster Manager:Cluster Manager是主节点,控制整个集群,监控 Worker Node。

2)Worker Node:Worker Node是从节点,负责控制计算节点,启动Executor 或者Driver

3)Driver:运行Application(个人理解:此处Application指某一应用)的main()函数

4)Executor:为Application运行Worker Node上的一个进程。

549d286a-c521-11ed-bfe3-dac502259ad0.png

图片来源:学堂在线《大数据导论》

(4)RDD

RDD(Resilient Distributed Dataset)被称为弹性分布式数据集,利用SparkContext实例(根据网络资料理解:每个SparkContext实例是Spark的一个应用)创建的对象均为RDD。RDD是不可变、可分区、其内部元素可并行计算的集合,数据可在RDD中运行RDD的自有函数。

RDD的函数被称为RDD算子,RDD算子分为Transformation和Action两种类型。Transformation具有类似于MapReduce的功能,Action的功能包括:触发RDD计算、统计RDD元素个数等。

RDD的特点包括:自动容错、位置感知性调度、可伸缩性(个人理解:数据量的多少对RDD的运行影响较小)、可在已有RDD的基础上创建新的RDD、延迟执行(延迟执行即Transformation只有在Action被触发后才执行)。

另外,RDD允许用户在执行多个查询时可将工作集缓存在内存中,后续的查询可重用工作集,可提升查询速度。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • SQL
    SQL
    +关注

    关注

    1

    文章

    807

    浏览量

    46953
  • 编程语言
    +关注

    关注

    10

    文章

    1965

    浏览量

    39883
  • RDD
    RDD
    +关注

    关注

    0

    文章

    7

    浏览量

    8187
  • SPARK
    +关注

    关注

    1

    文章

    108

    浏览量

    21290
  • MapReduce
    +关注

    关注

    0

    文章

    45

    浏览量

    6913

原文标题:大数据相关介绍(22)——MapReduce和Spark

文章出处:【微信号:行业学习与研究,微信公众号:行业学习与研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基于Arm架构的NVIDIA DGX Spark平台构建离线语音助手系统

    基于云的人工智能 (AI) 占据了大多数关注焦点,但真正实现响应和隐私保护的交互则发生在边缘侧。本文将展示如何基于 Arm 架构的 NVIDIA DGX Spark 平台,构建一个完全离线、实时
    的头像 发表于 04-09 15:51 245次阅读
    基于Arm架构的NVIDIA DGX <b class='flag-5'>Spark</b>平台构建离线语音助手系统

    首届中国NVIDIA DGX Spark黑客松大赛开启报名

    倒计时启动!首届中国 NVIDIA DGX Spark 黑客松(Hackathon)将于 3 月 13 日 - 3 月 28 日正式开启报名!本届赛事以“算力破局、AI 落地”为核心导向,依托
    的头像 发表于 03-14 16:39 2724次阅读

    NVIDIA DGX Spark助力高等教育领域重大项目

    在全球各地的顶尖高校,NVIDIA DGX Spark 桌面超级计算机正将数据中心级的 AI 能力带到实验室台前、教师办公室里和学生的终端设备上。在地球最南端的南极,也有一台 DGX Spark 正在威斯康星大学麦迪逊分校运营的 IceCube 中微子天文台中高速运转。
    的头像 发表于 03-09 16:33 689次阅读

    全新软件与模型优化为NVIDIA DGX Spark注入强大动力

    自发布以来,NVIDIA 通过持续的软件优化以及与软件合作伙伴和开源社区的紧密协作,不断提升基于 Grace Blackwell 架构的 DGX Spark 的性能。这些举措在推理、训练和创意工作流方面都取得了显著的成效。
    的头像 发表于 01-09 10:17 871次阅读

    NVIDIA DGX Spark桌面级AI超级计算机助力开发者构建AI模型

    开源 AI 正在加速各行各业的创新,NVIDIA DGX Spark 将帮助开发者将创新转化为影响力。
    的头像 发表于 01-09 09:49 733次阅读

    如何在DGX Spark上运行NVIDIA Omniverse

    首先感谢 Vigor 同学第一时间的分享,以下是具体如何在 DGX Spark 上运行 Omniverse 的方法。
    的头像 发表于 12-17 10:13 945次阅读
    如何在DGX <b class='flag-5'>Spark</b>上运行NVIDIA Omniverse

    NVIDIA DGX Spark系统恢复过程与步骤

    在使用 NVIDIA DGX Spark 的过程中,可能会出现配置故障,而导致开发中断的问题,本篇教程将带大家了解如何一步步完成系统恢复。
    的头像 发表于 11-28 09:46 5959次阅读
    NVIDIA DGX <b class='flag-5'>Spark</b>系统恢复过程与步骤

    NVIDIA DGX Spark助力构建自己的AI模型

    2025 年 1 月 6 日,NVIDIA 正式宣布其 Project DIGITS 项目,并于 3 月 18 日更名为 NVIDIA DGX Spark,进一步公布了产品细节。DGX Spark
    的头像 发表于 11-21 09:25 1558次阅读
    NVIDIA DGX <b class='flag-5'>Spark</b>助力构建自己的AI模型

    在NVIDIA DGX Spark平台上对NVIDIA ConnectX-7 200G网卡配置教程

    在 NVIDIA DGX Spark 平台上对 NVIDIA ConnectX-7 200G 网卡进行配置时,会遇到“4 个逻辑端口”现象。理解背后的真相是后续所有配置的基础。本文将从此现象入手,逐步解析其原理,并提供从基础配置到深度性能验证的完整流程。
    的头像 发表于 11-21 09:19 6083次阅读
    在NVIDIA DGX <b class='flag-5'>Spark</b>平台上对NVIDIA ConnectX-7 200G网卡配置教程

    NVIDIA DGX Spark快速入门指南

    NVIDIA DGX Spark 已正式向 AI 开发者交付,对于刚入手的全新 DGX Spark,该如何进行初始化设置?本篇文章将引导您完成 DGX Spark 首次设置。在初始设置的过程中,您
    的头像 发表于 11-17 14:11 7132次阅读
    NVIDIA DGX <b class='flag-5'>Spark</b>快速入门指南

    安泰新能源发布新一代智能跟踪支架AT-Spark,为大型光伏电站提供一体化解决方案

    厦门2025年11月13日 /美通社/ -- 安泰新能源在其"Spark ON"全球发布会上,正式推出新一代智能太阳能跟踪支架 AT-Spark 。该支架专为大型光伏电站设计,旨在满足市场对更高
    的头像 发表于 11-13 21:08 342次阅读

    NVIDIA黄仁勋向SpaceX马斯克交付DGX Spark

    革新于星舰基地开始。NVIDIA 创始人兼首席执行官黄仁勋亲手将全球迄今为止最小的 AI 超级计算机 NVIDIA DGX Spark 交付给埃隆·马斯克,拉开了该产品上市的序幕。
    的头像 发表于 10-21 11:12 1154次阅读

    NVIDIA DGX Spark新一代AI超级计算机正式交付

    NVIDIA 创始人兼首席执行官黄仁勋在 SpaceX 向埃隆·马斯克交付 DGX Spark
    的头像 发表于 10-21 10:41 1531次阅读

    NVIDIA DGX Spark桌面AI计算机开启预订

    DGX Spark 现已开启预订!丽台科技作为 NVIDIA 授权分销商,提供从产品到服务的一站式解决方案,助力轻松部署桌面 AI 计算机。
    的头像 发表于 09-23 17:20 1552次阅读
    NVIDIA DGX <b class='flag-5'>Spark</b>桌面AI计算机开启预订

    使用NVIDIA GPU加速Apache Spark中Parquet数据扫描

    的方式组织数据,这使得 Parquet 在查询时仅读取所需的列,而无需扫描整行数据,即可实现高性能的查询和分析。高效的数据布局使 Parquet 在现代分析生态系统中成为了受欢迎的选择,尤其是在 Apache Spark 工作负载中。
    的头像 发表于 07-23 10:52 1231次阅读
    使用NVIDIA GPU加速Apache <b class='flag-5'>Spark</b>中Parquet数据扫描