电子发烧友网 > 存储技术 > 正文

盘点分布式存储系统的主流框架

2020年08月06日 09:07 次阅读

整个大数据处理的体系,按我的理解可以分为两个部分,一个是分布式存储系统、另一个是分布式计算框架。分布式存储系统主流是HadoopDFS,其他还有Ceph和Swift。分布式计算框架主流是MapReduce,Storm和Spark。

首先说分布式存储系统HadoopDFS。它是一种本地文件系统之上的更高的抽象,把跨节点的组成的文件系统看成一个逻辑上的整体。它存储的思路是,把文件分成一个个block,每个block都有一定量的副本存储在不同的节点上,默认数量是3个,这保证了分布式存储的数据的稳定性。

HDFS的架构有NameNode、SecondaryNameNode、DataNode。NameNode节点主要负责客户端传来的读写请求,保存文件的metadata。SecondaryNameNode负责帮助NameNode合并editlog。DataNode负责储存Block,向NameNode汇报block信息、发送heartbeat。

HDFS写入文件的时候:客户端通过RPC向NN调用create()方法,NN检查文件是否存在,不存在并且有权限的话就会创建一个新文件,向客户端返回一个FSDataOutputStream,用于写数据。

盘点分布式存储系统的主流框架

HDFS读文件的时候,客户端通过RPC向NN调用open()方法,NN获得每个数据块的位置信息,返回客户端FSDataInputstream,客户端调用其read()方法读取数据块。

分布式计算框架中最流行的是MapReduce。它把并行计算、容错等细节问题封装到库里,程序员只需要编写map和reduce函数就可以了。这种模型的灵感来自函数式编程中的map和reduce原语。Map函数接受KV值,输出KV值,reduce函数接收KEY和相同key构成的value的集合的迭代器,再输出KV值。

整个执行过程是:用户提交job给调度系统,每个job包含一系列task,调度系统将这些任务调度到集群中多台可用的机器上。

开始执行后,数据被分割成M个数据片段集合,再调用map函数,之后被分区函数将结果分成R个不同分区,之后执行Reduce函数。具体就是:

输入文件分成M个数据片段,每个片段大小是HDFS的blocksize,程序副本也被创建到集群中。

这些程序的副本有一个master,master负责分配任务给其他空闲的worker。

分配了map任务的worker程序读取数据片段,解析成KV对,然后传递给自定义的map函数,再解析出中间KV对,缓存在内存中。

分区函数把内存中的KV对分成R个区域,周期性写入文件系统,缓存的KV对在本地磁盘位置传给master,master再把位置传给reduceworker。

reduceworker收到位置信息,通过RPC从mapworker所在主机磁盘读取缓存数据。读取后,通过对key排序使得具有相同key的数据聚合在一起,

排序过后,每个key对应的value集合传给自定义reduce函数,处理之后,结果追加到所属分区的输出文件中。

map和reduce任务都完成后,master唤醒用户程序,返回结果。

Spark这个计算框架的两个优势是内存计算和DAG。它的五大特性:

         RDD都是由partiTIon组成的

         每个split都会有相同的计算函数

         有一系列的依赖关系

         对键值对类型的RDD可以为他分区,但我暂时没用过

         移动计算,而不移动数据。他会把计算发到相应数据集所在节点。

整个spark的核心就是RDD,一个RDD中的数据可以做parTITIon分区,对于RDD的操作也只有transformaTIon和action两种。

一个Spark作业就是对RDD的一系列操作(transformation和一个action)。作业又可以分为多个stage,stage的划分又出现了宽依赖和窄依赖的概念。窄依赖就是父RDD的每个分区最多被一个子RDD的分区所用,宽依赖就是子RDD的每个分区依赖于父RDD的多个分区或所有分区。当一个作业的lineage过长,可以用到缓存管理,persis或者cache一下,加快整个处理速度。

下载发烧友APP

打造属于您的人脉电子圈

关注电子发烧友微信

有趣有料的资讯及技术干货

关注发烧友课堂

锁定最新课程活动及技术直播

电子发烧友观察

一线报道 · 深度观察 · 最新资讯
收藏 人收藏
分享:

评论

相关推荐

如何看待IFTI对于分布式存储的全球布局

众所周知,信息存储是刚需,随着时代的发展,各行各业的数据存储量也越来越多,而信息之间却彼此独立,某些....
发表于 2020-08-06 09:01 2次阅读
如何看待IFTI对于分布式存储的全球布局

云计算会给分布式存储带来什么新的的影响

分布式存储服务器可以更有效地利用冗余计算能力,保证敏感数据的安全。通过“自我管理”实现计算能力的非中....
发表于 2020-08-06 08:53 7次阅读
云计算会给分布式存储带来什么新的的影响

解析夸克分布式文件系统如何实现资源共享

QKFILE—“夸克分布式文件系统”。简单点说,它是一个点对点的分布式文件系统(和比特币技术一样),....
发表于 2020-08-06 08:45 4次阅读
解析夸克分布式文件系统如何实现资源共享

如何看待分布式存储的优势

随着科技的发展,现在很多企业对于服务器的要求也是越来越高。很多企业不满足存储服务器的性能,都是要求做....
发表于 2020-08-06 08:37 6次阅读
如何看待分布式存储的优势

分布式存储加持区块链 数据将追溯、监控、存储、共...

把区块链作为底层技术,搭建此类平台,专门存储生态大数据,可以设置节点管理、存储管理、用户管理、许可管....
发表于 2020-08-02 11:09 458次阅读
分布式存储加持区块链 数据将追溯、监控、存储、共...

AFS,GFS ,QKFile主流分布式存储文件...

主流的3种分布式存储文件系统 存储架构分两种,一种是传统存储阵列架构,另一种就是本文将要重点介绍的分....
发表于 2020-08-02 11:04 279次阅读
AFS,GFS ,QKFile主流分布式存储文件...

中心化系统 分布式存储解决数据泄露隐患

在1990年,Tim Berners-Lee,创建了Web,Web是互联网上最早的应用程序之一,它使....
发表于 2020-08-02 11:00 1042次阅读
中心化系统 分布式存储解决数据泄露隐患

IPFS&Filecoin区块链分布式存...

Filecoin是旨在存储人类社会最重要信息的分布式网络,在本文中,我们介绍了现在Filecoin未....
发表于 2020-07-31 14:38 151次阅读
IPFS&Filecoin区块链分布式存...

简述分布式存储中本地存储引擎

最近几年存储介质得到了高速发展,单位存储介质的性能越来越高,从原来的机械硬盘不足 100 IOPS ....
发表于 2020-07-27 15:00 98次阅读
简述分布式存储中本地存储引擎

分布式存储如何向“云”而生?

新数据时代下,新存储平台在智算中心里肩负着数据存、管、用的重任,堪称数据生产要素的保险库。
发表于 2020-07-27 14:20 165次阅读
分布式存储如何向“云”而生?

工业4.0下的大数据:5G和分布式存储

2013年汉诺威工业博览会上德国正式推出“工业4.0的概念,其核心目的是为了提高德国工业的竞争力,在....
发表于 2020-07-27 14:11 318次阅读
工业4.0下的大数据:5G和分布式存储

现今数据爆炸式增长给Server SAN 带来了...

对于Server SAN,国外著名的分析师社区Wikibon有一个定义:简单地说,Server SA....
发表于 2020-07-24 15:26 110次阅读
现今数据爆炸式增长给Server SAN 带来了...

深信服EDS中控信息达成合作,助力城市智能交通建...

作为中国智慧城市建设先驱,中控信息长久以来为城市智能交通提供规划、实施、运营服务一体化的整体解决方案....
发表于 2020-07-23 11:10 277次阅读
深信服EDS中控信息达成合作,助力城市智能交通建...

什么叫超融合基础架构,它的作用是什么

什么是超融合? 超融合这个概念,可以简单理解为:将虚拟计算平台和存储融合到一起,将每台服务器里面自带....
发表于 2020-07-20 17:06 113次阅读
什么叫超融合基础架构,它的作用是什么

高速分布式存储引擎,可有效解决性能的瓶颈

虽然不敢说我们杉岩超融合是全球做的最好的厂家,但是在国内超融合市场,我们也算是独树一帜。 杉岩超融合....
发表于 2020-07-20 17:02 754次阅读
高速分布式存储引擎,可有效解决性能的瓶颈

存储性能差怎么办,分布式存储性能优化方案

作为明星产品,杉岩海量对象存储(SandStone MOS)在企业级市场顺势推出后,即受到了广泛的认....
发表于 2020-07-20 16:41 139次阅读
存储性能差怎么办,分布式存储性能优化方案

5G时代底层存储技术将变革

5G实现的超大带宽,与4G的移动网络提速不同。以前各代的移动通信速率都比当时已经成熟 的固定网的接入....
发表于 2020-07-13 16:04 150次阅读
5G时代底层存储技术将变革

关于分布式存储系统纠删码技术的分享

随着计算机技术和存储技术的发展,数据正以爆炸式的速度增长,海量数据对存储系统提出了巨大的挑战。为了保....
发表于 2020-07-11 11:29 57次阅读
关于分布式存储系统纠删码技术的分享

安利5个流畅自如的Python Web框架

如今,可供选择的Python web框架有不少,能帮助你更快更轻松地创建web应用。本文就将为大家介....
发表于 2020-07-02 17:15 407次阅读
安利5个流畅自如的Python Web框架

中国移动集采2200套分布式块存储产品:华为、烽...

中国移动公示2020-2021年分布式块存储产品集中采购中标候选人名单,华为、烽火等四厂商中标。 根....
发表于 2020-06-19 10:27 1909次阅读
中国移动集采2200套分布式块存储产品:华为、烽...

浅谈分布式存储和FC-SAN混合应用的场景

智汇华云:分布式存储和FC-SAN混合应用的场景 2020-03-25 分类:技术 随着技术的快速发....
发表于 2020-06-11 09:43 437次阅读
浅谈分布式存储和FC-SAN混合应用的场景

一文解析SpringBoot2整合SSM框架

SpringBoot2整合SSM框架详解
发表于 2020-06-09 16:43 38次阅读
一文解析SpringBoot2整合SSM框架

请问如何看待svelte这个前端框架?

如何看待 svelte 这个前端框架? 看了下。十分精简。思路也很独特。...
发表于 2020-06-01 05:55 50次阅读
请问如何看待svelte这个前端框架?

MegaBric获得了华为TaiShan 100...

作为华为云生态合作伙伴和鲲鹏计算生态产业成员,凯翔科技KXTECH聚焦于发展分布式存储的核心能力,通....
发表于 2020-05-13 11:42 973次阅读
MegaBric获得了华为TaiShan 100...

SlimYOLOv3框架如何实现实时目标检测

人类可以在几毫秒内在我们的视线中挑选出物体。事实上,你现在就环顾四周,你将观察到周围环境并快速检测到....
发表于 2020-05-04 09:58 530次阅读
SlimYOLOv3框架如何实现实时目标检测

AssetsLibrary框架详细解析—— 基本概览

AssetsLibrary框架详细解析(一) —— 基本概览...
发表于 2020-04-29 15:12 58次阅读
AssetsLibrary框架详细解析—— 基本概览

掌握新的编程技术和框架只需要四步

出于某种目的,我们需要掌握一门新技术,此时可能对它了解甚少,然后通过网络搜索,去了解它主要是做什么的....
发表于 2020-04-21 17:42 946次阅读
掌握新的编程技术和框架只需要四步

华为全新专用硬件系列宣告分布式存储迎来复兴

数字技术正在重塑世界,数字洪流的席卷而来以及从数据中“掘金”的迫切需求,令存储设备变得前所未有地重要....
发表于 2020-04-21 10:17 398次阅读
华为全新专用硬件系列宣告分布式存储迎来复兴

scrapy框架是什么

scrapy框架总结
发表于 2020-03-24 11:09 78次阅读
scrapy框架是什么

分布式存储为云化核心网保驾护航

块存储(Block Storage)作为企业存储市场的“主战场”,大量用户的虚拟化云平台、数据库应用....
发表于 2020-03-12 10:41 120次阅读
分布式存储为云化核心网保驾护航

如何基于分布式存储来构建大数据时代的云服务

云+AI的智能时代,传统的大数据架构已经很难满足数据分析的需求,存储逐步从计算中分离出来,以统一的云....
发表于 2020-03-05 10:26 559次阅读
如何基于分布式存储来构建大数据时代的云服务

总预算5.5亿!中国移动采购2200套分布式块存...

近日,中国移动发布2020年至2021年分布式块存储产品集采招标公告。本次项目需求满足期为1年,采购....
发表于 2020-03-05 08:30 2248次阅读
总预算5.5亿!中国移动采购2200套分布式块存...

数据中心和边缘分布式计算的存储分析

数据中心状态的最新报告探讨了与数据中心的使用和增长.根据该报告,数据中心基础架构管理(DCIM)不再....
发表于 2020-03-04 10:42 596次阅读
数据中心和边缘分布式计算的存储分析

区块链分布式存储,一种生态大数据存储的新模式

区块链的本质就是一个数据库,而且是采用的分布式存储的方式。作为一名区块链从业者,今天就来讲讲区块链的....
发表于 2020-02-27 10:58 224次阅读
区块链分布式存储,一种生态大数据存储的新模式

传染病预警系统上如何利用区块链技术

,出于病人隐私和病例数据保护的考虑,同时受到信息采集成本高昂的影响,现在大多数医院并没有及时同步共享....
发表于 2020-02-23 20:58 327次阅读
传染病预警系统上如何利用区块链技术

应对海量图片存储的分布式存储解决方案

随着互联网、云计算及大数据等信息技术的发展,越来越多的应用依赖于对海量数据的存储和处理,如智能监控、....
发表于 2020-01-09 15:41 729次阅读
应对海量图片存储的分布式存储解决方案

关于嵌入式应用框架(EAF)的分析

EAF是Embedded Application Framework 的缩写,即嵌入式应用框架。嵌入....
发表于 2020-01-01 09:50 164次阅读
关于嵌入式应用框架(EAF)的分析

IPFS将是物联网未来的发展方向

随着信息技术发展的日益深入,数据的爆炸性增长将造就“数据黑洞”,无边无际,同时蕴含的价值难以估量。
发表于 2019-12-30 17:27 2469次阅读
IPFS将是物联网未来的发展方向

关于区块链中分布式存储的浅析

区块链本质就是去中心化、分布式存储的数据库;而加密技术、Hash链表结构等,都是为了保障数据的安全性....
发表于 2019-12-13 17:35 1719次阅读
关于区块链中分布式存储的浅析

如何制作Twitter滚动图片框架

我们需要一些东西来支撑LCD屏幕并将其固定在框架中。我们使用了一块黑色塑料制成的可笑的东西,但泡沫芯....
发表于 2019-12-09 16:48 451次阅读
如何制作Twitter滚动图片框架

未来的区块链技术将为食品行业带来巨大的利润

Juniper Research的最新数据显示,到2024年,区块链将的防欺诈及溯源特性将为食品业带....
发表于 2019-11-29 17:17 2221次阅读
未来的区块链技术将为食品行业带来巨大的利润

分布式存储IPFS和Filecoin的基本逻辑分...

笔者无意去抨击这个项目的好坏,理论上来说,我个人情感上很倾向于这个项目,因为有我自己的同学非常专注于....
发表于 2019-11-25 11:36 351次阅读
分布式存储IPFS和Filecoin的基本逻辑分...

中国移动发布了2019年第二期分布式块存储集采公...

公告显示,本次采购分布式块存储共计85236TB(有效容量),其中典配1为63476TB(有效容量)....
发表于 2019-11-13 09:40 381次阅读
中国移动发布了2019年第二期分布式块存储集采公...

10KV户外欧式箱变ZBW-12制造厂家

总体布置   10kV箱式变电站高压室额定电压10kV ,低压室额定电压0.4kV。采用电缆或架空进、出线。在结...
发表于 2019-11-09 11:31 1041次阅读
10KV户外欧式箱变ZBW-12制造厂家

集中式存储和分布式存储的区别以及优缺点分析

前段时间在社区里有一些关于超融合的弊端、超融合可靠性问题以及超融合场景局限性,以及分布式存储与传统集....
发表于 2019-11-08 17:20 14323次阅读
集中式存储和分布式存储的区别以及优缺点分析

分布式存储技术将引领着产业区块链的发展

为了应对海量数据传输、存储以及计算带来的挑战,发展分布式网络势在必行。而利用区块链技术的治理机制、安....
发表于 2019-10-30 11:21 502次阅读
分布式存储技术将引领着产业区块链的发展

分布式存储技术之TurboEx超融合邮件系统

近日,国产邮件系统的领先品牌TurboEx正式发布分布式存储技术,通过最新的分布式存储技术,Turb....
发表于 2019-10-29 11:38 446次阅读
分布式存储技术之TurboEx超融合邮件系统

修改Graphics Composer下的屏幕出错该怎么办?

我试图修改Graphics Composer下的屏幕,并使用Generate Code选项,但是我一直收到一个错误:[Info]预处理图形资源...
发表于 2019-10-25 08:50 125次阅读
修改Graphics Composer下的屏幕出错该怎么办?

如何移动ICONVIEW小图标位置?

     我现在遇到的问题如图中所示,其中一个图是手册中的视图,创建的图标在小框架的上方一些,然...
发表于 2019-10-25 00:46 123次阅读
如何移动ICONVIEW小图标位置?

分布式存储的高光时刻即将到来

IDC预测,到2025年,全球数据产量将突破160ZB,它将对IT架构,尤其是存储提出更严峻的挑战。....
发表于 2019-10-23 14:21 185次阅读
分布式存储的高光时刻即将到来

分布式存储是新趋势,闪存阵列是企业存储的首选

新数据时代数据呈现出海量、多元、实时、多云的特征。对于数字化转型中的企业来说,在数据存储的极致容量、....
发表于 2019-10-21 17:20 680次阅读
分布式存储是新趋势,闪存阵列是企业存储的首选

EventKitUI显示用户界面框架

EventKitUI框架详细解析(一) —— 基本概览...
发表于 2019-10-21 10:39 244次阅读
EventKitUI显示用户界面框架

YottaChain将开启数据分布式存储的新时代

目前技术进度层面,YottaChain测试网已经于2019年6月29日上线,主网预计在第四季度上线,....
发表于 2019-10-16 16:34 393次阅读
YottaChain将开启数据分布式存储的新时代

深入分析输入子系统的框架

第六章:输入系统(3)-框架
发表于 2019-10-16 07:08 152次阅读
深入分析输入子系统的框架

数据驱动的UICollectionView框架简单示例

IGListKit框架详细解析(二) —— 基于IGListKit框架的更好的UICollectionViews简单示例(一)...
发表于 2019-10-12 15:22 208次阅读
数据驱动的UICollectionView框架简单示例

最纯粹的但又最不像分布式存储的XE2000

XE2000系列,继承了最纯粹的分布式存储血统,用户的数据可因此汇聚成湖,渠道商也因此可与用户保持高....
发表于 2019-10-08 11:19 285次阅读
最纯粹的但又最不像分布式存储的XE2000

Lambda的分布式存储之路该怎么走

Lambda主网分三个模块。第一,拥有出块节点的共识网络,该网络采用VRF+BFT共识算法;第二,存....
发表于 2019-09-29 10:34 330次阅读
Lambda的分布式存储之路该怎么走

谷歌推出了名叫NSL的神经结构学习框架

神经结构学习框架(NSL)可以监督、半监督、或无监督地学习,对训练期间的图形信号进行正规化的建模。在....
发表于 2019-09-20 14:18 833次阅读
谷歌推出了名叫NSL的神经结构学习框架

四块大数据正在积极响应并推动分布式存储和大数据的...

意见稿中提出为激发工业大数据市场活力,建设国家工业互联网大数据中心。推动5G、NB-IoT等技术在工....
发表于 2019-09-06 10:36 295次阅读
四块大数据正在积极响应并推动分布式存储和大数据的...

分布式存储与传统数据存储方式有什么区别

时代的发展,使得数据不断增加。传统的数据存储方式远远满足不了需求。想象一下,企业发展过程中,数据越来....
发表于 2019-08-30 11:09 3499次阅读
分布式存储与传统数据存储方式有什么区别

基于区块链平台的一些分布式云存储解决方案和协议介...

Filecoin是一种基于区块链的去中心化存储解决方案,可以激励用户在硬盘上使用未使用的空间来托管数....
发表于 2019-08-10 10:46 660次阅读
基于区块链平台的一些分布式云存储解决方案和协议介...

分布式存储和IPFS系统以及Filecoin的联...

互联网信息的存储之前一直是集中式存储,在HTTP传输协议之下,数据是被集中的储存在服务器上的。这种简....
发表于 2019-08-08 16:51 454次阅读
分布式存储和IPFS系统以及Filecoin的联...

基于内容寻址的分布式存储系统IPFS

在传统的Web中,用户数据存储在自己能够完全控制的集中式存储服务器上。这种控制能力,为他们提供了在用....
发表于 2019-08-01 10:52 337次阅读
基于内容寻址的分布式存储系统IPFS

IPSOU将打造出一个区块链和分布式存储等技术结...

人类进入到数字世界,每一个人的数据都具有极高的经济价值,这些数据将成为个人生存和发展的基石。搜索引擎....
发表于 2019-07-05 10:53 298次阅读
IPSOU将打造出一个区块链和分布式存储等技术结...

什么是分布式存储的区块链系统

通过提供分布式存储的区块链系统,数据制造者可以维护自己生产的数据,这是一个开始,更进一步,数据制造者....
发表于 2019-06-26 11:09 4815次阅读
什么是分布式存储的区块链系统

浅谈分布式存储的六大优点

分布式存储往往采用分布式的系统结构,利用多台存储服务器分担存储负荷,利用位置服务器定位存储信息。
发表于 2019-06-26 11:00 1436次阅读
浅谈分布式存储的六大优点

IPFS加速云服务生机和分布式存储

如果能把一个安卓系统或IOS系统安装到分布式存储里,不管人们在做什么,各项数据都可以通过面部识别就可....
发表于 2019-06-25 10:58 546次阅读
IPFS加速云服务生机和分布式存储

苹果WWDC推出了一个对于开发者非常重要的框架:...

虽然Storyboards和XIB很有用,但并不是所有人都喜欢。比如在使用源码控制时就很麻烦,会导致....
发表于 2019-06-23 10:01 2644次阅读
苹果WWDC推出了一个对于开发者非常重要的框架:...

区块链技术在云存储领域的全新价值体现

比特币的火爆催生了一个热词“区块链”,这个技术的本质是一种去中心化的分布式记账算法。这种很牛的技术最....
发表于 2019-06-19 10:56 393次阅读
区块链技术在云存储领域的全新价值体现