电子发烧友网>存储技术> > 正文

分布式存储的特性/类型/需要解决的问题

2021年01月14日 10:09 次阅读

互联网的发展催生了云计算和大数据的发展,云计算和大数据的本质都是构建低成本,高性能高可用的分布式存储系统,本文简单介绍分布式存储的一些基础知识。

分布式存储通过网络连接的大量的普通服务器,将数据分片分散在集群中的不同节点(服务器或进程)中,对外提供统一的服务。

分布式存储一般需要具有几个特性

可扩展:分布式存储一般可扩展几百甚至几千台服务器,并可容易的增加或减少节点,在节点调整过程中,分布式存储服务可自动实现数据的迁移及负载均衡等操作。

低成本:组成分布式存储服务的服务器可为普通服务器,由于普通服务器故障率通常较高,因此要求存储服务具有较好的容错性。

高性能:分布式存储理论上随着节点数量的增加,对外提供的服务的性能应该成线性增长的趋势。这是分布式存储同非分布式存储的一大区别之一,一般非分布式存储在数据量达到一定规模之后,都会存在单点的读写问题,分布式存储一般通过数据分片解决单点问题。

易用:分布式是存储对外提供统一的接口,用户不需要关心数据的分片查找,副本维护等工作。

分布式存储根据存储类型可分为

分布式文件系统:一般存储非结构的blob对象(文件,图像等),比如淘宝的TFS,AWS的EBS,google的GFS等

分布式键值系统:存储关系简单的半结构数据,只提供基于键值的CRUD操作,不能做关联查询,比如Redis,Tair,MongoDB等

分布式表格系统:用于存储半结构化数据,与键值系统相比,除了提供CRUD操作外,还支持基于某个主键的范围扫描,比如Google的BigTable,AWS的DynamoDB等

分布式关系数据库:存储关系数据,比如Taobao的OceanDB。

存储系统的性能瓶颈在于随机的读写操作。下表列出了各种硬件的存储性能比:

类别消耗时间访问L1Cache0.5ns访问L2Cache7nsMutex加锁/解锁100ns内存访问100ns千兆网络发送1MB数据10ms内存顺序读取1MB数据0.25ms机房内网络来回0.5ms异地机房间网络来回30~100ms

SATA磁盘寻道10ms

从SATA磁盘顺序读取1MB数据20ms

固态SSD盘访问延迟0.1~0.2ms

SATA的顺序读取带宽可以达到100MB以上,由于磁盘的寻道时间大约为10ms,顺序读取1MB数据的时间为:磁盘寻道时间+数据读取时间,即10ms+1MB/100MB/s*1000=20ms。

分布式存储系统一般需要解决几个问题

数据分布

在分布式存储系统中,如何将数据分片到不同的节点是首先要考虑的问题,一般分布式系统常使用的方法是Hash分布。

hash分布

哈希分布就是根据数据的某一个特征计算hash值,并将hash值和集群中的节点做映射。从而将不同hash值的数据分布到不同的节点上。

hash分布的一个问题是一旦数据已经分布到不同的节点中,做扩容比较困难,比如现在数据通过hash值分布到三台机器上,如果要将机器扩展到五台,需要重新将所有的数据重新算一下hash值,然后重新分布。因此一般扩展节点的数量是原数量的一倍,这样只需要移动一半数据。

一致性hash

一致性hash算法从某种程度上解决了扩展过程中移动数据太多的问题,一致行hash算法给每个节点赋予一个hash值,这些节点按顺序构成一个环,数据根据hash值落在环中的某个节点上。当需要扩容时,将新加入节点放入环中,数据迁移只需要迁移新节点相邻的节点上的数据即可。一致性hash容易造成数据偏斜,而且在数据复制过程中,对相邻节点的压力比较大。

一般系统会引入虚拟节点或虚拟槽的解决方式:即解耦数据与节点间的关系,引入虚拟节点,将数据映射到大量的虚拟节点上,然后虚拟节点在在映射到实体节点上,这样在扩容过程中,可以以虚拟节点为单位移动数据,可从不同的实体节点上移动虚拟节点到新节点。很多存系统都采用了这种方案,如redis,Cassandra。

异常

分布式系统中,一台服务器或者一个服务器上的不同进程被成为一个节点,节点间通过网络互联,不论是节点还是网络都是不可靠的。分布式系统需要处理由于节点或网络引起的各种异常。

节点异常包括节点宕机或磁盘不可用(可恢复和不可恢复),分布式系统需要可以自动监控的节点的异常,并做相应处理:对不可恢复异常,如果该节点值主副本节点,则需要重新进行选主,如果该节点是从副本节点,则需要其他节点从主副本(或其他从副本)复制一份分片数据,保证副本数量不变。对可恢复异常,需要恢复节点并重构内存。

网络异常:通过网络进行交互,结果可分为成功,失败,和未知。未知的情况可能有成功也可能是失败,因此需要有重试机制,而且多次调用的结果应该幂等。

复制

由于异常的存在,为了达到高可用的目的,一般数据会有多个副本,多个副本键间的关系有:

主从副本:主从副本只有主提供写,从可以提供读服务(或仅是备份的作用),主从的缺点主的单点写瓶颈,但是由于数据被分片了,如果数据的摸一个分片遇到写瓶颈,可以通过增加集群节点的方式解决,这要求分布式存储的扩容比较容易,一般像redis,mongodb这种系统扩容都不会成为问题,但是像ES,分片数量不能修改,扩容就需要重新倒入数据。

主主副本:同一个副本的不同节点都可以是进行写操作,Cassandara即是用这种方式实现

一致性

因为同一份数据包含多个副本,副本间的一致性是分布性存储系统需要考虑的问题。

一致性分为强一致性,弱一致性和最终一致性。最终一致又可分为:

读写一致性:A写后,A后的读都可获得最新结果。

会话一致性:同一个会话内写后读都可获得最新结果。

单调读:A读取一次结果后,后续读取不会获得之前版本的值。

单调写:A的多次写在多个副本间按照顺序执行。

一般分布式存储系统都既可以支持强一致性又可支持最总一致性。

分布式存储系统大体遵循相同的功能模式,但具体实现又根据自身特点各有不同。在日常系统维护过程中,了解相应的分布式系统存储的实现机制可以快速帮助定位问题并找到正确的解决方案。
责任编辑人:CC

下载发烧友APP

打造属于您的人脉电子圈

关注电子发烧友微信

有趣有料的资讯及技术干货

关注发烧友课堂

锁定最新课程活动及技术直播

电子发烧友观察

一线报道 · 深度观察 · 最新资讯
收藏 人收藏
分享:

评论

相关推荐

以对象存储为底座,双中心读写加速业务提效

基于NAS的双中心架构掣肘业务发展 随着监管日趋严格,为了满足数据集中治理和灵活灾备的要求,多数金融....
发表于 2020-12-14 11:44 192次阅读
以对象存储为底座,双中心读写加速业务提效

分布式存储的重要性和种类

分布式存储最早是由谷歌提出的,其目的是通过廉价的服务器来提供使用与大规模,高并发场景下的Web访问问....
发表于 2020-12-14 10:50 235次阅读
分布式存储的重要性和种类

分布式存储常见的架构有哪些

分布式存储系统,是将数据分散存储在多台独立的设备上。传统的网络存储系统采用集中的存储服务器存放所有数....
发表于 2020-11-16 14:55 311次阅读
分布式存储常见的架构有哪些

常见的分布式存储系统有哪些类型

分布式存储系统是大数据技术学习过程中会经常接触到的一个工具,而今天我们就一起来了解一下,常见的一些分....
发表于 2020-11-09 10:41 1103次阅读
常见的分布式存储系统有哪些类型

主流的分布式存储框架有哪些

随着现代社会信息技术的发展以及人类生活的智能化,全球数据量正在无限制地扩展和增加。传统存储虽然有技术....
发表于 2020-10-27 11:44 473次阅读
主流的分布式存储框架有哪些

关于分布式存储的解决方案,它的应用优势是什么

作为明星产品,杉岩海量对象存储(SandStone MOS)在企业级市场顺势推出后,即受到了广泛的认....
发表于 2020-10-21 16:08 338次阅读
关于分布式存储的解决方案,它的应用优势是什么

常见的分布式文件存储系统解析

一般普通存储方案有:Rsync、DAS(IDE/SATA/SAS/SCSI等块)、NAS(NFS、C....
发表于 2020-09-29 15:31 522次阅读
常见的分布式文件存储系统解析

分布式存储的市场前景广阔,未来将得到无限发展

中链云研发的分布式存储技术在新技术、新模式、新基建、新生态、新产业等方面有着人工智能、大数据、云计算....
发表于 2020-09-17 16:15 907次阅读
分布式存储的市场前景广阔,未来将得到无限发展

一文知道什么是分布式存储

分布式存储简单的来说,就是将数据分散存储到多个存储服务器上,并将这些分散的存储资源构成一个虚拟的存储....
发表于 2020-08-27 17:12 342次阅读
一文知道什么是分布式存储

GFS、AFS分布式文件系统

传统SAN以高度的可靠性、稳定性和功能丰富性,在应用实践中获得了广泛认可。随着数据量不断增加,企业对....
发表于 2020-08-21 16:16 859次阅读
GFS、AFS分布式文件系统

盘点分布式存储系统的主流框架

整个大数据处理的体系,按我的理解可以分为两个部分,一个是分布式存储系统、另一个是分布式计算框架。分布....
发表于 2020-08-06 09:07 282次阅读
盘点分布式存储系统的主流框架

如何看待IFTI对于分布式存储的全球布局

众所周知,信息存储是刚需,随着时代的发展,各行各业的数据存储量也越来越多,而信息之间却彼此独立,某些....
发表于 2020-08-06 09:01 292次阅读
如何看待IFTI对于分布式存储的全球布局

云计算会给分布式存储带来什么新的的影响

分布式存储服务器可以更有效地利用冗余计算能力,保证敏感数据的安全。通过“自我管理”实现计算能力的非中....
发表于 2020-08-06 08:53 337次阅读
云计算会给分布式存储带来什么新的的影响

解析夸克分布式文件系统如何实现资源共享

QKFILE—“夸克分布式文件系统”。简单点说,它是一个点对点的分布式文件系统(和比特币技术一样),....
发表于 2020-08-06 08:45 653次阅读
解析夸克分布式文件系统如何实现资源共享

如何看待分布式存储的优势

随着科技的发展,现在很多企业对于服务器的要求也是越来越高。很多企业不满足存储服务器的性能,都是要求做....
发表于 2020-08-06 08:37 268次阅读
如何看待分布式存储的优势

分布式存储加持区块链 数据将追溯、监控、存储、共...

把区块链作为底层技术,搭建此类平台,专门存储生态大数据,可以设置节点管理、存储管理、用户管理、许可管....
发表于 2020-08-02 11:09 620次阅读
分布式存储加持区块链 数据将追溯、监控、存储、共...

AFS,GFS ,QKFile主流分布式存储文件...

主流的3种分布式存储文件系统 存储架构分两种,一种是传统存储阵列架构,另一种就是本文将要重点介绍的分....
发表于 2020-08-02 11:04 480次阅读
AFS,GFS ,QKFile主流分布式存储文件...

中心化系统 分布式存储解决数据泄露隐患

在1990年,Tim Berners-Lee,创建了Web,Web是互联网上最早的应用程序之一,它使....
发表于 2020-08-02 11:00 1210次阅读
中心化系统 分布式存储解决数据泄露隐患

IPFS&Filecoin区块链分布式存...

Filecoin是旨在存储人类社会最重要信息的分布式网络,在本文中,我们介绍了现在Filecoin未....
发表于 2020-07-31 14:38 316次阅读
IPFS&Filecoin区块链分布式存...

简述分布式存储中本地存储引擎

最近几年存储介质得到了高速发展,单位存储介质的性能越来越高,从原来的机械硬盘不足 100 IOPS ....
发表于 2020-07-27 15:00 268次阅读
简述分布式存储中本地存储引擎

分布式存储如何向“云”而生?

新数据时代下,新存储平台在智算中心里肩负着数据存、管、用的重任,堪称数据生产要素的保险库。
发表于 2020-07-27 14:20 253次阅读
分布式存储如何向“云”而生?

工业4.0下的大数据:5G和分布式存储

2013年汉诺威工业博览会上德国正式推出“工业4.0的概念,其核心目的是为了提高德国工业的竞争力,在....
发表于 2020-07-27 14:11 488次阅读
工业4.0下的大数据:5G和分布式存储

现今数据爆炸式增长给Server SAN 带来了...

对于Server SAN,国外著名的分析师社区Wikibon有一个定义:简单地说,Server SA....
发表于 2020-07-24 15:26 206次阅读
现今数据爆炸式增长给Server SAN 带来了...

深信服EDS中控信息达成合作,助力城市智能交通建...

作为中国智慧城市建设先驱,中控信息长久以来为城市智能交通提供规划、实施、运营服务一体化的整体解决方案....
发表于 2020-07-23 11:10 321次阅读
深信服EDS中控信息达成合作,助力城市智能交通建...

什么叫超融合基础架构,它的作用是什么

什么是超融合? 超融合这个概念,可以简单理解为:将虚拟计算平台和存储融合到一起,将每台服务器里面自带....
发表于 2020-07-20 17:06 301次阅读
什么叫超融合基础架构,它的作用是什么

高速分布式存储引擎,可有效解决性能的瓶颈

虽然不敢说我们杉岩超融合是全球做的最好的厂家,但是在国内超融合市场,我们也算是独树一帜。 杉岩超融合....
发表于 2020-07-20 17:02 821次阅读
高速分布式存储引擎,可有效解决性能的瓶颈

存储性能差怎么办,分布式存储性能优化方案

作为明星产品,杉岩海量对象存储(SandStone MOS)在企业级市场顺势推出后,即受到了广泛的认....
发表于 2020-07-20 16:41 204次阅读
存储性能差怎么办,分布式存储性能优化方案

5G时代底层存储技术将变革

5G实现的超大带宽,与4G的移动网络提速不同。以前各代的移动通信速率都比当时已经成熟 的固定网的接入....
发表于 2020-07-13 16:04 248次阅读
5G时代底层存储技术将变革

关于分布式存储系统纠删码技术的分享

随着计算机技术和存储技术的发展,数据正以爆炸式的速度增长,海量数据对存储系统提出了巨大的挑战。为了保....
发表于 2020-07-11 11:29 312次阅读
关于分布式存储系统纠删码技术的分享

中国移动集采2200套分布式块存储产品:华为、烽...

中国移动公示2020-2021年分布式块存储产品集中采购中标候选人名单,华为、烽火等四厂商中标。 根....
发表于 2020-06-19 10:27 2496次阅读
中国移动集采2200套分布式块存储产品:华为、烽...

浅谈分布式存储和FC-SAN混合应用的场景

智汇华云:分布式存储和FC-SAN混合应用的场景 2020-03-25 分类:技术 随着技术的快速发....
发表于 2020-06-11 09:43 1121次阅读
浅谈分布式存储和FC-SAN混合应用的场景

MegaBric获得了华为TaiShan 100...

作为华为云生态合作伙伴和鲲鹏计算生态产业成员,凯翔科技KXTECH聚焦于发展分布式存储的核心能力,通....
发表于 2020-05-13 11:42 1468次阅读
MegaBric获得了华为TaiShan 100...

华为全新专用硬件系列宣告分布式存储迎来复兴

数字技术正在重塑世界,数字洪流的席卷而来以及从数据中“掘金”的迫切需求,令存储设备变得前所未有地重要....
发表于 2020-04-21 10:17 529次阅读
华为全新专用硬件系列宣告分布式存储迎来复兴

杉岩PACS影像系统分布式存储架构

该医院创建于1999年,是深圳市政府投资建成的集医疗、教学、科研和预防为一体的现代化三级综合性医院。....
发表于 2020-03-17 14:13 329次阅读
杉岩PACS影像系统分布式存储架构

分布式存储为云化核心网保驾护航

块存储(Block Storage)作为企业存储市场的“主战场”,大量用户的虚拟化云平台、数据库应用....
发表于 2020-03-12 10:41 184次阅读
分布式存储为云化核心网保驾护航

如何基于分布式存储来构建大数据时代的云服务

云+AI的智能时代,传统的大数据架构已经很难满足数据分析的需求,存储逐步从计算中分离出来,以统一的云....
发表于 2020-03-05 10:26 643次阅读
如何基于分布式存储来构建大数据时代的云服务

总预算5.5亿!中国移动采购2200套分布式块存...

近日,中国移动发布2020年至2021年分布式块存储产品集采招标公告。本次项目需求满足期为1年,采购....
发表于 2020-03-05 08:30 2642次阅读
总预算5.5亿!中国移动采购2200套分布式块存...

数据中心和边缘分布式计算的存储分析

数据中心状态的最新报告探讨了与数据中心的使用和增长.根据该报告,数据中心基础架构管理(DCIM)不再....
发表于 2020-03-04 10:42 717次阅读
数据中心和边缘分布式计算的存储分析

区块链分布式存储,一种生态大数据存储的新模式

区块链的本质就是一个数据库,而且是采用的分布式存储的方式。作为一名区块链从业者,今天就来讲讲区块链的....
发表于 2020-02-27 10:58 341次阅读
区块链分布式存储,一种生态大数据存储的新模式

传染病预警系统上如何利用区块链技术

,出于病人隐私和病例数据保护的考虑,同时受到信息采集成本高昂的影响,现在大多数医院并没有及时同步共享....
发表于 2020-02-23 20:58 449次阅读
传染病预警系统上如何利用区块链技术

应对海量图片存储的分布式存储解决方案

随着互联网、云计算及大数据等信息技术的发展,越来越多的应用依赖于对海量数据的存储和处理,如智能监控、....
发表于 2020-01-09 15:41 1186次阅读
应对海量图片存储的分布式存储解决方案

IPFS将是物联网未来的发展方向

随着信息技术发展的日益深入,数据的爆炸性增长将造就“数据黑洞”,无边无际,同时蕴含的价值难以估量。
发表于 2019-12-30 17:27 3041次阅读
IPFS将是物联网未来的发展方向

关于区块链中分布式存储的浅析

区块链本质就是去中心化、分布式存储的数据库;而加密技术、Hash链表结构等,都是为了保障数据的安全性....
发表于 2019-12-13 17:35 2469次阅读
关于区块链中分布式存储的浅析

未来的区块链技术将为食品行业带来巨大的利润

Juniper Research的最新数据显示,到2024年,区块链将的防欺诈及溯源特性将为食品业带....
发表于 2019-11-29 17:17 2582次阅读
未来的区块链技术将为食品行业带来巨大的利润

分布式存储IPFS和Filecoin的基本逻辑分...

笔者无意去抨击这个项目的好坏,理论上来说,我个人情感上很倾向于这个项目,因为有我自己的同学非常专注于....
发表于 2019-11-25 11:36 423次阅读
分布式存储IPFS和Filecoin的基本逻辑分...

中国移动发布了2019年第二期分布式块存储集采公...

公告显示,本次采购分布式块存储共计85236TB(有效容量),其中典配1为63476TB(有效容量)....
发表于 2019-11-13 09:40 450次阅读
中国移动发布了2019年第二期分布式块存储集采公...

集中式存储和分布式存储的区别以及优缺点分析

前段时间在社区里有一些关于超融合的弊端、超融合可靠性问题以及超融合场景局限性,以及分布式存储与传统集....
发表于 2019-11-08 17:20 23561次阅读
集中式存储和分布式存储的区别以及优缺点分析

分布式存储技术将引领着产业区块链的发展

为了应对海量数据传输、存储以及计算带来的挑战,发展分布式网络势在必行。而利用区块链技术的治理机制、安....
发表于 2019-10-30 11:21 623次阅读
分布式存储技术将引领着产业区块链的发展

分布式存储技术之TurboEx超融合邮件系统

近日,国产邮件系统的领先品牌TurboEx正式发布分布式存储技术,通过最新的分布式存储技术,Turb....
发表于 2019-10-29 11:38 513次阅读
分布式存储技术之TurboEx超融合邮件系统

分布式存储的高光时刻即将到来

IDC预测,到2025年,全球数据产量将突破160ZB,它将对IT架构,尤其是存储提出更严峻的挑战。....
发表于 2019-10-23 14:21 205次阅读
分布式存储的高光时刻即将到来

分布式存储是新趋势,闪存阵列是企业存储的首选

新数据时代数据呈现出海量、多元、实时、多云的特征。对于数字化转型中的企业来说,在数据存储的极致容量、....
发表于 2019-10-21 17:20 798次阅读
分布式存储是新趋势,闪存阵列是企业存储的首选

YottaChain将开启数据分布式存储的新时代

目前技术进度层面,YottaChain测试网已经于2019年6月29日上线,主网预计在第四季度上线,....
发表于 2019-10-16 16:34 446次阅读
YottaChain将开启数据分布式存储的新时代

最纯粹的但又最不像分布式存储的XE2000

XE2000系列,继承了最纯粹的分布式存储血统,用户的数据可因此汇聚成湖,渠道商也因此可与用户保持高....
发表于 2019-10-08 11:19 323次阅读
最纯粹的但又最不像分布式存储的XE2000

Lambda的分布式存储之路该怎么走

Lambda主网分三个模块。第一,拥有出块节点的共识网络,该网络采用VRF+BFT共识算法;第二,存....
发表于 2019-09-29 10:34 507次阅读
Lambda的分布式存储之路该怎么走

四块大数据正在积极响应并推动分布式存储和大数据的...

意见稿中提出为激发工业大数据市场活力,建设国家工业互联网大数据中心。推动5G、NB-IoT等技术在工....
发表于 2019-09-06 10:36 364次阅读
四块大数据正在积极响应并推动分布式存储和大数据的...