0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

分布式文件系统的设计框架

RG15206629988 来源:行业学习与研究 2023-03-20 11:37 次阅读

一、硬件故障检测

因为HDFS系统(分布式文件系统)可由数百或数千个存储文件数据片段的服务器组成,即HDFS系统包含较多的硬件设备,所以HDFS系统的硬件故障是常态,而非异常态。因此,HDFS系统的设计框架需包含故障检测和数据自动快速恢复。

HDFS系统故障检测和数据自动快速恢复功能具体过程如下:HDFS系统将数据分块,即数据块的形式存储于不同硬件设备中。通常,每个数据块在HDFS系统被存放于三个硬件设备中,即每个数据块的份数是三份。当某一硬件设备出现故障时,HDFS系统在检测到该设备故障后,可根据其他硬件设备的备份,将该硬件设备的数据再复制一遍,使HDFS系统中每个数据块的份数保持在三份。

二、数据访问

HDFS系统被设计为适合批量处理数据,具有较大的数据吞吐量。HDFS系统不适合交互式访问。交互式访问是指用户在客户端输入命令,系统可立即对用户命令做出反应。交互式访问需要系统具有较快速的反应时间,而HDFS系统处理数据的速度可能是几个小时或几天,因此,HDFS系统的速度不足以支持交互式访问。

d3fea094-c372-11ed-bfe3-dac502259ad0.png

图片来源:学堂在线《大数据导论》

三、大数据集

HDFS系统(分布式文件系统)的数据集群被设计为可包含数百个节点(个人理解:计算机或服务器均可作为HDFS系统的节点),百度最大的HDFS系统数据集群可能包含4000个节点。

HDFS系统的数据存储量可达至100TB的数量级,一些HDFS系统的数据存储量可超过该数量级。

HDFS系统被设计为可支持大文件存储。数据量越大,HDFS系统的支持量越好。相对于大文件存储,HDFS系统比较不适合存储零散的小文件,这是因为所存储的文件越小,主节点记录文件存储节点的日志文件(个人理解:存储节点的日志文件包含数据的存储位置等信息)越大,主节点的压力越大。

四、简单一致性模型

HDFS系统被设计为简单一致性模型。简单一致性模型是指多数HDFS系统的文件操作模式是一次写入多次读取,即文件一旦被创建、写入、关闭后,就不再需要修改。HDFS系统不适合对文件进行频繁的修改和删除。

五、将计算移动至数据

数据计算的最理想状态是在靠近数据的存储位置计算,如果不能实现数据计算的最理想状态,则需要通过将数据移动至计算或将计算移动至数据后再进行数据计算。

HDFS系统的数据计算方式是通过将计算移动至数据后再进行数据计算。将HDFS系统的数据存储于多个数据节点,在计算过程中,可根据数据节点所存储的数据进行相应计算,各数据节点计算结束后,再将各数据节点计算结果汇总。

HDFS系统的数据计算方式适合大数据的计算,并且可以消除网络拥堵,提高系统整体的吞吐量,数据计算的成本更低。如果将超过100TB的数据移动至计算中心,数据计算的速度将低于HDFS系统的数据计算方式,而且由于数据量大,网络需要承受较大的压力,容易造成拥堵,数据计算的成本更高。

六、异构软硬件平台间的可移植性

HDFS系统被设计为可简便地实现平台间的迁移,即不同的操作系统均可使用HDFS系统。该特点可推动大数据集应用更多采用HDFS系统。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 服务器
    +关注

    关注

    12

    文章

    8125

    浏览量

    82539
  • 存储数据
    +关注

    关注

    0

    文章

    73

    浏览量

    14031
  • HDFS
    +关注

    关注

    1

    文章

    29

    浏览量

    9493

原文标题:大数据相关介绍(20)——分布式文件系统的设计框架

文章出处:【微信号:行业学习与研究,微信公众号:行业学习与研究】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    分布式软件系统

    分布式程序设计语言及其编译(解释)系统分布式文件系统分布式数据库系统等。 分布式操作
    发表于 07-22 14:53

    分布式文件系统和fastDFS

    项目(1)(分布式文件系统、fastDFS,代码实现fastDFS 文件上传和下载)
    发表于 05-10 08:51

    HarmonyOS分布式应用框架深入解读

    KB级到GB级设备)。针对上述挑战,HarmonyOS作为一款面向万物互联时代的、全新的分布式操作系统,将迎刃而解,这得益于HarmonyOS的分布式应用框架,这些多设备组成一个超级
    发表于 11-22 15:15

    一文解读在RTThread平台上使用DFS分布式文件系统

    1、RTThread平台使用DFS文件系统  简单介绍了一下DFS代码框架和如何在RTThread平台上使用DFS分布式文件系统。工作比较忙先把目前整理的发出来,希望对小伙伴们有帮助,
    发表于 09-15 16:57

    HarmonyOS分布式文件系统开发指导

    分布式文件系统概述 分布式文件系统(hmdfs,HarmonyOS Distributed File System)提供跨设备的文件访问能力
    发表于 11-14 17:14

    采用信任管理的分布式文件系统TrustFs

    在传统的分布式文件系统中用户无法判断文件的可信任性,针对此问题提出采用信任管理的分布式文件系统TrustFs,使用数字签名对
    发表于 04-02 08:57 19次下载

    海量邮件分布式文件系统的设计与实现

    本文通过归纳分析已有的分布式系统体系结构,研究并设计了一个针对于海量邮件存储的分布式文件系统。受Google File System 架构的启发,针对单个元数据服务器带来的瓶颈问
    发表于 01-09 13:56 12次下载

    基于分布式文件系统元数据操作优化

    随着网络应用的迅速发展,网络时代数据规模越来越大,海量数据存储和大规模并发的I/O成为了分布式系统中的瓶颈。单机环境下的文件系统已经不能满足当前网络时代的大容量、高可靠性、高性能、高扩展性等需求
    发表于 02-24 13:46 0次下载
    基于<b class='flag-5'>分布式</b><b class='flag-5'>文件系统</b>元数据操作优化

    盘点一下这些常见的分布式文件系统

    Alluxio是第一个基于内存的分布式文件系统,因此其相应速度也会超出普通的分布式文件系统很多,例如HDFS就比它慢数百倍。并且Alluxio和Spark也有良好的交互。最重要的是Al
    的头像 发表于 08-15 16:25 1.1w次阅读
    盘点一下这些常见的<b class='flag-5'>分布式</b><b class='flag-5'>文件系统</b>

    这三种分布式存储文件系统你都了解吗

    Lustre文件系统针对大文件读写进行了优化,能够提高性能的IO能力;在源数据独立存储、服务和网络失效的快速恢复、基于意图的分布式锁管理和系统可快速配置方面优异。
    发表于 04-01 16:26 3305次阅读

    AFS,GFS ,QKFile主流分布式存储文件系统

    主流的3种分布式存储文件系统 存储架构分两种,一种是传统存储阵列架构,另一种就是本文将要重点介绍的分布式存储架构
    发表于 08-02 11:04 3122次阅读

    分布式文件系统主从式的伸缩性架构设计

    Hadoop当中负责分布式存储的HDFS,被定义为分布式文件系统,对于进入到平台当中的数据,提供高效的、可容错、可扩展的数据存储,这得益于分布式文件
    发表于 01-05 10:42 1122次阅读
    <b class='flag-5'>分布式</b><b class='flag-5'>文件系统</b>主从式的伸缩性架构设计

    什么是分布式文件系统

    我们无时无刻不在使用文件系统,进行开发时在使用文件系统,浏览网页时在使用文件系统,玩手机时也在使用文件系统
    的头像 发表于 03-10 16:21 3667次阅读

    基于RTThread的DFS文件系统组件使用笔记

    简单介绍了一下DFS代码框架和如何在RTThread平台上使用DFS分布式文件系统。工作比较忙先把目前整理的发出来,希望对小伙伴们有帮助,也希望玩过的朋友一起讨论指正。等空闲下来再继续细化深入分析
    的头像 发表于 11-28 20:50 3203次阅读

    分布式文件系统的设计原理是什么?

    什么是分布式文件系统分布式文件系统(DFS)是一种计算机文件系统,使用户能够从多个分布式位置存
    的头像 发表于 10-17 17:35 419次阅读