0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一文解析HDFS架构及读取写入数据流程

姚小熊27 来源:51cto 作者:51cto 2021-01-28 14:04 次阅读

Hadoop到目前为止发展已经有10余年,版本经过无数次的更新迭代,目前业内大家把Hadoop大的版本分为Hadoop1.0、Hadoop2.0、Hadoop3.0 三个版本。

一、Hadoop 简介

Hadoop版本刚出来的时候是为了解决两个问题:一是海量数据如何存储的问题,一个是海量数据如何计算的问题。Hadoop的核心设计就是HDFS和 Mapreduce.HDFS解决了海量数据如何存储的问题, Mapreduce解决了海量数据如何计算的问题。HDFS的全称:Hadoop Distributed File System。

二、分布式文件系统

图片 HDFS其实就可以理解为一个分布式文件系统,可以看如图1所示有4个服务器是不是都有他自己的文件系统都可以进行存储数据,假设每个服务器的存储空间存储10G的数据。假设数据量很小的时候存储10G的数据还是ok的当数据量大于服务器的存储空间时是不是单个服务器就没法存储了。 我们是不是可以在服务器中部署一个Hadoop这样就能构建出一个集群(超级大电脑)。这样就存储 4*10=40G的数据量,这样我们面向用户时是不是只有一台超级大的电脑相当于一个分布式文件系统。

HDFS是一个主从的架构、主节点只有一个NemeNode。从节点有多个DataNode。

三、HDFS 架构

图片 假设我们这里有5台服务器每台服务器都部署上Hadoop,我们随便选择一台服务器部署上NameNode剩下服务器部署上DataNode。

客户端上传文件时假设文件大小为129MHDFS默认切分的大小为128M这时就会产生出2个blkNameNode去通知DataNode上传文件(这里有一定的策略),我们就假设就将这几个文件分别存储在4个服务器上。为什们要进行分别存储在,假设DataNode服务器有一天突然挂掉了我们是不是还可通过DataNode4或2和3进行读取数据,这样是不是就防止数据丢失。

NameNode

管理元数据信息(文件目录树):文件与Block块,Block块与DataNode主机关系 NameNode为快速响应用户操作,所以把元数据信息加载到内存里

DataNode

存储数据,把上传的数据划分固定大小文件块(Block)在Hadoop2.73之前是64M之后改为了128M 为了保证数据安全,每个文件默认都是三个副本

SecondaryNamenode

周期性的到NameNode节点拉取Edtis和fsimage文件,将这两个文件加入到内存进行 然后将这两个文件加入到内存中进行合并产生新的fsimage发送给NameNode。

四、HDFS写入数据流程

客户端会带着文件路径向NameNode发送写入请求通过 RPC 与 NameNode 建立通讯, NameNode 检查目标文件,返回是否可以上传; Client 请求第一个 block 该传输到哪些 DataNode 服务器上; NameNode 根据副本数量和副本放置策略进行节点分配,返回DataNode节点,如:A,B,C Client 请求A节点建立pipeline管道,A收到请求会继续调用B,然后B调用C,将整个pipeline管道建立完成后,逐级返回消息到Client; Client收到A返回的消息之后开始往A上传第一个block块,block块被切分成64K的packet包不断的在pepiline管道里传递,从A到B,B到C进行复制存储 当一个 block块 传输完成之后,Client 再次请求 NameNode 上传第二个block块的存储节点,不断往复存储 当所有block块传输完成之后,Client调用FSDataOutputSteam的close方法关闭输出流,最后调用FileSystem的complete方法告知NameNode数据写入成功

五、HDFS读取数据流程

客户端会先带着读取路径向NameNode发送读取请求,通过 RPC 与 NameNode 建立通讯,NameNode检查目标文件,来确定请求文件 block块的位置信息 NameNode会视情况返回文件的部分或者全部block块列表,对于每个block块,NameNode 都会返回含有该 block副本的 DataNode 地址 这些返回的 DataNode 地址,会按照集群拓扑结构得出 DataNode 与客户端的距离,然后进行排序,排序两个规则:网络拓扑结构中距离 Client 近的排靠前;心跳机制中超时汇报的 DN 状态为 STALE,这样的排靠后; Client 选取排序靠前的 DataNode 调用FSDataInputSteam的read方法来读取 block块数据,如果客户端本身就是DataNode,那么将从本地直接获取block块数据 当读完一批的 block块后,若文件读取还没有结束,客户端会继续向NameNode 获取下一批的 block 列表,继续读取 所有block块读取完成后,Client调用FSDataInputStream.close()方法,关闭输入流,并将读取来所有的 block块合并成一个完整的最终文件

六、HDFS缺陷

注意:早期版本

单点问题 内存受限

总结

上述给大家讲解了简单的HDFS架构,我在最后面留了一个小问题,我会在下期通过画图的方式给大家讲解,我在这里为大家提供大数据的资料需要的朋友可以去下面GitHub去下载,信自己,努力和汗水总会能得到回报的。
责任编辑:YYX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    6508

    浏览量

    87525
  • 存储
    +关注

    关注

    12

    文章

    3843

    浏览量

    84622
  • HDFS
    +关注

    关注

    1

    文章

    29

    浏览量

    9493
收藏 人收藏

    评论

    相关推荐

    空指针区域写入数据会hardfault,为什么测试时读取却不会hardfault?

    空指针区域写入数据会hardfault,这个大家都知道, 但是测试时发现读取时却不会,这是为什么?有人知道吗?
    发表于 03-14 08:20

    PLC从HTTP服务端获取JSON文件,解析数据到寄存器

    文件提交给HTTP的服务端; 服务端有返回的JSON,或者GET命令获取到的JSON,网关进行解析后将数据写入到PLC寄存器。 本文主要描述通过GET命令获取数据
    发表于 01-24 09:47

    MB96F346RSBPMC如何向闪存读取/写入数据

    对于 MB96F346RSBPMC,我不知道如何向闪存读取/写入数据。 有人可以指定用于读/写编程的编程引脚和接口吗?
    发表于 01-19 06:27

    ADXL375为什么无法读取XYZ数据

    通过FPGA实现SPI 4线方式对芯片进行读写,目前可以读取设备ID,将寄存器的配置数据写入后,再次读取出来也是正确的,但是却无法读取XYZ
    发表于 12-28 06:33

    ad7193读取数据感觉被放大了倍是怎么回事?

    读取路电阻值时,偶尔出现阻值被放大倍的情况,其他三路则正常。 程序流程基本是这样的: 1通过SPI发送数据,控制ADG738的第
    发表于 12-14 06:23

    ad9824第读取是对的,第二次写入后再读取数据是错误的原因?

    如下图所示,当我配置第个Operatin_Address的时候,写入的0x0008和读取的是样的,代表写入正常,当我执行第二句话VGA_
    发表于 12-13 07:41

    Lambda数据架构和Kappa数据架构——构建现代数据架构

    。文章速览:什么是数据架构?基于速度的数据架构Lambda数据架构Kappa
    的头像 发表于 11-26 08:04 262次阅读
    Lambda<b class='flag-5'>数据</b><b class='flag-5'>架构</b>和Kappa<b class='flag-5'>数据</b><b class='flag-5'>架构</b>——构建现代<b class='flag-5'>数据</b><b class='flag-5'>架构</b>

    如何使用Python读取写入Word文件

    01 准备 Python 是一种通用编程语言,也可以用于处理 Microsoft Word 文件。在本文中,我将向你介绍如何使用 Python 和 python-docx 库读取写入和操作
    的头像 发表于 09-27 17:03 1424次阅读

    如何使用Python和pandas库读取写入文件

    在本文中,我将介绍如何使用 Python 和 pandas 库读取写入文件。 1、安装 pip install pandas 2、读取 import pandas as pd df
    的头像 发表于 09-11 17:52 764次阅读

    Redis架构演化之路

    这个架构非常简单,你的业务应用可以把 Redis 当做缓存来使用,从 MySQL 中查询数据,然后写入到 Redis 中,之后业务应用再从 Redis 中读取这些
    的头像 发表于 08-03 16:54 297次阅读
    Redis<b class='flag-5'>架构</b>演化之路

    西门子S7-1200PLC移动操作指令:读取域和写入域指令

    在S7-1200PLC中,可以通过该指令对一个数组中的任意元素的值进行读取或是写入操作;该指令位于“移动指令”,“原有”文件夹下面的FieldRead和FieldWriteFieldWrite;
    的头像 发表于 07-12 14:11 1180次阅读
    西门子S7-1200PLC移动操作指令:<b class='flag-5'>读取</b>域和<b class='flag-5'>写入</b>域指令

    labview读取解析CAN DBC文件

    labview读取解析can总线dbc文件
    发表于 07-03 09:18 72次下载

    如何从网络服务器读取连续的JSON数据流

    我有个家庭自动化系统,它在网页上以 JSON 格式为十几个测量参数提供连续的数据流(每秒)。 我需要阅读它们并复制相应的变量。 所以全局三个步骤: 1. 登录到服务器(摘要式身份验证)-我认为已
    发表于 06-05 08:19

    如何在USB中读取写入数据

    我是 NXP 控制器的初学者,我目前正在开发板 OM13098LPCxpresso54628。我正在尝试创建个新的 txt 文件,在 microUSB 端口 J2/J3 中写入数据
    发表于 06-01 08:57

    AT组件怎么解析无前缀关键字的数据

    是这样的,今天我在读取远端发送的数据,需要通过指令主动获取,然后解析出内容放到缓存区中去。 解析的过程出现了个问题,因为模块的返回模式为:
    发表于 05-12 16:44