0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一文解析HDFS架构及读取写入数据流程

姚小熊27 来源:51cto 作者:51cto 2021-01-28 14:04 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Hadoop到目前为止发展已经有10余年,版本经过无数次的更新迭代,目前业内大家把Hadoop大的版本分为Hadoop1.0、Hadoop2.0、Hadoop3.0 三个版本。

一、Hadoop 简介

Hadoop版本刚出来的时候是为了解决两个问题:一是海量数据如何存储的问题,一个是海量数据如何计算的问题。Hadoop的核心设计就是HDFS和 Mapreduce.HDFS解决了海量数据如何存储的问题, Mapreduce解决了海量数据如何计算的问题。HDFS的全称:Hadoop Distributed File System。

二、分布式文件系统

图片 HDFS其实就可以理解为一个分布式文件系统,可以看如图1所示有4个服务器是不是都有他自己的文件系统都可以进行存储数据,假设每个服务器的存储空间存储10G的数据。假设数据量很小的时候存储10G的数据还是ok的当数据量大于服务器的存储空间时是不是单个服务器就没法存储了。 我们是不是可以在服务器中部署一个Hadoop这样就能构建出一个集群(超级大电脑)。这样就存储 4*10=40G的数据量,这样我们面向用户时是不是只有一台超级大的电脑相当于一个分布式文件系统。

HDFS是一个主从的架构、主节点只有一个NemeNode。从节点有多个DataNode。

三、HDFS 架构

图片 假设我们这里有5台服务器每台服务器都部署上Hadoop,我们随便选择一台服务器部署上NameNode剩下服务器部署上DataNode。

客户端上传文件时假设文件大小为129MHDFS默认切分的大小为128M这时就会产生出2个blkNameNode去通知DataNode上传文件(这里有一定的策略),我们就假设就将这几个文件分别存储在4个服务器上。为什们要进行分别存储在,假设DataNode服务器有一天突然挂掉了我们是不是还可通过DataNode4或2和3进行读取数据,这样是不是就防止数据丢失。

NameNode

管理元数据信息(文件目录树):文件与Block块,Block块与DataNode主机关系 NameNode为快速响应用户操作,所以把元数据信息加载到内存里

DataNode

存储数据,把上传的数据划分固定大小文件块(Block)在Hadoop2.73之前是64M之后改为了128M 为了保证数据安全,每个文件默认都是三个副本

SecondaryNamenode

周期性的到NameNode节点拉取Edtis和fsimage文件,将这两个文件加入到内存进行 然后将这两个文件加入到内存中进行合并产生新的fsimage发送给NameNode。

四、HDFS写入数据流程

客户端会带着文件路径向NameNode发送写入请求通过 RPC 与 NameNode 建立通讯, NameNode 检查目标文件,返回是否可以上传; Client 请求第一个 block 该传输到哪些 DataNode 服务器上; NameNode 根据副本数量和副本放置策略进行节点分配,返回DataNode节点,如:A,B,C Client 请求A节点建立pipeline管道,A收到请求会继续调用B,然后B调用C,将整个pipeline管道建立完成后,逐级返回消息到Client; Client收到A返回的消息之后开始往A上传第一个block块,block块被切分成64K的packet包不断的在pepiline管道里传递,从A到B,B到C进行复制存储 当一个 block块 传输完成之后,Client 再次请求 NameNode 上传第二个block块的存储节点,不断往复存储 当所有block块传输完成之后,Client调用FSDataOutputSteam的close方法关闭输出流,最后调用FileSystem的complete方法告知NameNode数据写入成功

五、HDFS读取数据流程

客户端会先带着读取路径向NameNode发送读取请求,通过 RPC 与 NameNode 建立通讯,NameNode检查目标文件,来确定请求文件 block块的位置信息 NameNode会视情况返回文件的部分或者全部block块列表,对于每个block块,NameNode 都会返回含有该 block副本的 DataNode 地址 这些返回的 DataNode 地址,会按照集群拓扑结构得出 DataNode 与客户端的距离,然后进行排序,排序两个规则:网络拓扑结构中距离 Client 近的排靠前;心跳机制中超时汇报的 DN 状态为 STALE,这样的排靠后; Client 选取排序靠前的 DataNode 调用FSDataInputSteam的read方法来读取 block块数据,如果客户端本身就是DataNode,那么将从本地直接获取block块数据 当读完一批的 block块后,若文件读取还没有结束,客户端会继续向NameNode 获取下一批的 block 列表,继续读取 所有block块读取完成后,Client调用FSDataInputStream.close()方法,关闭输入流,并将读取来所有的 block块合并成一个完整的最终文件

六、HDFS缺陷

注意:早期版本

单点问题 内存受限

总结

上述给大家讲解了简单的HDFS架构,我在最后面留了一个小问题,我会在下期通过画图的方式给大家讲解,我在这里为大家提供大数据的资料需要的朋友可以去下面GitHub去下载,信自己,努力和汗水总会能得到回报的。
责任编辑:YYX

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7314

    浏览量

    93978
  • 存储
    +关注

    关注

    13

    文章

    4693

    浏览量

    89569
  • HDFS
    +关注

    关注

    1

    文章

    32

    浏览量

    10074
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    modbus消息帧的模块化架构介绍

    01/02/03/04 读取线圈/输入/保持寄存器 数据写入 05/06/15/16 写入单个/多个寄存器 诊断类 08/0B/0E 设备诊断/异常报告 3.
    发表于 11-17 08:15

    视频数据流传输的框架搭建思路

    采集模块是在 DDR3 和传感器都初始化完成之后才开始输出数据的,避免了在 DDR3 初始化过程中向里面写入数据。 为了避免当前读取的图像与上
    发表于 10-24 06:53

    企业级HDFS高可用与YARN资源调度方案

    作为名在大数据运维领域摸爬滚打8年的老兵,我见过太多因为基础架构不够健壮而导致的生产事故。今天,我想和大家分享套经过实战检验的 HDFS
    的头像 发表于 09-08 17:15 547次阅读

    如何从CYUSB3014-BZXCT读取/写入EEPROM固件?

    个芯片读取数据,然后通过 USB 将相同的数据写入第二个芯片。 我是这个领域的新手。 你能告诉我怎样做吗? 据我所知,我需要CYPRES
    发表于 05-07 06:46

    如何用c#使用ST25R3911DISCOComm.dll来读取写入NDEF区的数据

    如何用c#使用ST25R3911DISCOComm.dll来读取写入NDEF区的数据,需要相关例程,感谢各位大佬拯救下我啊!????
    发表于 04-23 06:58

    请问如何使S32K312 FLEXCAN的以下区域在写入读取写入不同?

    ?如何翻转读取数据以验证客户的功能“写入 FLEXCAN 的以下区域并将其读取出来,使其与写入的内容不
    发表于 04-10 06:20

    nt3h211通过I2C向EEPROM写入数据,但NFC工具无法读取写入数据,为什么?

    我通过 I2C 为 NT3H211 芯片编写了个 Linux 驱动程序。我使用 I2C 写入作将数据写入块地址 01h,并通过 I2C 读取
    发表于 03-26 06:50

    CAN报文流程解析

    CAN报文流程解析,直流充电桩上的CAN通讯解析过程
    发表于 03-24 14:03 10次下载

    NVIDIA Blackwell数据手册与NVIDIA Blackwell架构技术解析

    NVIDIA Blackwell数据手册与NVIDIA Blackwell 架构技术解析
    的头像 发表于 03-20 17:19 1696次阅读

    如何用c#使用ST25R3911DISCOComm.dll来读取写入NDEF区的数据

    如何用c#使用ST25R3911DISCOComm.dll来读取写入NDEF区的数据,需要相关例程,感谢各位大佬拯救下我啊!????
    发表于 03-13 06:51

    解析工业互联网

    电子发烧友网站提供《解析工业互联网.pptx》资料免费下载
    发表于 02-20 16:42 1次下载

    影响25Q20D闪存芯片写入速度和使用寿命的因素有哪些?

    影响25Q20D闪存芯片写入速度和使用寿命的因素有哪些?首先我们来谈谈影响写入速度九个方面:存储容量和架构:存储容量的增加会导致芯片内部的数据管理和寻址更为复杂,从而影响
    的头像 发表于 01-22 16:48 999次阅读
    影响25Q20D闪存芯片<b class='flag-5'>写入</b>速度和使用寿命的因素有哪些?

    适用于Oracle的SSIS数据流组件:提供快速导入及导出功能

    使用SSIS 数据流组件,通过与关键数据库和云服务的 Oracle 数据集成来改进您的 ETL 流程,这些组件提供快捷和可靠的数据导入和导出
    的头像 发表于 01-15 10:51 1444次阅读
    适用于Oracle的SSIS<b class='flag-5'>数据流</b>组件:提供快速导入及导出功能

    使用STM32的spi与AFE4400通信,每写入读取数据都需要等待几百微秒后才能继续操作否则读取数据都是0,为什么?

    使用STM32的spi与AFE4400通信,每写入读取数据都需要等待几百微秒后才能继续操作,否则读取
    发表于 12-13 06:13

    使用ads1219这款模数转换器,读写流程和使用single-shot模式和continuous的区别是什么?

    ,如果我是使用continuous模式,是不是我开始只要把配置好的数据和START/SYNC写进去,就可以开始continuous转换了? 针对我这个读取单端两路模拟信号,我设计的I2C写读的
    发表于 12-10 06:12