0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Hadoop大数据存算分离方案:计算层无缝对接存储系统

杉岩老李 来源:杉岩老李 作者:杉岩老李 2022-12-26 14:45 次阅读

Hadoop的诞生改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展。随着大数据系统建设的深入,企业的数据基础设施易出现计算资源浪费、存储性能低、管理成本过高等挑战。相比存算一体架构,存算分离架构具有性能与成本最优、兼具灵活性等特点,因此受到企业IT部门的青睐,并纷纷开始对Hadoop架构进行改造。

为满足大数据不同场景需求,杉岩数据此前研发推出了兼容HDFS接口能力的高性能数据湖文件网关,为使湖仓一体方案更加完善,杉岩数据全新升级了面向AI训练、机器学习、大数据分析等场景的高性能文件存储——杉岩云原生文件存储(以下简称杉岩CNFS),为客户实现All in One的存储能力。

存算分离实现方案:客户端模式

杉岩CNFS支持客户端模式,提供HCFS(Hadoop Compatible File System,Hadoop兼容文件协议)接口实现,对HDFS接口协议完全兼容,可以保证应用层就像使用原生HDFS存储一样使用杉岩CNFS。

实际场景中,通过在计算平台部署安装专用的客户端与简单的配置,即可实现Hadoop平台的组件与分离部署的存储交互。针对业界使用比较广泛的CDH平台(Hadoop商业发行版之一),杉岩CNFS也开发了配套的Parcel资源包,利用CDH自身的管理便捷地配置使用杉岩CNFS提供的存储空间。

poYBAGOpQvyAFw8dAADHIWN3r4A300.png

图1 杉岩湖仓一体方案存算分离实现(客户端模式)

但是像所有HCFS接口实现一样,侵入式的部署方式使计算组件有了额外的依赖需要管理,当涉及计算组件自身的升级、替换等场景时,就要考虑杉岩CNFS客户端软件包和配置的同步,增加了运维工作。因此这种对接方式一定程度限制了计算组件自身的灵活性。

在实际应用中,用户如果有相对较为频繁的升级更替计算组件的场景,往往不能接受侵入式的部署对接方式。

实现无缝对接!杉岩数据推出HDFS网关服务端组件

针对这一需求,杉岩数据研发推出了HDFS网关服务端组件,进一步简化对接部署过程。HDFS网关实现了原生HDFS协议,可收发原生HDFS协议的请求,计算节点通过Hadoop环境自带的原生HDFS-Client即可访问存储系统,无需额外安装专用客户端。

pYYBAGOpQv2AYB7vAADpGMFzRyA309.png

图2 杉岩湖仓一体方案存算分离实现(服务端模式)

方案优势

原生HDFS协议,兼容性良好:HDFS网关支持几乎所有的HDFS数据面接口,可对接市场上常见的大数据平台。

无缝对接,简化对接部署过程:通过原生HDFS协议直接访问存储系统,无需在计算层安装专用客户端。计算组件升级、替换时,无需考虑客户端配置,减少运维工作量。

高数据吞吐能力,无单点故障:通过杉岩云原生文件存储对HDFS网关的数据处理卸载能力,大大降低了HDFS网关的数据处理开销,提升了整体的数据吞吐能力,并结合LVS实现了对HDFS网关的去中心化、水平扩展。

性能测试

LVS只处理HDFS NameNode的元数据相关RPC,实际占大部分网络带宽的数据读写是DataNode角色的block读写流量,不通过LVS,而由HDFS Gateway通过NameNode RPC返回自身节点的IP,HDFS-Client直接和各HDFS Gateway通讯。所以LVS不会成为大数据读写的瓶颈,如下图所示:

poYBAGOpQv6AMqtSAAHFAXqwdk4046.png

图3 通过LVS访问HDFS网关的交互

以下是在3节点存储加3节点Hadoop集群环境,通过TestDFSIO读写9个30G文件的对比测试结果,可见HDFS网关对存储系统带宽影响较小。但HDFS网关的增加会使IO路径长度多一跳,对存储网络带宽需求增加,规划存储网络时应考虑这一点。

pYYBAGOpQv6AUMm3AACIb_-ZSnM729.png

图4 存算分离场景杉岩CNFS直通和通过HDFS网关带宽测试

值得一提的是,有些计算层组件可能针对HDFS做特别的优化,例如Hbase就实现了自己的异步HDFS-Client,此情况下使用HDFS网关可以继续使用计算侧的特别优化,能获得更好的性能。

总结

随着5GIoT的快速发展,数据激增,企业级大数据平台建设逐渐深入,基于存算分离架构,计算承接丰富的应用接入需求,存储提供成熟稳定的底座支撑业务发展和生态对接是大势所趋。

上述内容体现了杉岩云原生文件存储在Hadoop大数据存算分离场景中的优势,杉岩数据推出HDFS网关服务端组件,通过原生HDFS协议直接访问存储系统,简化了对接部署过程,为用户提供了更多的选择,使基于杉岩大数据智能存储为基座的湖仓一体方案更加完善。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储系统
    +关注

    关注

    2

    文章

    383

    浏览量

    40708
  • Hadoop
    +关注

    关注

    1

    文章

    90

    浏览量

    15825
  • HDFS
    +关注

    关注

    1

    文章

    29

    浏览量

    9493
  • 大数据
    +关注

    关注

    64

    文章

    8657

    浏览量

    136602
  • 存算分离
    +关注

    关注

    0

    文章

    6

    浏览量

    45
收藏 人收藏

    评论

    相关推荐

    大数据时代的存储革命:理解分布式存储系统

    管理的效率极低。因此,分布式存储系统应运而生。 分布式存储就是将数据存储在众多的服务器或网络节点上,而不是集中在单个位置。这种方式的好处包括:方便扩容、
    的头像 发表于 03-07 15:40 147次阅读

    什么是智能存储系统?对比传统存储柜,智能存储柜有哪些优点?

    智能存储系统(IntelligentStorageSystem)是一种先进的数据存储解决方案,它结合了硬件、软件和自动化管理功能,以实现对数据
    的头像 发表于 03-05 13:53 142次阅读
    什么是智能<b class='flag-5'>存储系统</b>?对比传统<b class='flag-5'>存储</b>柜,智能<b class='flag-5'>存储</b>柜有哪些优点?

    Hadoop是什么?其核心由两大部分组成,分别是什么?

    了分布式存储计算的方式,能够快速有效地处理大量数据,并具备良好的扩展性和容错性。 Hadoop的核心由两大部分组成,分别是Hadoop分布
    的头像 发表于 02-05 10:52 488次阅读

    百度搜索内容HTAP表格存储系统

    整套存储设计需要解决的核心问题是——如何在OLTP存储系统中支持OLAP workflow?OLAP workflow在OLTP存储系统上带来的两个最主要的问题是:严重的IO放大率、存算耦合。
    的头像 发表于 12-05 16:00 245次阅读
    百度搜索内容HTAP表格<b class='flag-5'>存储系统</b>

    NOR FLASH对计算存储有何作用?

    NOR FLASH是一种非易失性存储技术,对计算存储具有重大影响,闪存其独特的特性和功能影响着计算存储系统的各个方面
    的头像 发表于 12-05 10:32 410次阅读

    Get职场新知识:做分析,用大数据分析工具

    、多维动态分析,业务人随时按需分析,更灵活,更高效。 3、指标计算能力极强,能很好地完成计算组合多变、计算量极大的财务分析指标计算。 现在登录奥威BI SaaS平台,即可享受在线连接
    发表于 12-05 09:36

    曙光推出ParaStor分布式存储系统解决方案

    。在数据建模分析中,数据存储的压力会随之增长,存储系统往往需具备PB级的扩展能力和极高的读写性能,这对存储系统稳定性、可靠性和访问带宽都提出
    的头像 发表于 10-21 09:25 622次阅读

    加速大数据计算存储应用

    电子发烧友网站提供《加速大数据计算存储应用.pdf》资料免费下载
    发表于 09-15 15:05 0次下载
    加速<b class='flag-5'>大数据</b>和<b class='flag-5'>计算</b><b class='flag-5'>存储</b>应用

    深入分析企业存储系统的架构、功能和技术特点

    企业存储系统需要具备高可用性和容错能力,保证数据安全和可靠性。其次,存储系统需要支持多种协议和文件格式,满足不同应用场景的需求。此外,存储系统还需要支持
    发表于 08-14 14:46 343次阅读
    深入分析企业<b class='flag-5'>存储系统</b>的架构、功能和技术特点

    初步认识大数据对分布式存储系统的需求(2)#大数据处理

    大数据
    未来加油dz
    发布于 :2023年07月05日 11:16:27

    初步认识大数据对分布式存储系统的需求(1)#大数据处理

    大数据
    未来加油dz
    发布于 :2023年07月05日 11:16:04

    分布式存储系统举例(2)#大数据处理

    大数据
    未来加油dz
    发布于 :2023年07月05日 11:08:42

    具体说明大数据对分布式存储系统的需求(2)#大数据处理

    大数据
    未来加油dz
    发布于 :2023年07月05日 11:02:47

    具体说明大数据对分布式存储系统的需求(1)#大数据处理

    大数据
    未来加油dz
    发布于 :2023年07月05日 11:02:18

    在设计基于NAND的存储系统时选中所有框

    有人会认为设计一个基于NAND的存储系统是相当简单的。然而,这是一个极其复杂的过程,在此过程中需要进行一系列组件和权衡。没有一种适合所有解决方案的解决方案,尤其是在设计工业解决方案时。
    的头像 发表于 05-04 11:01 907次阅读