0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Hadoop大数据存算分离方案:计算层无缝对接存储系统

杉岩老李 来源:杉岩老李 作者:杉岩老李 2022-12-26 14:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Hadoop的诞生改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展。随着大数据系统建设的深入,企业的数据基础设施易出现计算资源浪费、存储性能低、管理成本过高等挑战。相比存算一体架构,存算分离架构具有性能与成本最优、兼具灵活性等特点,因此受到企业IT部门的青睐,并纷纷开始对Hadoop架构进行改造。

为满足大数据不同场景需求,杉岩数据此前研发推出了兼容HDFS接口能力的高性能数据湖文件网关,为使湖仓一体方案更加完善,杉岩数据全新升级了面向AI训练、机器学习、大数据分析等场景的高性能文件存储——杉岩云原生文件存储(以下简称杉岩CNFS),为客户实现All in One的存储能力。

存算分离实现方案:客户端模式

杉岩CNFS支持客户端模式,提供HCFS(Hadoop Compatible File System,Hadoop兼容文件协议)接口实现,对HDFS接口协议完全兼容,可以保证应用层就像使用原生HDFS存储一样使用杉岩CNFS。

实际场景中,通过在计算平台部署安装专用的客户端与简单的配置,即可实现Hadoop平台的组件与分离部署的存储交互。针对业界使用比较广泛的CDH平台(Hadoop商业发行版之一),杉岩CNFS也开发了配套的Parcel资源包,利用CDH自身的管理便捷地配置使用杉岩CNFS提供的存储空间。

poYBAGOpQvyAFw8dAADHIWN3r4A300.png

图1 杉岩湖仓一体方案存算分离实现(客户端模式)

但是像所有HCFS接口实现一样,侵入式的部署方式使计算组件有了额外的依赖需要管理,当涉及计算组件自身的升级、替换等场景时,就要考虑杉岩CNFS客户端软件包和配置的同步,增加了运维工作。因此这种对接方式一定程度限制了计算组件自身的灵活性。

在实际应用中,用户如果有相对较为频繁的升级更替计算组件的场景,往往不能接受侵入式的部署对接方式。

实现无缝对接!杉岩数据推出HDFS网关服务端组件

针对这一需求,杉岩数据研发推出了HDFS网关服务端组件,进一步简化对接部署过程。HDFS网关实现了原生HDFS协议,可收发原生HDFS协议的请求,计算节点通过Hadoop环境自带的原生HDFS-Client即可访问存储系统,无需额外安装专用客户端。

pYYBAGOpQv2AYB7vAADpGMFzRyA309.png

图2 杉岩湖仓一体方案存算分离实现(服务端模式)

方案优势

原生HDFS协议,兼容性良好:HDFS网关支持几乎所有的HDFS数据面接口,可对接市场上常见的大数据平台。

无缝对接,简化对接部署过程:通过原生HDFS协议直接访问存储系统,无需在计算层安装专用客户端。计算组件升级、替换时,无需考虑客户端配置,减少运维工作量。

高数据吞吐能力,无单点故障:通过杉岩云原生文件存储对HDFS网关的数据处理卸载能力,大大降低了HDFS网关的数据处理开销,提升了整体的数据吞吐能力,并结合LVS实现了对HDFS网关的去中心化、水平扩展。

性能测试

LVS只处理HDFS NameNode的元数据相关RPC,实际占大部分网络带宽的数据读写是DataNode角色的block读写流量,不通过LVS,而由HDFS Gateway通过NameNode RPC返回自身节点的IP,HDFS-Client直接和各HDFS Gateway通讯。所以LVS不会成为大数据读写的瓶颈,如下图所示:

poYBAGOpQv6AMqtSAAHFAXqwdk4046.png

图3 通过LVS访问HDFS网关的交互

以下是在3节点存储加3节点Hadoop集群环境,通过TestDFSIO读写9个30G文件的对比测试结果,可见HDFS网关对存储系统带宽影响较小。但HDFS网关的增加会使IO路径长度多一跳,对存储网络带宽需求增加,规划存储网络时应考虑这一点。

pYYBAGOpQv6AUMm3AACIb_-ZSnM729.png

图4 存算分离场景杉岩CNFS直通和通过HDFS网关带宽测试

值得一提的是,有些计算层组件可能针对HDFS做特别的优化,例如Hbase就实现了自己的异步HDFS-Client,此情况下使用HDFS网关可以继续使用计算侧的特别优化,能获得更好的性能。

总结

随着5GIoT的快速发展,数据激增,企业级大数据平台建设逐渐深入,基于存算分离架构,计算承接丰富的应用接入需求,存储提供成熟稳定的底座支撑业务发展和生态对接是大势所趋。

上述内容体现了杉岩云原生文件存储在Hadoop大数据存算分离场景中的优势,杉岩数据推出HDFS网关服务端组件,通过原生HDFS协议直接访问存储系统,简化了对接部署过程,为用户提供了更多的选择,使基于杉岩大数据智能存储为基座的湖仓一体方案更加完善。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储系统
    +关注

    关注

    2

    文章

    437

    浏览量

    41946
  • Hadoop
    +关注

    关注

    1

    文章

    90

    浏览量

    16996
  • HDFS
    +关注

    关注

    1

    文章

    32

    浏览量

    10140
  • 大数据
    +关注

    关注

    64

    文章

    9091

    浏览量

    144042
  • 存算分离
    +关注

    关注

    0

    文章

    6

    浏览量

    167
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    ADAS 数据安全 晶存储筑牢防线

    256GB eMMC以工业级可靠性与高耐用性,为ADAS系统提供大容量数据存储解决方案,保障行车数据
    的头像 发表于 02-25 09:55 1958次阅读
    ADAS <b class='flag-5'>数据</b>安全 晶<b class='flag-5'>存</b><b class='flag-5'>存储</b>筑牢防线

    国产高性能ONFI IP解决方案全解析

    )时代,数据存储的吞吐量瓶颈日益凸显,高性能的ONFI IP能够确保大规模数据的高效存取,是SSD及先进存储系统的核心技术基石。2. 奎芯科技 ONFI IP 的核心技术规格奎芯科技提
    发表于 01-13 16:15

    mSSD存储介质生态创新,探索AI终端存储新路径

    的产业链伙伴,共探AI时代存储介质生态创新。AI发展驱动终端计算架构革新,力持续突破的同时,存储系统的同步进化也至关重要,其技术创新与全链条生态协同的重要性日益凸
    的头像 发表于 12-15 21:32 719次阅读
    mSSD<b class='flag-5'>存储</b>介质生态创新,探索AI终端<b class='flag-5'>存储</b>新路径

    曙光存储推出面向金融的可信AI存储

    近日,曙光存储推出面向金融的可信AI存储,助力金融行业高效、安全、稳定地使用关键业务敏感数据。该方案基于全球领先的集中式全闪存储FlashN
    的头像 发表于 10-23 09:24 765次阅读

    泥浆分离机PLC数据采集远程维护系统方案

    的不断提升,对泥浆分离机的实时监控与数据采集需求日益迫切。 本方案旨在通过数据采集网关,实现泥浆分离机PLC
    的头像 发表于 10-16 15:45 588次阅读
    泥浆<b class='flag-5'>分离</b>机PLC<b class='flag-5'>数据</b>采集远程维护<b class='flag-5'>系统</b><b class='flag-5'>方案</b>

    数据中台对接QMS质量管理系统方案

    通过数之能数据中台,实现与QMS质量管理系统无缝对接,为企业提供高效、准确的质量数据支持,助力企业提升质量管理水平和生产效率。
    的头像 发表于 09-29 15:55 614次阅读
    <b class='flag-5'>数据</b>中台<b class='flag-5'>对接</b>QMS质量管理<b class='flag-5'>系统</b><b class='flag-5'>方案</b>

    曙光存储支持西湖大学高性能计算中心部署完成全新存储系统

    近日,曙光存储支持西湖大学高性能计算中心部署完成全新存储系统,为AI研发、科学计算和信息化平台等提供力支持。性能实测显示,该
    的头像 发表于 08-25 11:48 1411次阅读

    NAS存储系统断电风险大?UPS电源守护数据安全刻不容缓

    在数字化时代,企业数据已成为最宝贵的资产。NAS存储系统作为企业数据存储的核心设备,一旦遭遇意外断电,轻则导致数据丢失,重则造成设备损坏,给
    的头像 发表于 08-25 10:13 1179次阅读
    NAS<b class='flag-5'>存储系统</b>断电风险大?UPS电源守护<b class='flag-5'>数据</b>安全刻不容缓

    一文看懂“一体”

    今天这篇文章,我们来聊一个最近几年很火的概念——一体。为什么会提出“一体”?一体,英
    的头像 发表于 08-18 12:15 1646次阅读
    一文看懂“<b class='flag-5'>存</b><b class='flag-5'>算</b>一体”

    Ceph分布式存储系统解析

    在当今数据爆炸的时代,企业对存储系统的需求日益增长,传统的集中式存储已经无法满足大规模数据处理的要求。分布式存储系统应运而生,而Ceph作为
    的头像 发表于 07-14 11:15 1188次阅读

    缓解高性能一体芯片IR-drop问题的软硬件协同设计

    在高性能计算与AI芯片领域,基于SRAM的一体(Processing-In-Memory, PIM)架构因兼具计算密度、能效和精度优势成为主流
    的头像 发表于 07-11 15:11 1574次阅读
    缓解高性能<b class='flag-5'>存</b><b class='flag-5'>算</b>一体芯片IR-drop问题的软硬件协同设计

    平衡”有多重要?

    。而决定这种配合效率的关键指标,正是我们今天要聊的“比”。什么是比?比=
    的头像 发表于 07-11 14:06 865次阅读
    “<b class='flag-5'>算</b><b class='flag-5'>存</b>平衡”有多重要?

    力积存储港股IPO,蓄力研发AI方案

    电子发烧友网综合报道,5月28日,浙江力积存储科技股份有限公司(以下简称"力积存储")向港交所提交上市申请书,独家保荐人为中信证券(香港)有限公司。   力积存储是中国领先的内存芯片设计公司及AI
    的头像 发表于 06-06 00:57 8339次阅读
    力积<b class='flag-5'>存储</b>港股IPO,蓄力研发AI<b class='flag-5'>存</b><b class='flag-5'>算</b><b class='flag-5'>方案</b>

    第二届知科技杯华东高校计算创新应用大赛正式启动

    在数字化浪潮席卷各行业的当下,数据量呈爆炸式增长,力需求也水涨船高。计算架构作为创新解决方案,备受产学研各界关注。为推动
    的头像 发表于 05-06 17:51 989次阅读

    兆芯+图云创智—可信分布式存储系统解决方案

    图云创智分布式存储系统采用全分布式设计与先进的存储虚拟化技术相结合,由多个独立的兆芯 x86 服务器作为存储节点,联合道熵存储软件和思赞博微可信计算
    的头像 发表于 04-23 10:29 1183次阅读
    兆芯+图云创智—可信分布式<b class='flag-5'>存储系统</b>解决<b class='flag-5'>方案</b>