0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Hadoop大数据存算分离方案:计算层无缝对接存储系统

杉岩老李 来源:杉岩老李 作者:杉岩老李 2022-12-26 14:45 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Hadoop的诞生改变了企业对数据的存储、处理和分析的过程,加速了大数据的发展。随着大数据系统建设的深入,企业的数据基础设施易出现计算资源浪费、存储性能低、管理成本过高等挑战。相比存算一体架构,存算分离架构具有性能与成本最优、兼具灵活性等特点,因此受到企业IT部门的青睐,并纷纷开始对Hadoop架构进行改造。

为满足大数据不同场景需求,杉岩数据此前研发推出了兼容HDFS接口能力的高性能数据湖文件网关,为使湖仓一体方案更加完善,杉岩数据全新升级了面向AI训练、机器学习、大数据分析等场景的高性能文件存储——杉岩云原生文件存储(以下简称杉岩CNFS),为客户实现All in One的存储能力。

存算分离实现方案:客户端模式

杉岩CNFS支持客户端模式,提供HCFS(Hadoop Compatible File System,Hadoop兼容文件协议)接口实现,对HDFS接口协议完全兼容,可以保证应用层就像使用原生HDFS存储一样使用杉岩CNFS。

实际场景中,通过在计算平台部署安装专用的客户端与简单的配置,即可实现Hadoop平台的组件与分离部署的存储交互。针对业界使用比较广泛的CDH平台(Hadoop商业发行版之一),杉岩CNFS也开发了配套的Parcel资源包,利用CDH自身的管理便捷地配置使用杉岩CNFS提供的存储空间。

poYBAGOpQvyAFw8dAADHIWN3r4A300.png

图1 杉岩湖仓一体方案存算分离实现(客户端模式)

但是像所有HCFS接口实现一样,侵入式的部署方式使计算组件有了额外的依赖需要管理,当涉及计算组件自身的升级、替换等场景时,就要考虑杉岩CNFS客户端软件包和配置的同步,增加了运维工作。因此这种对接方式一定程度限制了计算组件自身的灵活性。

在实际应用中,用户如果有相对较为频繁的升级更替计算组件的场景,往往不能接受侵入式的部署对接方式。

实现无缝对接!杉岩数据推出HDFS网关服务端组件

针对这一需求,杉岩数据研发推出了HDFS网关服务端组件,进一步简化对接部署过程。HDFS网关实现了原生HDFS协议,可收发原生HDFS协议的请求,计算节点通过Hadoop环境自带的原生HDFS-Client即可访问存储系统,无需额外安装专用客户端。

pYYBAGOpQv2AYB7vAADpGMFzRyA309.png

图2 杉岩湖仓一体方案存算分离实现(服务端模式)

方案优势

原生HDFS协议,兼容性良好:HDFS网关支持几乎所有的HDFS数据面接口,可对接市场上常见的大数据平台。

无缝对接,简化对接部署过程:通过原生HDFS协议直接访问存储系统,无需在计算层安装专用客户端。计算组件升级、替换时,无需考虑客户端配置,减少运维工作量。

高数据吞吐能力,无单点故障:通过杉岩云原生文件存储对HDFS网关的数据处理卸载能力,大大降低了HDFS网关的数据处理开销,提升了整体的数据吞吐能力,并结合LVS实现了对HDFS网关的去中心化、水平扩展。

性能测试

LVS只处理HDFS NameNode的元数据相关RPC,实际占大部分网络带宽的数据读写是DataNode角色的block读写流量,不通过LVS,而由HDFS Gateway通过NameNode RPC返回自身节点的IP,HDFS-Client直接和各HDFS Gateway通讯。所以LVS不会成为大数据读写的瓶颈,如下图所示:

poYBAGOpQv6AMqtSAAHFAXqwdk4046.png

图3 通过LVS访问HDFS网关的交互

以下是在3节点存储加3节点Hadoop集群环境,通过TestDFSIO读写9个30G文件的对比测试结果,可见HDFS网关对存储系统带宽影响较小。但HDFS网关的增加会使IO路径长度多一跳,对存储网络带宽需求增加,规划存储网络时应考虑这一点。

pYYBAGOpQv6AUMm3AACIb_-ZSnM729.png

图4 存算分离场景杉岩CNFS直通和通过HDFS网关带宽测试

值得一提的是,有些计算层组件可能针对HDFS做特别的优化,例如Hbase就实现了自己的异步HDFS-Client,此情况下使用HDFS网关可以继续使用计算侧的特别优化,能获得更好的性能。

总结

随着5GIoT的快速发展,数据激增,企业级大数据平台建设逐渐深入,基于存算分离架构,计算承接丰富的应用接入需求,存储提供成熟稳定的底座支撑业务发展和生态对接是大势所趋。

上述内容体现了杉岩云原生文件存储在Hadoop大数据存算分离场景中的优势,杉岩数据推出HDFS网关服务端组件,通过原生HDFS协议直接访问存储系统,简化了对接部署过程,为用户提供了更多的选择,使基于杉岩大数据智能存储为基座的湖仓一体方案更加完善。

审核编辑:汤梓红

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 存储系统
    +关注

    关注

    2

    文章

    428

    浏览量

    41776
  • Hadoop
    +关注

    关注

    1

    文章

    90

    浏览量

    16821
  • HDFS
    +关注

    关注

    1

    文章

    32

    浏览量

    10074
  • 大数据
    +关注

    关注

    64

    文章

    9029

    浏览量

    143072
  • 存算分离
    +关注

    关注

    0

    文章

    6

    浏览量

    150
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    曙光存储推出面向金融的可信AI存储

    近日,曙光存储推出面向金融的可信AI存储,助力金融行业高效、安全、稳定地使用关键业务敏感数据。该方案基于全球领先的集中式全闪存储FlashN
    的头像 发表于 10-23 09:24 495次阅读

    曙光存储支持西湖大学高性能计算中心部署完成全新存储系统

    近日,曙光存储支持西湖大学高性能计算中心部署完成全新存储系统,为AI研发、科学计算和信息化平台等提供力支持。性能实测显示,该
    的头像 发表于 08-25 11:48 952次阅读

    NAS存储系统断电风险大?UPS电源守护数据安全刻不容缓

    在数字化时代,企业数据已成为最宝贵的资产。NAS存储系统作为企业数据存储的核心设备,一旦遭遇意外断电,轻则导致数据丢失,重则造成设备损坏,给
    的头像 发表于 08-25 10:13 660次阅读
    NAS<b class='flag-5'>存储系统</b>断电风险大?UPS电源守护<b class='flag-5'>数据</b>安全刻不容缓

    一文看懂“一体”

    今天这篇文章,我们来聊一个最近几年很火的概念——一体。为什么会提出“一体”?一体,英
    的头像 发表于 08-18 12:15 936次阅读
    一文看懂“<b class='flag-5'>存</b><b class='flag-5'>算</b>一体”

    Ceph分布式存储系统解析

    在当今数据爆炸的时代,企业对存储系统的需求日益增长,传统的集中式存储已经无法满足大规模数据处理的要求。分布式存储系统应运而生,而Ceph作为
    的头像 发表于 07-14 11:15 716次阅读

    平衡”有多重要?

    。而决定这种配合效率的关键指标,正是我们今天要聊的“比”。什么是比?比=
    的头像 发表于 07-11 14:06 477次阅读
    “<b class='flag-5'>算</b><b class='flag-5'>存</b>平衡”有多重要?

    兆芯+图云创智—可信分布式存储系统解决方案

    图云创智分布式存储系统采用全分布式设计与先进的存储虚拟化技术相结合,由多个独立的兆芯 x86 服务器作为存储节点,联合道熵存储软件和思赞博微可信计算
    的头像 发表于 04-23 10:29 656次阅读
    兆芯+图云创智—可信分布式<b class='flag-5'>存储系统</b>解决<b class='flag-5'>方案</b>

    27MHz HCSL 差分晶体振荡器在数据中心网络存储系统中的应用方案

    提升系统时钟一致性与数据可靠性,是存储系统中不可或缺的时钟核心元件之一。借助FCom富士晶振领先的设计与制造能力,该产品可为客户提供长寿命、高一致性、高性能的时钟解决方案,助力
    发表于 04-14 21:19

    力接棒力,慧荣科技以主控技术突破AI存储极限

    电子发烧友网报道(文/黄山明)在AI的高速增长下,尤其是以DeepSeek为代表的AI大模型推动存储需求激增,力增长倒逼力升级。而存储是AI生态的基础,
    的头像 发表于 03-19 01:29 2341次阅读
    <b class='flag-5'>存</b>力接棒<b class='flag-5'>算</b>力,慧荣科技以主控技术突破AI<b class='flag-5'>存储</b>极限

    大数据与云计算是干嘛的?

    大数据与云计算是支撑现代数字化技术的两大核心。大数据专注于海量数据的采集、存储、分析与价值挖掘;云计算
    的头像 发表于 02-20 14:48 1273次阅读

    一体行业2024年回顾与2025年展望

    2024年,大模型技术的迅猛发展成为人工智能领域的核心驱动力,其对硬件力和存储效率的极致需求,促使一体技术在全球范围内迎来前所未有的关注与突破。随着模型参数规模的持续膨胀和应用场
    的头像 发表于 01-23 11:24 1684次阅读

    Hadoop 生态系统大数据处理中的应用与实践

    随着数据量的爆发式增长,大数据处理技术成为企业关注焦点,Hadoop 生态系统在其中扮演着核心角色。 Hadoop Distributed
    的头像 发表于 01-21 17:48 673次阅读

    电脑云存储系统,电脑云存储系统的教程,个人云电脑是什么以及怎么连接

    变成了亲情的纽带,跨越千里解决家人难题,让老人也能享受科技便利,不再为电脑故障烦恼。接下来和大家一起探索电脑云存储系统的教程。    电脑云存储系统的教程:    以搭建基于OwnCloud的云存储为例,先准备一台闲置电脑,安装
    的头像 发表于 12-31 13:57 728次阅读
    电脑云<b class='flag-5'>存储系统</b>,电脑云<b class='flag-5'>存储系统</b>的教程,个人云电脑是什么以及怎么连接

    缓存对大数据处理的影响分析

    缓存对大数据处理的影响显著且重要,主要体现在以下几个方面: 一、提高数据访问速度 在大数据环境中,数据存储通常采用分布式
    的头像 发表于 12-18 09:45 1115次阅读

    中国联通实现30TB样本数据跨城分离训练

    的跨200公里分离拉远训练。 据中国联通官方介绍,此次测试不仅验证了分离技术在长距离
    的头像 发表于 12-13 14:06 1015次阅读