0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

超融合数据中心网络发展及趋势

架构师技术联盟 来源:架构师技术联盟 2023-05-19 11:16 次阅读

数据中心网络连接数据中心内部通用计算、存储和高性能计算资源,服务器间的所有数据交互都要经由网络转发。当前,IT架构、计算和存储技术都在发生重大变革,驱动数据中心网络从原来的多张网络独立部署向全以太化演进。而传统的以太网无法满足存储和高性能计算的业务需求。超融合数据中心网络以全无损以太网来构建新型的数据中心网络,使通用计算、存储、高性能计算三大种类业务均能融合部署在一张以太网上,同时实现全生命周期自动化和全网智能运维。

为什么会产生超融合数据数据中心网?

现状:数据中心内有三张网络

数据中心内部有三类典型的业务:通用计算(一般业务)、高性能计算(HPC)业务和存储业务。每类业务对于网络有不同的诉求,比如:HPC业务的多节点进程间通信,对于时延要求非常高;而存储业务对可靠性诉求非常高,要求网络0丢包;通用计算业务规模大,扩展性强,要求网络低成本、易扩展。

由于上述业务对网络的要求不同,当前数据中心内部一般会部署三张不同的网络:

由IB(InfiniBand)网络来承载HPC业务

由FC(Fiber Channel)网络来承载存储网络

由以太网来承载通用计算业务

415ab00c-f5ef-11ed-90ce-dac502259ad0.png


数据中心内的三张网络

AI时代的变化1:存储和计算能力大幅提升,网络成为瓶颈

企业数字化过程中将产生大量的数据,这些数据正在成为企业核心资产。通过AI技术从海量数据中挖掘价值成为AI时代不变的主题。通过AI机器学习利用各种数据辅助实时决策,已经成为企业经营的核心任务之一。与云计算时代相比,AI时代企业数据中心的使命正在从聚焦业务快速发放向聚焦数据高效处理转变。

41628566-f5ef-11ed-90ce-dac502259ad0.png


数据中心正在从云计算时代走向AI时代 为了提升海量AI数据处理的效率,存储和计算领域正在发生革命性的变化:

存储介质从机械硬盘(HDD)演进到闪存盘(SSD),来满足数据的实时存取要求,存储介质时延降低了不止100倍。

为了满足数据高效计算的诉求,业界已经在采用GPU甚至专用的AI芯片,处理数据的能力提升了100倍以上。

随着存储介质和计算能力的大幅提升,在高性能的数据中心集群系统中,当前网络通信的时延成为应用整体性能进一步提升的瓶颈,通信时延在整个端到端时延中占比从10%上升到60%以上,也就是说,宝贵的存储或计算资源有一半以上的时间是在等待网络通信。

总的来说,随着存储介质和计算处理器的演进,网络的低效阻碍了计算和存储性能的发挥;只有将通信时长降低到与计算和存储接近,才能消除木桶原理中的“短板”,提升应用整体的性能。

AI时代的变化2:RDMA替代TCP/IP成为大势所趋,但RDMA的网络承载方案存在不足

如下图所示,在服务器内部,由于TCP协议栈在接收/发送报文,以及对报文进行内部处理时,会产生数十微秒的固定时延,这使得在AI数据运算和SSD分布式存储这些微秒级系统中,TCP协议栈时延成为最明显的瓶颈。另外,随着网络规模的扩大和带宽的提高,宝贵的CPU资源越来越地多被用于传输数据。

RDMA(Remote Direct Memory Access)允许应用与网卡之间的直接数据读写,将服务器内的数据传输时延降低到接近1us。同时,RDMA允许接收端直接从发送端的内存读取数据,极大减少了CPU的负担。

416a61aa-f5ef-11ed-90ce-dac502259ad0.png


RDMA与TCP的对比

根据业务的测试数据, 采用RDMA可以将计算的效率同比提升6~8倍;而服务器内1us的传输时延也使得SSD分布式存储的时延从ms级降低到us级成为可能,所以在最新的NVMe(Non-Volatile Memory express)接口协议中,RDMA成为主流的默认网络通信协议栈。因此,RDMA替换TCP/IP成为大势所趋。

在服务器之间的互联网络中,当前有两种方案来承载RDMA:专用InfiniBand网络和传统IP以太网络,然而,它们都存在不足:

InfiniBand网络:架构封闭,采用私有协议,难以与现网大规模的IP网络实现很好的兼容互通;运维复杂,专人运维,OPEX居高不下。

传统IP以太网:对于RDMA来说,大于10-3的丢包率,将导致网络有效吞吐急剧下降,2%的丢包则使得RDMA的吞吐率下降为0。要使得RDMA吞吐不受影响,丢包率必须保证在十万分之一以下,最好为无丢包。而拥塞丢包是传统IP以太网络的基本机制,传统IP以太网中会使用PFC和ECN机制来避免丢包,但其基本原理是通过反压降低发送端速度来保证不丢包,实际上并没有达到提升吞吐率的效果。

因此,RDMA的高效运行,离不开一个0丢包、高吞吐的开放以太网作为承载。

AI时代的变化3:分布式架构成为趋势,加剧网络拥塞,驱动网络变革

在企业的数字化转型中,以金融和互联网企业为代表,大量的应用系统迁移到分布式系统上:通过海量的PC平台替代传统小型机,带来了成本低廉、易扩展、自主可控等优势,同时也给网络互联带来了挑战:

分布式架构带来了服务器间大量的互通需求。

Incast型流量(多点对一点的流量)会在接收端造成流量突发,瞬间超过接收端接口能力,造成拥塞丢包。

41733ad2-f5ef-11ed-90ce-dac502259ad0.png


分布式架构流量模型示意

随着分布式系统应用复杂度的增加,服务器之间交互的消息长度越来越大,即流量具备“大包”特征,进一步加剧了网络拥塞。

什么是超融合网数据中心网络的核心指标?

从上一节来看,为了满足AI时代的数据高效处理诉求、应对分布式架构挑战,0丢包、低时延、高吞吐成为下一代数据中心网络的三个核心指标。这三个核心指标是互相影响,有跷跷板效应,同时达到最优有很大的挑战。

417afce0-f5ef-11ed-90ce-dac502259ad0.png


三个核心指标相互影响

同时满足0丢包、低时延、高吞吐,背后的核心技术是拥塞控制算法。通用的无损网络的拥塞控制算法DCQCN(Data Center Quantized Congestion Notification),需要网卡和网络进行协作,每个节点需要配置数十个参数,全网的参数组合达到几十万;为了简化配置,只能采用通用的配置,导致针对不同的流量模型,常常无法同时满足这三个核心指标。

超融合数据中心网络与HCI有什么异同?

HCI(Hyper-Converged Infrastructure,超融合基础架构)是指在同一套单元设备中不但具备了计算、网络、存储和服务器虚拟化等资源和技术,而且多套单元设备可以通过网络聚合起来,实现模块化的无缝横向扩展(Scale—Out),形成统一的资源池。

HCI将虚拟化计算和存储整合到同一个系统平台。简单地说就是物理服务器上运行虚拟化软件(Hypervisor),通过在虚拟化软件上运行分布式存储服务供虚拟机使用。分布式存储可以运行在虚拟化软件上的虚拟机里也可以是与虚拟化软件整合的模块。广义上说,HCI既可以整合计算和存储资源,还可以整合网络以及其它更多的平台和服务。目前业界普遍认为,软件定义的分布式存储层和虚拟化计算是HCI架构的最小集。

与HCI不同,超融合数据中心网络只专注于网络层面,提供全新的计算、存储互联的网络层方案。使用超融合数据中心网络,不需像HCI那样对计算资源、存储资源进行改造和融合,并且基于以太网很容易实现成低成本的快速扩容。

的超融合数据中心网络,基于开放以太网,通过独特的AI算法,可以使以太网络同时满足低成本,0丢包和低时延的诉求。超融合数据中心网络成为AI时代的数据中心构建统一融合的网络架构的最佳选择。

41818a88-f5ef-11ed-90ce-dac502259ad0.png


从独立组网到统一融合的组网

超融合数据数据中心网络有什么价值?

传统的FC专网和IB专网,价格昂贵,生态封闭,且需要专人运维,也不支持SDN,无法满足云网协同等自动化部署的诉求。

使用华为超融合数据中心网络具有以下价值:

提升端到端业务性能使用华为超融合数据中心网络,据权威第三方测试EANTC测试结论,可以在HPC场景下最高降低44.3%的计算时延,在分布式存储场景下提升25%的IOPS能力,且所有场景保证网络0丢包。

使用华为超融合数据中心网络,可提供25G/100G/400G组网,满足AI时代海量数据对网络大带宽的需求。

降低成本,提升收益

数据中心投资中网络占比仅10%左右,相对服务器/存储的投资(占比85%),有10倍的杠杆效应,撬动服务器和存储投资的大幅降低;华为超融合数据数据中心网络可以带来25%的存储性能提升,40%的计算效率提升,将带来数十倍的ROI(Return On Investment)能力。

支持SDN自动化和智能运维

华为超融合数据中心网络支持SDN云网协同的全生命周期业务自动化,OPEX降低至少60%以上。另外,由于华为超融合数据中心网络本质上是以太网,因此传统以太网运维人员就可以管理,且可以依托华为智能分析平台iMaster NCE-FabricInsight,多维度地、可视化地对网络进行运维。

超融合数据数据中心网络如何工作?

上文提到,使用以太网来承载RDMA流量,目前使用的协议为RoCE(RDMA over Converged Ethernet)v2。华为超融合数据中心网络,使用iLossless智能无损算法构建无损以太网络,是一系列技术的合集,通过以下三个方面技术的相互配合,真正解决传统以太网络拥塞丢包的问题,为RoCEv2流量提供“无丢包、低时延、高吞吐”的网络环境,满足RoCEv2应用的高性能需求。

流量控制技术

流量控制是端到端的,需要做的是抑制发送端的发送速率,以便接收端来得及接收,防止设备端口在拥塞的情况下出现丢包。华为提供了PFC死锁检测和死锁预防,提前预防PFC死锁的发生。

拥塞控制技术

拥塞控制是一个全局性的过程,目的是让网络能承受现有的网络负荷,往往需要转发设备、流量发送端、流量接收端协同作用,并结合网络中的拥塞反馈机制来调节整网流量才能起到缓解拥塞、解除拥塞的效果。在拥塞控制过程中,华为提供了AI ECN、iQCN、ECN Overlay和NPCC功能,解决了传统DCQCN存在的问题。

智能无损存储网络技术为了更好地服务存储系统,华为提供了iNOF(智能无损存储网络)功能,实现对主机的快速管控。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据中心
    +关注

    关注

    15

    文章

    4187

    浏览量

    70065
  • 机械硬盘
    +关注

    关注

    1

    文章

    210

    浏览量

    25182
  • 存储网络
    +关注

    关注

    0

    文章

    31

    浏览量

    8030

原文标题:超融合数据中心网络发展及趋势

文章出处:【微信号:架构师技术联盟,微信公众号:架构师技术联盟】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    #mpo极性 #数据中心mpo

    数据中心MPO
    jf_51241005
    发布于 :2024年04月07日 10:05:13

    CloudFabric3.0超融合数据中心网络全新升级,携手共筑算力新联接

    在华为中国合作伙伴大会2024期间,华为举办了以“超融合数据中心网络,携手共筑算力新联接”为主题的数据中心网络分论坛。
    的头像 发表于 03-19 09:18 344次阅读

    多业务光端机在数据中心的应用:提升网络效率的关键

    随着云计算、大数据等技术的迅猛发展数据中心已成为现代社会不可或缺的基础设施。数据中心内部网络的高效、稳定运行对于整个数据中心的性能至关重要
    的头像 发表于 02-23 14:09 233次阅读

    华为发布2024数据中心能源十大趋势

    今日,华为举办2024数据中心能源十大趋势发布会并发布《白皮书》。发布会上,华为数据中心能源领域总裁尧权定义未来数据中心的三大特征:安全可靠、融合
    的头像 发表于 01-15 17:29 526次阅读

    浅谈云数据中心、智算数据中心、超算数据中心区别,分布式电源是趋势

    数据中心、智算数据中心、超算数据中心三者区别,分布式电源是趋势 大家都在聊云数据中心、智算数据中心
    的头像 发表于 11-29 14:20 827次阅读
    浅谈云<b class='flag-5'>数据中心</b>、智算<b class='flag-5'>数据中心</b>、超算<b class='flag-5'>数据中心</b>区别,分布式电源是<b class='flag-5'>趋势</b>

    HNS 2023 | 华为数据中心网络软硬实力全新升级,赋AI时代新动能

    、意大利、西班牙等多个国家和地区的100多位客户和伙伴共聚一堂,共同讨论未来数据中心网络发展和技术创新。会上,华为全新升级CloudFabric3.0超融合数据中心
    的头像 发表于 10-27 19:35 262次阅读
    HNS 2023 | 华为<b class='flag-5'>数据中心</b><b class='flag-5'>网络</b>软硬实力全新升级,赋AI时代新动能

    GITEX Global 2023 | 超融合数据中心网络,赋AI时代新动能

    王武伟发表了“超融合数据中心网络,赋AI时代新动能”的主题演讲,他指出,随着AI应用加速、云化架构不断升级,数据中心已经迈入了智能算力和通用算力基础设施共建共维的新时代。 华为数据通信
    的头像 发表于 10-17 23:30 279次阅读

    华为全联接大会2023|超融合数据中心网络全新升级,赋AI时代新动能

    [中国,上海,2023年9月20日] 在华为全联接大会2023期间,华为全新升级超融合数据中心网络解决方案,以超强性能、超稳可靠、超快部署、超智运维四大能力,为通算和智算提供大规模、高吞吐、高可靠
    的头像 发表于 09-21 19:25 419次阅读

    HPC和数据中心融合网络面临的技术挑战

    随着大型DC采用具有更高带宽需求的高性能加速器,数据中心网络通过支持远程直接内存访问(RDMA)、RDMA融合以太网(RDMA over converged Ethernet,RoCE)、互联网广域RDMA协议(iWarp)等新
    发表于 09-15 09:56 544次阅读
    HPC和<b class='flag-5'>数据中心</b><b class='flag-5'>融合</b><b class='flag-5'>网络</b>面临的技术挑战

    ODCC 2023 | 超融合数据中心网络,赋AI时代新动能

    、专家学者、行业大咖的产业盛会上,华为数据通信产品线数据中心网络领域总裁王武伟发表了主题为《超融合数据中心网络,赋AI时代新动能》的主论坛演
    的头像 发表于 09-14 18:15 355次阅读

    ODCC 2023 | 华为数据中心网络荣膺2023开放数据中心大会三项大奖

    。能获得此三项大奖,无疑是体现了业界对华为数据中心网络领先地位和技术实力的认可。 ODCC作为全球数据中心行业标杆级盛会,至2014年成立以来,每年吸引国内外超万名专家参会,已发布数百项行业重磅研究成果,是全球
    的头像 发表于 09-13 19:35 458次阅读

    融合数据中心解决方案

    电子发烧友网站提供《融合数据中心解决方案.pdf》资料免费下载
    发表于 08-29 09:52 0次下载
    <b class='flag-5'>融合数据中心</b>解决方案

    企业数据中心融合的现实

    电子发烧友网站提供《企业数据中心融合的现实.pdf》资料免费下载
    发表于 08-28 09:34 0次下载
    企业<b class='flag-5'>数据中心</b>超<b class='flag-5'>融合</b>的现实

    MWCSH 2023 | 华为专线+Managed DCN数据中心网络方案,加快企业数字化转型

    2023MWC上海期间,华为举行了产品与解决方案创新实践发布会,针对运营商,华为推出超融合数据中心网络CloudFabric3.0解决方案在私有云和机架出租场景的应用,提供基于IP专线叠加
    的头像 发表于 07-07 18:40 428次阅读
    MWCSH 2023 | 华为专线+Managed DCN<b class='flag-5'>数据中心</b><b class='flag-5'>网络</b>方案,加快企业数字化转型

    华为中国合作伙伴大会2023 | 超融合数据中心网络,携手共赋算力时代新动能

    点击“阅读原文”,了解更多大会信息! 原文标题:华为中国合作伙伴大会2023 | 超融合数据中心网络,携手共赋算力时代新动能 文章出处:【微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 05-11 20:16 376次阅读
    华为中国合作伙伴大会2023 | 超<b class='flag-5'>融合数据中心</b><b class='flag-5'>网络</b>,携手共赋算力时代新动能