0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

超融合数据中心网络架构的典型特征与价值

架构师技术联盟 来源:全栈云技术架构 作者:郭亮 2022-12-19 10:53 次阅读

介绍了数据中心网络对于算力的意义,归纳出影响数据中心全以太化演进的因素,以及超融合数据中心网络架构的典型特征与价值。

结合业界在超融合数据中心网络技术中的实践与探索,对超融合数据中心网络架构的未来发展进行了展望。数据中心内数据处理包括数据的存储、计算和应用三个环节,分别对应三大资源区:

数据存储区:存储服务器内置不同的存储介质,如机械硬盘、闪存盘(SSD)、蓝光等,对于数据进行存储、读写与备份,存储节点间通过存储网络互联。

高性能计算区:服务器较少虚拟化,配置CPUGPU 等计算单元进行高性能计算或 AI 训练,服务器节点间通过高性能计算网络互联。

通用计算区:服务器大量使用 VM或容器等虚拟化技术,通过通用计算网络(又称为应用网络、业务网络、前端网络),与外部用户终端对接提供服务。

在这个持续循环的过程中,网络就像联接计算和存储资源的中枢神经,贯穿数据处理的全生命周期。数据中心算力水平不仅取决于计算服务器和存储服务器的性能,很大程度上也受到网络性能的影响。如果网络算力水平无法满足要求,则会引发“木桶效应”拉低整个数据中心的实际算力水平。

7364b9ca-7ed6-11ed-8abf-dac502259ad0.png

数据中心算力是数据中心的服务器通过对数据进行处理后实现结果输出的一种能力。在服务器主板上,数据传输的顺序依次为 CPU、内存、硬盘和网卡,若针对图形则需要 GPU。所以,从广义上讲,数据中心算力是一个包含计算、存储、传输(网络)等多个内涵的综合概念,是衡量数据中心计算能力的一个综合指标。

提升网络性能可显著改进数据中心算力能效比

定 义 数 据 中 心 算 效(CE,Computational Efficiency)为数据中心算力与所有 IT 设备功耗的比值,即“数据中心 IT 设备每瓦功耗所产生的算力”(单位:FLOPS/W):

737f62c0-7ed6-11ed-8abf-dac502259ad0.png

在服务器规模不变的情况下,提升网络能力可显著改善数据中心单位能耗下的算力水平。ODCC2019 年针对基于以太的网算一体交换机的测试数据表明,在 HPC场景同等服务器规模下,相对于传统 RoCE(基于融合以太的远程内存直接访问协议)网络,网算一体技术可大幅度降低HPC 的任务完成时间,平均降幅超过 20%。即:单位时间提供的算力提升 20%,同等算力下能耗成本降低 20%。

在存储网络场景,采用基于 NVMeover Fabric 的无损以太网络,可实现同等服务器规模 下, 存 储 IOPS性能相对于传统 FC网络最高可提升87%,这也将大幅减少业务端到端运行时长。由此可见,重构数据中心网络可以实现在单位ICT 能耗下对算力的极大提升,更好满足绿色节能数据中心的建设要求。在大算力需求持续高涨的情况下,为企业带来更加直接的价值。

存储全闪存化驱动 RoCE 产业生态发展

相比 HDD,SSD 介质在短时间内将存储性能提升了近 100 倍,实现了跨越式的发展,而 FC 网络技术无论是从带宽或时延已成为存储网络场景的系统瓶颈,存储业务开始呼唤更快、更高质量的网络。为此,存储与网络从架构和协议层进行了深度重构,NVMeoverFabric 应运而生。

在新一代存储网络技术的选择上,业界存在NVMeoverFC、NVMeoverRoCE等多条路径。然而,FC 网络始终无法突破三大挑战:

第一、FC 网络技术及互通性相对封闭,整体产业生态与连续性面临着很大挑战;

第二、由于产业规模受限,FC 技术的发展相对迟缓,目前最大带宽只有 32G 且已长达 6 年没有出现跨代式技术;

第三、同样由于产业规模受限,FC 网络运维人员稀缺,能够运维 FC 网络的技术人员不足以太网络维护人员的 1/10。这造成 FC网络运维成本居高不下,故障解决效率低下。

相比FC网络,NVMeoverRoCE 技术无论从产业规模、技术活跃度、架构扩展性、开放生态、和多年 SDN(Software-DefinedNetwork,软件定义网络)管理运维能力积累上都具有明显的优势,已成为下一代存储网络技术的最优选择。

CPU/GPU 去PCIe化,直出以太以获取极致性能

随着人工智能技术的快速发展,PCIe 总线瓶颈凸显。PCIe 是英特尔在 2001 年提出的高速串行计算机扩展总线标准,接口速度决定了 CPU 间的通信速度,而接口数量则决定了主板的扩展性。

739e1fee-7ed6-11ed-8abf-dac502259ad0.png

当前,占据数据中心服务器 CPU 市场绝对地位的 Intelx86 架构普遍使用 PCIe3.0,PCIe3.0 单通道仅支持 8GT/s 的传输速率,且通道扩展数量有限。在 AI 超算服务器已经全面迈入 100GE 网卡的时代,PCIe3.0 架构速率成为大吞吐高性能计算场景下的性能瓶颈。

为此,业界开始探索计算单元去 PCIe 之路。2019 年,Habana 公司发布了在 AI 芯片处理器片内集成 RoCE 以太端口的处理器 Gaudi,Gaudi 将10 个基于融合以太网的 RoCE-RDMA100GE 端口集成到处理器芯片中,每个以太网端口均支持 RoCE功能,从而让 AI 系统通过标准以太网,在速度和端口数方面获得了几乎无限的可扩展性,提供了过去的芯片无法实现的可扩展能力。同年,华为的达芬奇芯片昇腾 910 集成了 RoCE 接口,通过片内RoCE 实现节点间直接互联,为构建横向扩展(ScaleOut)和纵向扩展(ScaleUp)系统提供了灵活高效的方法。

IPv6 大规模部署,产业政策加速以太化进程

IPv6 即互联网协议第6版,是互联网工程任务组设计的用于替代 IPv4 的下一代 IP 协议。IPv6 不仅能解决网络地址资源数量的问题,而且还解决了多种接入设备连入互联网的障碍问题,具有更大的地址空间和更高的安全性。从人人互联到万物智联,网络对 IP 地址的需求量指数级增加;数据中心作为智能世界的算力中枢,IPv6 成为互联的基础诉求。

超融合数据中心网络架构与核心特征

下一代超融合数据中心网络需具备如下特征,实现三个层面的融合:

73e55b70-7ed6-11ed-8abf-dac502259ad0.png

• 全无损以太网络,实现流量承载融合:通用计算、存储、高性能计算网络统一承载在 0 丢包以太网技术栈上,实现大规模组网协议统一,TCP、RoCE 数据混流运行,打破传统分散架构限制;

• 全生命周期自动管理,实现管控析融合:基于统一网络数字孪生底座,加以大数据及 AI 手段,实现规划、建设、维护、优化全生命周期自动化,代替人工处理大量重复性、复杂性的操作,并可基于海量数据提升网络预测和预防能力,打破多工具多平台分散管理限制;

• 全场景服务化能力,实现全场景融合:抽象数据中心网络“物理网络服务”、“逻辑网络服务”、“应用服务”、“互联服务”、“网络安全服务”、“分析服务”等核心服务能力,基于开放服务化架构实现多厂家、离线与在线数据的灵活接入。满足多私有云、多公有云、混合云、以及丰富行业场景下的网络统一编排需求,支持算力跨云灵活智能调度,打破区域与场景限制。

超融合数据中心网络技术最佳实践

基于全无损以太的超融合数据中心网络技术正在迅猛发展,在存储、高性能计算、通用计算等场景得到了较好地商业实践。

在无损网络方向,标准以太网络虽然有 QoS 以及流量控制能力,但执行机制简单粗暴,通常通过静态水线控制。静态水线无法适应千变万化的存储业务流量,设置过高可能引发丢包,设置过低则无法充分释放存储的 IOPS 性能。为了解决这个难题,业界将 AI 机制引入到交换机中,一方面交换机可毫秒级感知流量变化,另一方面基于海量存储流量样本持续训练获得的 AI 算法可通过智能动态调整队列水线实现亚秒级流量精准控制,最大程度释放存储性能。

74291a54-7ed6-11ed-8abf-dac502259ad0.png

在可靠性方面,业界正在推动网络与存储在故障场景下的联动标准化方案。通过交换机毫秒级主动通告故障,并联动存储协同倒换,可支持亚秒级的网络故障倒换,真正实现网络单点故障存储业务无感知。

7440fb10-7ed6-11ed-8abf-dac502259ad0.png

在网络易用性与运维方面,业界发布了以太网络环境下的存储即插即用最佳实践,相比传统以太逐节点、逐 ZONE 手工配置方式,可以做到业务单点配置、全网同步,实现存储设备的即插即用。

746fd732-7ed6-11ed-8abf-dac502259ad0.png

由于传统 FC 网络当前主流商用端口带宽只有8G,最大端口带宽只有 32G,同城 100G 存储传输往往需要 4~10 条以上的链路。相比之下,以太网络 100G/400G 接口能力已经成熟商用,可以大幅减少同城链路资源。然而,在同城双活及灾备场景中,跨城传输时延增大,短距流控反压机制存在严重的滞后性。以同城 70 公里传输场景为例,RTT(Round-TripTime)时延往往大于 1 毫秒,导致传统流控机制彻底失效。网络时延由四部分组成:

动态时延:主要由排队时延产生,受端口拥塞影响;

静态时延:主要包括网络转发(查表)时延和转发接口时延,一般为固定值,当前以太交换静态时延远高于超算专网;

网络跳数:指消息在网络中所经历的设备数;

入网次数:指消息进入网络的次数。新一代无损以太网络在动态时延、静态时延、网络跳数以及入网次数几个方面均做出了系统性优化,大幅优化了网络性能,可满足高性能计算场景的实际诉求。

传统的以太交换机在转发层面,因需要考虑兼容性和众多协议支持等问题,导致转发流程复杂、转发时延较大。与此同时,以太查表算法复杂、查表时延大,导致整体转发处理时延长。目前业界主流商用以太交换机的静态转发时延大约在 600ns-1us 左右。

748fc3b2-7ed6-11ed-8abf-dac502259ad0.png

高性能计算场景的流量关注静态时延的同时需要支持超大规模组网。然而传统的 CLOS 架构作为主流网络架构,主要关注通用性,牺牲了时延和性价比。业界针对该问题开展了多样的架构研究和新拓扑的设计。

74bf3ed0-7ed6-11ed-8abf-dac502259ad0.png

当前数据中心网络架构设计大多基于工程经验,不同搭建方式之间难以选择,缺乏理论指导和统一性设计语言。网络拓扑性能指标繁多,不同指标之间相互制约,指标失衡很难避免。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • cpu
    cpu
    +关注

    关注

    68

    文章

    10442

    浏览量

    206549
  • SSD
    SSD
    +关注

    关注

    20

    文章

    2689

    浏览量

    115493
  • 数据中心
    +关注

    关注

    15

    文章

    4187

    浏览量

    70007

原文标题:超融合数据中心网络解决方案

文章出处:【微信号:架构师技术联盟,微信公众号:架构师技术联盟】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    传统数据中心架构和叶脊架构网络解决方案

    网络带宽- 特别是满足东西向流量的要求(数据中心中大部分流量是东西向的)。 注意:东西向流量表示数据中心内的服务器/应用之间的流量,而南北向流量表示出入数据中心的流量。
    发表于 03-21 10:52 160次阅读
    传统<b class='flag-5'>数据中心</b><b class='flag-5'>架构</b>和叶脊<b class='flag-5'>架构</b><b class='flag-5'>网络</b>解决方案

    CloudFabric3.0超融合数据中心网络全新升级,携手共筑算力新联接

    在华为中国合作伙伴大会2024期间,华为举办了以“超融合数据中心网络,携手共筑算力新联接”为主题的数据中心网络分论坛。
    的头像 发表于 03-19 09:18 342次阅读

    华为发布2024数据中心能源十大趋势

    今日,华为举办2024数据中心能源十大趋势发布会并发布《白皮书》。发布会上,华为数据中心能源领域总裁尧权定义未来数据中心的三大特征:安全可靠、融合
    的头像 发表于 01-15 17:29 525次阅读

    HNS 2023 | 华为数据中心网络软硬实力全新升级,赋AI时代新动能

    [德国,慕尼黑,2023年10月26日]华为数通创新峰会2023欧洲站期间,主题为“CloudFabric3.0,超融合数据中心网络,赋AI时代新动能”的数据中心网络分论坛备受瞩目,来
    的头像 发表于 10-27 19:35 260次阅读
    HNS 2023 | 华为<b class='flag-5'>数据中心</b><b class='flag-5'>网络</b>软硬实力全新升级,赋AI时代新动能

    GITEX Global 2023 | 超融合数据中心网络,赋AI时代新动能

    王武伟发表了“超融合数据中心网络,赋AI时代新动能”的主题演讲,他指出,随着AI应用加速、云化架构不断升级,数据中心已经迈入了智能算力和通用算力基础设施共建共维的新时代。 华为
    的头像 发表于 10-17 23:30 275次阅读

    华为全联接大会2023|超融合数据中心网络全新升级,赋AI时代新动能

    [中国,上海,2023年9月20日] 在华为全联接大会2023期间,华为全新升级超融合数据中心网络解决方案,以超强性能、超稳可靠、超快部署、超智运维四大能力,为通算和智算提供大规模、高吞吐、高可靠
    的头像 发表于 09-21 19:25 417次阅读

    HPC和数据中心融合网络面临的技术挑战

    随着大型DC采用具有更高带宽需求的高性能加速器,数据中心网络通过支持远程直接内存访问(RDMA)、RDMA融合以太网(RDMA over converged Ethernet,RoCE)、互联网广域RDMA协议(iWarp)等新
    发表于 09-15 09:56 544次阅读
    HPC和<b class='flag-5'>数据中心</b><b class='flag-5'>融合</b><b class='flag-5'>网络</b>面临的技术挑战

    ODCC 2023 | 超融合数据中心网络,赋AI时代新动能

    、专家学者、行业大咖的产业盛会上,华为数据通信产品线数据中心网络领域总裁王武伟发表了主题为《超融合数据中心网络,赋AI时代新动能》的主论坛演
    的头像 发表于 09-14 18:15 355次阅读

    融合数据中心解决方案

    电子发烧友网站提供《融合数据中心解决方案.pdf》资料免费下载
    发表于 08-29 09:52 0次下载
    <b class='flag-5'>融合数据中心</b>解决方案

    企业数据中心融合的现实

    电子发烧友网站提供《企业数据中心融合的现实.pdf》资料免费下载
    发表于 08-28 09:34 0次下载
    企业<b class='flag-5'>数据中心</b>超<b class='flag-5'>融合</b>的现实

    5G:云网络的产业基础集成架构

    是5G的一个关键趋势应用程序。基于云-网络融合架构帮助企业实现数字化和智能化转型挑战包括: •数据传输成本:传统上,核心服务器集群是部署在远程数据
    发表于 08-04 07:06

    MWCSH 2023 | 华为专线+Managed DCN数据中心网络方案,加快企业数字化转型

    2023MWC上海期间,华为举行了产品与解决方案创新实践发布会,针对运营商,华为推出超融合数据中心网络CloudFabric3.0解决方案在私有云和机架出租场景的应用,提供基于IP专线叠加
    的头像 发表于 07-07 18:40 426次阅读
    MWCSH 2023 | 华为专线+Managed DCN<b class='flag-5'>数据中心</b><b class='flag-5'>网络</b>方案,加快企业数字化转型

    什么是超融合数据中心网络

    IT 架构层面:从本地集中式走向云端分布式 当前一些新兴的应用,如区块链、工业仿真、人工智能、大数据等,基本都建立在云计算的底座中。
    发表于 05-26 12:45 511次阅读
    什么是超<b class='flag-5'>融合数据中心</b><b class='flag-5'>网络</b>

    融合数据中心网络发展及趋势

    数据中心内部有三类典型的业务:通用计算(一般业务)、高性能计算(HPC)业务和存储业务。每类业务对于网络有不同的诉求,比如:HPC业务的多节点进程间通信,对于时延要求非常高;而存储业务对可靠性诉求非常高
    的头像 发表于 05-19 11:16 805次阅读
    超<b class='flag-5'>融合数据中心</b><b class='flag-5'>网络</b>发展及趋势

    华为中国合作伙伴大会2023 | 超融合数据中心网络,携手共赋算力时代新动能

    点击“阅读原文”,了解更多大会信息! 原文标题:华为中国合作伙伴大会2023 | 超融合数据中心网络,携手共赋算力时代新动能 文章出处:【微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 05-11 20:16 376次阅读
    华为中国合作伙伴大会2023 | 超<b class='flag-5'>融合数据中心</b><b class='flag-5'>网络</b>,携手共赋算力时代新动能