0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

转载|数据中心网络持续进阶,超融合以太技术正当其时

华为数据通信 来源:未知 2022-12-16 19:15 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

7ca2e142-7d32-11ed-8abf-dac502259ad0.png

随着数字经济进入“算力时代”,在算力蓬勃发展的同时,打造一张与时俱进的高水平数据中心网络显得尤为重要。近日,华为联合中国信息通信研究院共同发布的数据中心超融合以太技术白皮书,就为我们擘画了一张高水平数据中心网络的新蓝图。

决定一个木桶能装多少水的往往是最短的那块木板,那么,算力时代的数据中心最短的那块木板是什么呢?

7de18a18-7d32-11ed-8abf-dac502259ad0.png

数据中心网络是实现数据传输的重要通道,也是推动数据中心算力服务能力升级,实现算力充分释放的关键。数据中心网络主要负责连接用户终端以及数据中心内部的计算、存储等设备,保障数据通信网络链路上高效、安全的传输。

《中国综合算力指数(2022年)》报告中明确指出计算、存储和网络是算力最重要的组成部分,在数字经济发展新时期,要更加关注构建集算力、存力和运力于一体的数据中心。由于网络设备算力水平无法满足要求而引发的“木桶效应”,可能会拉低整个数据中心的实际算力水平。因此,要提升数据中心算力服务能力,就需要进一步提升数据中心网络性能。

IDC分析报告显示,以太网是当前以及未来数据中心的主要技术,当前数据中心以太网占比已经接近95%。众所周知,标准以太网络采用尽力而为的工作机制,天然有丢包的特性对存储的性能稳定性带来了极大的影响。算力时代,0.1%的丢包会导致50%的算力损失。因此传统以太网已经不适应现在算力时代数据中心的要求。推动以太网进化从而搭建先进网络架构的时代已然来临,以太网正在从“尽力而为”型向“性能敏感”型网络演进。

从网络架构、带宽、时延、可靠性、应用加速、网络技术演进六个方面来看,数据中心网络正在从传统以太、无损以太向超融合以太升级。

7e23ad8a-7d32-11ed-8abf-dac502259ad0.png

具体来看,超融合以太技术具备五大优势。

01 网络级负载均衡算法,释放AI算力

AI集群训练过程中,参数通过高速互联网络在不同的服务器间进行同步交互,这些通信流量具有共同的特征:流量成周期性、流数量少、流量长连接、并行任务间有强实时同步性要求,通信效率取决于最慢的节点,并且AI集群训练场景下,传输的数据量较大。上述的流量特征导致网络较易出现负载分担不均、整网吞吐下降的问题,从而影响AI集群训练的性能。

现有创新的网络均衡技术NSLB是面向AI训练场景量身打造的,根据该场景下的流量特征,将搜集到的整网信息作为创新算路算法的输入,从而得到最优的流量转发路径,实现AI训练场景下整网流量100%的均衡度和AI训练性能的提升。

02 端网协同拥塞控制实现存储算力优化

高性能计算、AI模型训练等应用场景,以及数据中心网络/云网络在架构上的发展(资源池化),均要求网络传输排队时延和吞吐上的进一步性能提升。

端网协同拥塞控制技术采用“端(智能网卡)网(交换机)”配合的方式达到交换机上的近似“零排队”时延,使得端到端传输时延接近静态时延。

端网协同主要根据网络可用带宽,调整端侧发送速率,这种源端与交换机之间的密切配合使网络中的队列近乎为空,同时能保持接近100%的利用率。和当前业界主流的协同算法相比,端网协同算法C-AQM能够把排队时延控制得极低,接近于0,同时瓶颈链路达到接近100%利用率。

03

数据面快速收敛
提供分布式数据库高可靠算力

随着业务发放速度的不断加快,以及引入了VM、容器等虚拟化技术,网络流量的不确定性增加。而当前运维手段有限,仍然依靠传统网管和命令行方式进行查看、监控,分钟级的网络监控已经无法满足业务秒级体验保障的要求,往往被动感知故障。故障发生后,定位仍主要依赖专家经验,利用多种辅助工具,逐段定界、逐流分析、抓包定位,效率十分低下。

网络故障收敛慢对业务稳定性产生的负面影响,尤其会造成高性能数据库类业务性能的严重下降。为了解决上述故障收敛慢的问题,华为提出了一种基于网络设备数据面的链路故障快速自愈技术,称为DPFF(Data Plane Fast Failover)。该技术基于转发芯片的硬件可编程能力构建。DPFF从传统的基于控制面软件协议的收敛方式演进到基于数据面硬件极速感知故障和快速换路的收敛方式,并且基于数据面硬件实现远程通告和快速换路,可达到亚毫秒级(<1ms)的收敛速度,将对业务性能的影响降至最低。该技术为高性能数据库、存储以及超算等关键应用提供了极致的高可靠性保证和稳定性体验。

测试结果表明,DPFF收敛方案比传统的OSPF收敛方案在链路故障下,每100ms周期内完成交易事务数量下降减少60%~80%。

04

网络架构创新
构建E/10E级超大规模算力集群

5G、万物互联智能时代产生海量数据,智能训练大模型部署,国家新一代超级计算中心的规划建设……爆炸式增长的算力需求与实际算力增长速度之间存在巨大鸿沟。在后摩尔时代,通过构建大规模并行计算集群满足不断增长的算力需求,如10E级计算集群其计算服务器规模达到20万以上。

计算集群网络传统采用CLOS架构,以业界常见的64口盒式交换机为例,3级CLOS架构,最大可支持6.5万服务器接口,不满足10E级计算集群规模诉求。如果增加网络层数则会带来网络跳数增加,通信时延不满足业务需求。

业界针对该问题开展了多样的架构研究和新拓扑的设计。直连拓扑在超大规模组网场景下,因为网络直径短,具备低成本、端到端通信跳数少的特点。以64口盒式交换机构建10万个节点超大规模集群为例,传统的CLOS架构需要部署4层组网,端到端通信最大需要跨7跳交换机。使用无阻塞直连拓扑组网,端到端交换机转发跳数最少只3跳,交换机台数(整体投资)下降40%。

05

业务级SLA保障
实现数据中心一张网

为了解决这个难题,华为提出超融合智能无损网络方案,将业务级SLA智能保障技术引入到交换机中,用iLossless智能无损算法代替专家经验,对网络流量的变化进行基于队列级捕获和预测,实现细粒度动态差异化优化。结合不同业务的流量变化情况以及业务特征,实现不同业务流量差异化动态优化保障。

根据实验室测试,采用3台华为交换机组成2级Spine-Leaf组网,每台接入层交换机下挂16台100GE服务器,Spine与每个Leaf之间采用4个400G互联(1:1收敛)。在计算和存储benchmark流量混跑的测试环境下,智能无损算法相比于传统算法配置,在保持存储持平前提下,能够有效降低计算任务的总体完成时间,在测试场景中实现最高20%以上的计算时延降低。

随着数字产业智能化向智能世界发展,未来数据中心将朝着多云异构算力演进,要构建强大的算力,需要各类资源高度协同,深度融合。新算力,对网络提出了新的诉求,下一代数据中心需要超融合以太技术给新算力进行新的赋能,以应对新的挑战。作为数据中心动脉血管新的路标,一张开放、自主的超融合以太网络将多维度与各类算力资源协同,全面提升网络性能,通过网络全栈技术的持续创新,为新算力赋能,释放更高算力,从而助力“高算力、高安全、高效能、高可靠”的新型算力中心建设。


原文标题:转载|数据中心网络持续进阶,超融合以太技术正当其时

文章出处:【微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    218

    文章

    35800

    浏览量

    260760

原文标题:转载|数据中心网络持续进阶,超融合以太技术正当其时

文章出处:【微信号:Huawei_Fixed,微信公众号:华为数据通信】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    未来的数据中心需要怎样的布线方案

    随着数字时代的发展,数据中心对能源效率和环境可持续性的需求日益迫切。为了满足这些日益增长的需求,数据中心必须变得更加环保和可持续。光纤布线已成为实现可
    的头像 发表于 11-20 10:13 57次阅读

    CPO技术加速未来数据中心网络发展

    生成式 AI 的快速普及正在推动数据中心网络需求的指数级增长。光电一体化封装(CPO)技术以其高带宽密度、低功耗和可靠性优势,成为满足 AI 时代网络性能需求的关键方案。CPO 通过光
    的头像 发表于 09-23 14:24 1243次阅读

    物联网数据中心是什么?有什么功能?

    物联网数据中心是集成和管理物联网设备数据的核心平台,具备数据采集、处理、存储、分析、可视化及安全管控等功能,其本质是通过技术融合实现物理世界
    的头像 发表于 09-22 17:14 696次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    合作案例,成为AI数据中心升级的关键推动者。 一、技术实力:AI光模块的研发与量产先锋 睿海光电作为全球AI光模块的领先品牌,专注于为数据中心
    发表于 08-13 19:01

    加速AI未来,睿海光电800G OSFP光模块重构数据中心互联标准

    定义数据中心互联的新范式。 一、技术实力:800G OSFP光模块的卓越性能表现 睿海光电800G OSFP光模块系列采用行业领先的PAM4调制技术,具备以下核心优势: 超高速率 :单模传输速率达
    发表于 08-13 16:38

    中型数据中心中的差分晶体振荡器应用与匹配方案

    核心网络、存储、通信与计算节点。 通过精准选型与合理布线,这些高性能差分晶体振荡器可有效提升数据中心设备间的时钟一致性与传输效率,是构建稳定、可靠、高吞吐量数据中心的关键器件。
    发表于 07-01 16:33

    小型数据中心晶振选型关键参数全解

    小型数据中心的定义与应用 小型数据中心通常是为中小型企业、边缘计算、物联网(IoT)设备及其他特定业务需求提供计算、存储和网络服务的设施。与大型数据中心相比,小型
    发表于 06-11 13:37

    Aginode安捷诺引领数据中心绿色节碳进阶——不能放过的细微之处

    在满足AI算力的同时,其能耗也持续攀升。据统计,2024年全球数据中心碳排放高达1.8亿吨,总耗电量高达4,150亿千瓦时。在这场算力与能耗的竞赛中,网络传输系统
    的头像 发表于 05-07 09:57 516次阅读
    Aginode安捷诺引领<b class='flag-5'>数据中心</b>绿色节碳<b class='flag-5'>进阶</b>——不能放过的细微之处

    宁畅亮相2025中国数据中心液冷技术大会

    日前,2025中国数据中心液冷技术大会在杭州落下帷幕,国内主流数据中心与液冷技术企业齐聚一堂,共同探讨“液冷深融合”话题。
    的头像 发表于 04-16 09:12 1153次阅读

    适用于数据中心和AI时代的800G网络

    随着人工智能(AI)技术的迅猛发展,数据中心面临着前所未有的计算和网络压力。从大语言模型(LLM)训练到生成式AI应用,海量数据处理需求推动了网络
    发表于 03-25 17:35

    华为携手中控技术打造全国数据中心网络创新示范项目

    华为中国合作伙伴大会2025期间,华为与中控技术股份有限公司(以下简称“中控技术”)联合发布星河AI数据中心网络优秀实践样板点。此次合作旨在打造全国
    的头像 发表于 03-24 14:51 801次阅读

    华为全新升级星河AI数据中心网络

    在华为中国合作伙伴大会2025期间,以 “星河AI数据中心网络,赋AI时代新动能”为主题的数据中心网络分论坛圆满落幕。本次论坛汇聚了来自全国的300多位客户和伙伴,共同探讨
    的头像 发表于 03-24 14:46 852次阅读

    优化800G数据中心:高速线缆、有源光缆和光纤跳线解决方案

    随着技术的飞速发展,数据中心正在从100G和400G演进到800G时代,对高速数据传输的需求与日俱增。因此,选择高效且可靠的布线解决方案对于800G数据中心至关重要。本文将深入探讨80
    发表于 03-24 14:20

    施耐德电气即将亮相2025中国数据中心液冷技术大会

    以“液冷深融合”为主题,由CDCC与益企研究院共同主办的第三届中国数据中心液冷技术大会即将召开。会上将汇集多方数据中心行业的资深专家、研究学者与技术
    的头像 发表于 03-21 16:47 2221次阅读

    数据中心发展与改造

    全球多数数据中心基础设施已六年,能耗高而效率低。随着AI的发展,企业正致力于整合与提升能效的现代化改造。同时数据中心呈现规模化、高密化、绿色化发展趋势。19821800313 一、目前数据中
    的头像 发表于 02-28 16:50 743次阅读
    <b class='flag-5'>数据中心</b>发展与改造