0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

国产InfiniBand网络有多强?从此中国架起AI高速网络!

晶芯观察 来源:未知 作者:黄晶晶 2026-03-20 11:39 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着AI大模型训练与高通量推理计算需求持续扩大,万卡级乃至更大规模的算力集群正成为主流形态。研究表明,在大规模分布式训练中,网络通信耗时占比已达到30-50%,网络性能直接影响算力系统的整体效率。

算力网络是智算集群的核心基础条件之一。超高带宽、极低延时、无损传输和扩展是超大规模智算集群对网络提出的新要求。

中科曙光自2022年开始进行RDMA的技术研究,在近日宣布实现国产高端原生RDMA技术重大突破,正式发布首款全栈自研400G无损高速网络——scaleFabric。该产品基于原生RDMA架构,从底层的112G SerDes IP、硬件设备到上层的管理软件实现100%自研,填补了国内数据中心高速网络领域的空白,以比肩国际顶尖同类产品的性能表现,为超大规模智算集群铺就了一条高带宽、低时延、真无损、超可靠的“算力大动脉”。

尤其在大规模AI训练系统中,网络互联能力已成为影响算力利用率的关键变量。scaleFabric的发布,标志着国产智算网络在高端RDMA领域实现重大突破。

自研112G SerDes IP、两款高速网络芯片、三款网卡/交换机

中科曙光scaleFabric是国内首款原生无损RDMA高速网络,面向超大规模智算集群设计,从核心关键IP、交换芯片、网卡到交换机、驱动与管理软件均实现自主研发,构建起从硬件到软件的完整技术体系。

scaleFabric的核心是自主研发的两颗高速网络芯片即scaleFabric400网卡芯片和交换芯片。主要涵盖三款产品scaleFabric400单口标准网卡,scaleFabric400 1U800G液冷交换机,以及scaleFabric400 2U 800G风冷交换机。





性能方面,scaleFabric400网卡基于PCIe5.0接口端口带宽达400Gbps,端到端通信时延低至0.9微秒;scaleFabric400交换机单端口带宽达800Gbps,整机交换容量可达双向64Tbps,交换时延约260纳秒,支持800Gbps×40或400Gbps×80端口扩展。这一性能组合,可充分满足万卡级AI训练集群对高带宽、低时延网络的极致需求。

稳定性与扩展能力上,产品采用基于信用的无损流控机制,从根源规避拥塞丢包风险,链路故障恢复时间小于1毫秒,已支撑近万卡集群持续稳定运行验证超10个月。

英伟达NDR相比,交换机端口密度提升25%,网卡最大QP数支持提升100%。



在扩展性方面,传统上InfiniBand的空间能支持到16位,使得其所支持最大的组网规模只能做到不到5万卡,这难以满足当前算力中心对于10万卡集群的需求。中科曙光通过重点优化扩展性,可以将scaleFabric网络规模支持到11.4万卡,比传统IB提升2.33倍,同时,也利用端口密度优势,整体组网成本可以下降30%。实测数据,基本上做到和NDR相当的水平,部分数据甚至优于NDR系列,在性能上已经完全具备和国际竞争水平。





生态建设方面,注重与IB的生态兼容,scaleFabric提供原生接口,可以全面兼容各种通信库,无缝兼容各种HPC和AI应用、大模型训练,可以在不改代码的情况下,直接迁移到基于scaleFabric的系统上,做到应用无感。同时,在网络管理和维护方面,都兼容IB用户的使用习惯,方便将过去IB用户对于IB的使用经验无缝迁移到scaleFabric。针对新型智算场景例如IDMA等新型模式,scaleFabric也能做到支持,更好地帮助用户始终站在AI创新的最前沿。

为何选择InfiniBand路线?


长期以来,从高速SerDes IP、核心芯片到IB网卡、IB交换机等设备,InfiniBand相关产业链基本被海外厂商垄断。随着AI算力需求快速增长及数据中心网络持续演进,自主高性能RDMA网络正成为产业关注焦点。

在大规模智算集群领域,RDMA(远程直接内存访问)网络已成为算力中心的基本需求,凭借零丢包、高带宽、低延迟等特征,可极大提升通信效率。其中,InfiniBand凭借低时延与原生无损传输能力,在全球顶级超算与AI集群中被广泛采用。根据TOP500榜单,目前全球约60%的高性能计算系统采用InfiniBand网络架构。

中科曙光高级副总裁李斌表示,当前400G端口带宽网络逐渐成为HPC/AI集群网络主流,未来向800G持续演进。在这一领域,RDMA网络成为算力中心的基本需求,成为整个AI网络的事实上的标准。在这一领域,实际上存在着两大技术路线,分别是InfiniBand和RoCE,虽然当前有一个呼声,由互联网大厂推动用RoCE取代InfiniBand,但是实际上InfiniBand的技术路线在AI/HPC中有不可替代的优势,是真正的无损网络,而无损的特性对RDMA性能的发挥具有优势,便于更好对网络进行管理。



“在RDMA网络中,少量丢包会造成性巨大的波动,这也是为什么曙光一直在坚持走InfiniBand路线的原因。相比之下,RoCE需要大量的调优等一系列的工作,才能保证达到无损的效率。InfiniBand天然的具备无损性质。”因此,scaleFabric采用与InfiniBand相同的基于信用的机制和链路机制,使得无论应用如何调整,都可以从理论上证明无损的状态,真正做到即插即用。

如何保证底层高速信号的质量很关键,必须依靠高速Serdes的能力。因此,中科曙光组建研发团队,自研高速Serdes IP,从而可以做到在42db衰减下实现百万分之一误码率。scaleFabric面向多样化的各种复杂的链路环境下都有保证网络稳定可靠的底气。

此外,曙光公司从系统出发,研发了链路故障路由快速恢复技术,可以将链路故障路由恢复时间降低到毫秒级,延时不会随着网络规模的增长而增长,保障应用无感,进一步保障网络的可用性。

中科曙光已形成“算、存、网”一体方案

在大规模并行计算中一个计算任务的完成,涉及计算、存储、网络三个环节。其中计算负责运算数据,存储负责提供数据,网络负责传输数据。如果任何其中一个环节成为瓶颈,整个系统的效能都会下降,尤其在上千节点、上万核心的计算规模下,各种性能瓶颈造成的不均衡状态会被指数级放大。

中科曙光高速网络互联产品部总工程师万伟分析,从理论上看,计算任务的时间由计算、内存访问、网络通信,还有IO读写时间组成。因此,计算系统的效率并不等同于系统的峰值算力。随着计算规模的扩大,通信时间和IO时间占比会迅速上升,这实际上是阿姆达尔定律在工程系统中的实际体现。

从能效的角度来看,当网络性能不足时CPU在等待,服务器在耗电,但计算单元并没有真正工作。算力利用率理论上可以达到90%以上,但在网络瓶颈的情况下,算力利用率可能只有50%左右。也就是说,有接近一半的算力会被浪费掉。

比如汽车的启动分析、航空仿真等工业仿真类应用,其网络规模巨大,通常会超过2亿网格。计算规模巨大,一般要两千核以上的资源进行并行计算。数值规模巨大,单次任务产生的数值可达10TB以上。并且通信非常频繁,节点间的进程会进行高频的数据交换。因此,在这种场景下网络的性能直接决定仿真的计算效能。

以工业界常用的Siemens Star CCM+为例说明,随着并行规模的扩大,通信时间占比会迅速增加。当规模达到2048核的时候,通信占比接近48%的时间。也就是说,我们的CPU有接近一半的算力是无法操作出来的。更关键的是,这类应用对网络延迟非常敏感,经过测算,延迟每增加10微秒,其整体效能可能会下降20%。

因此,计算系统的性能不是单点的算力问题,而是计算、存储、网络三要素的协同效率问题。未来的高性能计算,本质上是一项系统工程,只有三者协同优化,系统才能发挥出真正的性能。

围绕系统效能问题,曙光在核心硬件层面进行了系统布局。目前已经完成了四款核心国产芯片的部署,包括国产CPU处理器、国产GPU加速器、P3E交换芯片以及片间的互联芯片。这些芯片构成了完整的国产算力技术结构。



在网络方面,中科曙光实现了核心能力的全栈自研,包括400G网卡芯片、800G交换芯片以及全面自研固件、驱动软件技管理软件。在并行计算中,国产IB的效率达到85%左右,而传统的RoCE方案效率只有65%。在实际CFD软件应用测试中,IB网络通信在各节点规模下保持较高效率,即使节点增加到64节点以上,scaleFabric效率仍保持70%-80%,远高于RoCE的方案。总的来说,IB网络是处理复杂计算网络的一个理想选择。



在存储方面,目前曙光做了分布式自研存储系统,主要特点包括高稳定性、低延时和高吞吐。同时实现了5级缓存加速体系,可以实现计算节点的内存到缓存到全栈存储。对整个数值路径进行了优化,最终带来的效果,IO性能最高提高到20倍左右。



为了实现存算传的协同,中科曙光重点突破了四项关键技术。第一,高速互连网络加高带宽内存。第二,并行分布式文件系统。第三,GPU直连网络通信。第四,NUMA的拓扑优化。通过这些技术,可以大幅降低通信延迟、访问延迟以及访问冲突,从而提升系统的整体效能。

基于算存传的耦合架构,从系统层面进行协同优化,实现20倍的IO性能提升,GPU算力利用率最高可以提升30%,同时网络带宽提升2倍,网络延迟降低3倍,整体可以实现1+1+1大于3的效果。

为了将这些技术真正落地,曙光公司推出scaleX超集群系统,将计算、互联和散热进行了深度的一体化集成。在scaleX中,单机柜可以集成640张GPU加速卡,并通过全链互联的正交网络架构,实现超带宽、低延迟的节点间通信。同时,整套系统采用浸没式相变液冷技术,最高可以支持860千瓦级的功率密度,可以显著提升数据中心的能效水平。可以说scaleX超集群不仅是算力设备,更是曙光面向未来智能计算的系统级的架构创新。

在实际应用层面,scaleFabric目前已部署于位于郑州的国家超算互联网核心节点,支撑三套万卡级scaleX智算集群上线运行,总规模达3万卡。整个网络部署只用了36个小时,目前累计1万个客户和10万+的作业。

随着产品在超大规模智算集群中的落地应用,国产原生RDMA技术路线正逐步走向成熟,围绕其形成的高性能网络产业生态也正在加速形成。

开放生态,打造大规模普惠的高速网络产品

曙光信息产业(北京)有限公司副总裁李柳表示,我们将牵头成立光合组织高性能计算专委会AIDC高速网络工作组,未来以开放的姿态联合更多的国内合作伙伴建立技术标准,基于这个平台打造生态适配系统,同时联合国内的一些科研力量,形成产学研体系,共同探索产业应用与发展。

万伟认为,从技术路线上来说,我们有ScaleUp互联,ScaleOut互联,特别是超大规模系统上的性能和扩展性等方面做了考量。未来还将探索包括不同协议的融合,例如可能在原生RDMA上兼容RoCE等。另外,针对不同芯片的兼容性,和不同计算芯片的互联,将探索更高效的方式,比如计算芯片通过专有协议到网卡、芯片互联协议的共享,与其他芯片直通等等。

李斌表示,面向未来,我们有信心把scaleFabric打造成国内大规模广泛使用且非常普惠的高速网络产品。不仅是技术和产品保持国际竞争力,更重要的是秉持开放的态度,集合国内算力厂商、系统集成、整机厂商等,串连整个产业链上下游的合作伙伴,在定义标准、接口、协议、以及商业模式等方面展开全方位的开放合作。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为星河AI园区网络登顶2025年中国市场榜首

    近日,根据国际权威调研机构IDC发布的2025年最新市场统计数据,华为星河AI园区网络中国市场多个核心领域强势登顶,持续巩固其全面领先的市场地位。
    的头像 发表于 03-31 11:29 642次阅读

    Q51551ST多网口迷你电脑,支持2.5G+10G+10G SFP+高速网络

    高速网络
    jf_79590227
    发布于 :2026年03月26日 17:23:56

    国产网络变压器厂家迭代:从国产替代到自主创新

    近年来,随着供应链安全意识的提升和国产元器件性能的持续进步,越来越多的通信设备厂商开始将目光投向国产网络变压器。在工业交换机、路由器、安防设备等领域,国产
    的头像 发表于 03-23 08:58 511次阅读

    重大突破!中科曙光scaleFabric国产原生RDMA高速网络首发

    3月12日,中科曙光宣布实现国产高端原生RDMA技术重大突破,正式发布首款全栈自研400G无损高速网络——scaleFabric。该产品基于原生RDMA架构,从底层的112G SerDes IP
    的头像 发表于 03-12 20:03 2533次阅读
    重大突破!中科曙光scaleFabric<b class='flag-5'>国产</b>原生RDMA<b class='flag-5'>高速</b><b class='flag-5'>网络</b>首发

    中国移动联合华为荣获GSMA GLOMO“最佳AI使能网络解决方案奖”

    在MWC26 巴塞罗那期间,华为与中国移动联合打造的 “AI+Network”运维转型方案荣获GSMA GLOMO“最佳AI使能网络解决方案”(Best 
    的头像 发表于 03-09 16:54 1113次阅读

    华为和中国移动联合发布2025年度高阶示范区AI+网络实践成果

    3月2日,在MWC26 巴塞罗那期间的移动AI产业峰会上,华为与中国移动联合发布了2025年度高阶示范区AI+网络的卓越实践成果。2025年,华为与
    的头像 发表于 03-05 14:20 1064次阅读

    GlobalData与华为探讨AI网络基础设施的机遇与挑战

    GlobalData 研究总监Emir Halilovic 与华为数据通信产品线NCE数据通信领域总裁王辉共同探讨了人工智能(AI)对网络基础设施带来的机遇(高性能网络需求、AI增强的
    的头像 发表于 10-14 14:24 851次阅读

    AI赋能6G与卫星通信:开启智能天网新时代

    \"天-地-空\"一体化的无缝网络: 全球覆盖:卫星提供广域覆盖,6G提供高速率、低延迟的地面接入,AI实现智能调度 无缝切换:当用户从地面网络移动到卫星覆盖区域时,
    发表于 10-11 16:01

    AI网络国产化破局未来可期

    近日,Hot Chips 2025大会聚焦高性能计算与网络技术的突破性进展,国际厂商密集发布新一代网络产品,折射出AI大模型浪潮下对算力&网络架构的迫切需求。在这场围绕高性能、高吞吐、
    的头像 发表于 09-18 15:19 1346次阅读
    <b class='flag-5'>AI</b><b class='flag-5'>网络</b><b class='flag-5'>国产</b>化破局未来可期

    睿海光电 200G 有源光缆:AI 时代高速互联的技术标杆与场景实践

    科技有限公司(REALSEA)凭借自主研发的 200G InfiniBand HDR 有源光缆(AOC)解决方案,正为全球客户构建稳定、高效的智算网络底层架构,重新定义高速互联的技术标准。 一、200G 有源光缆的核心技术突破与
    的头像 发表于 08-19 11:44 1106次阅读

    睿海光电以高效交付与广泛兼容助力AI数据中心800G光模块升级

    引领AI时代网络变革:睿海光电的核心竞争力 在AI时代,数据中心正经历从传统架构向AI工厂与AI云的转型。
    发表于 08-13 19:01

    华为网络智能体NetMaster荣获2025 AI网络技术“智驱应用标杆奖”

    [中国,北京,2025年8月9日]2025 AI网络技术应用创新大会在北京成功举办。在本次大会期间的2025 AI网络技术年度评选颁奖盛典上
    的头像 发表于 08-12 09:40 2919次阅读

    行业AI先锋,为何网络先行?

    行业AI先锋的秘密,就写在华为的网络升级路线图上
    的头像 发表于 07-17 19:01 9036次阅读
    行业<b class='flag-5'>AI</b>先锋,为何<b class='flag-5'>网络</b>先行?

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    模态的技术特性,DeepSeek正加速推动AI在金融、政务、科研及网络智能化等关键领域的深度应用。 信而泰:AI推理引擎赋能网络智能诊断新范式信而泰深度整合DeepSeek-R1大模型
    发表于 07-16 15:29

    华为AI UBB解决方案加速网络迈向高阶智能

    在2025 MWC 上海期间,全球云网宽带产业协会WBBA举办了上海BDC峰会。在峰会上,华为常务董事汪涛发表了“AI全面重构超宽带(UBB)网络,激发商业新增长”主题演讲,并推出AI UBB
    的头像 发表于 06-23 15:56 1629次阅读