0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为发布数据中心新型网络架构UB-Mesh

晶芯观察 来源:电子发烧友 作者:黄晶晶 2025-09-07 06:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群



电子发烧友网综合报道 在最近的Hot Chip2025大会上,华为进行了一场线上分享,提出了一种全新的AI数据中心网络架构UB-Mesh。

随着大语言模型(LLM)规模持续扩张,其训练对计算算力与网络带宽的需求呈指数级增长。传统数据中心多采用 Clos 架构,虽能提供对称节点带宽,却因依赖大量高基数交换机与光模块,存在成本高昂、可用性低等问题,难以满足 LLM 训练的大规模、高带宽、低成本、高可用四大核心需求(R1-R4)。

那么UB-Mesh是通过分层本地化 nD-FullMesh 拓扑与多维度优化,实现性能、成本与可用性的平衡。

UB-Mesh 的设计遵循三大核心原则:一是流量驱动拓扑(P1),利用 LLM 训练中张量并行(TP)、序列并行(SP)占 97% 流量且集中于近距离节点的特性,构建分层网络;二是拓扑感知计算通信(P2),将并行策略、路由等与拓扑深度协同,避免带宽浪费;三是自愈容错(P3),通过硬件备份与快速故障恢复,保障训练连续性。

UB-Mesh的整体架构设计,展示了从2D-FullMesh(机柜内)到4D-FullMesh(Pod内)再到SuperPod的扩展方式。

在核心架构设计上,UB-Mesh 以nD-FullMesh 拓扑为基础,通过 “维度递推” 实现规模化扩展:从板级 1D 全连接(相邻 NPU 直接互连),到机架级 2D 全连接(1D mesh 间互连),最终形成 Pod 级 4D-FullMesh(UB-Mesh-Pod),可支持 8K NPU 的高带宽域。UB-Mesh-Pod是一个由1024个NPU组成的4D-FullMesh集群。该集群内部,每个机柜包含64个NPU,构成一个2D-FullMesh;16个这样的机柜再构成一个2D-FullMesh,从而形成一个4D-FullMesh的Pod。

该拓扑以短距离电连接为主(占比 86.7%),大幅减少对高成本光模块与交换机的依赖,同时通过灵活带宽分配,为近距离通信(TP/SP)提供高带宽,远距离通信(数据并行 DP)分配低带宽,精准匹配 LLM 流量特征。

硬件层面,UB-Mesh 通过统一总线(UB) 实现组件互连,替代传统混合互连(PCIe/NVLink/IB),支持 Load/Store 等同步操作与 Read/Write 等异步操作,不仅简化驱动设计,还实现 IO 资源灵活分配与硬件资源池化(如 CPU、NPU、DDR 共享)。核心硬件包括支持 72 路 UB 通道的 NPU、32 路 UB 通道的 CPU,以及低基数交换机(LRS,用于机架内聚合)、高基数交换机(HRS,用于 Pod 间互连)。此外,架构采用 “64+1 备份设计”,每机架额外配置 1 个备用 NPU,节点故障时可通过 LRS 快速切换,仅增加少量延迟而不中断训练。

为解决架构落地挑战,UB-Mesh 提出多维度优化机制。路由方面,创新全路径路由(APR) ,结合源路由(8 字节紧凑头实现路径指示)、结构化寻址(按 Pod / 机架划分地址段,减少路由表开销)与拓扑感知无死锁流控(TFC 算法,仅用 2 个虚拟通道实现无死锁),充分利用多路径带宽,避免拥塞。故障恢复方面,采用 “直接通知” 机制,节点故障时直接向通信目标节点发送信息,相比传统逐跳通知,大幅缩短收敛时间。通信优化方面,针对 All-Reduce 设计多环算法,通过 idle 链路复用与流量分区提升带宽利用率;针对 All-to-All 采用多路径传输与分层广播 / 归约,适配 MoE 模型的专家并行需求。

实验验证显示,UB-Mesh 相比传统 Clos 架构优势显著:成本效率提升 2.04 倍,减少 98% 高基数交换机与 93% 光模块使用,网络基础设施成本占比从 67% 降至 20%;可用性达 98.8%,较 Clos(91.6%)提升 7.2%,其 Mean Time Between Failure(MTBF)达 98.5 小时,是 Clos 的 7.14 倍;在 LLAMA-70B、GPT3-175B、MoE-10T 等模型训练中,性能仅下降 7% 以内,且集群规模扩展至 64 倍时,线性度仍保持 95% 以上,可支持超大规模 LLM 训练。

UB-Mesh架构通过其创新的nD-FullMesh拓扑、统一总线技术以及一系列系统级优化,成功地解决了大规模LLM训练所面临的“通信墙”问题。它不仅在理论上证明了分层局部化网络设计的优越性,更在实践中展示了其在成本、性能和可靠性方面的巨大优势。UB-Mesh为构建下一代超大规模、高性价比的AI计算集群提供了一个强有力的范例,预示着AI基础设施设计的一次重要范式转移。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AMC16Z为数据中心

    数据中心
    安科瑞缪志澄
    发布于 :2026年05月08日 14:47:10

    华为携手合作伙伴共谱数据中心网络发展新篇章

    华为中国合作伙伴大会2026期间,以“星河AI Fabric 2.0,算力满载,业务永续”为主题的数据中心网络分论坛圆满落幕。本次论坛汇聚行业资深专家、客户以及伙伴,共同探讨AI时代数据中心
    的头像 发表于 03-23 16:32 600次阅读

    华为数据中心交换机2025年蝉联中国市场第一

    近日,全球领先的IT市场研究和咨询公司IDC发布了最新的《中国以太网交换机市场跟踪报告,2025Q4》。报告显示,华为(CloudEngine系列数据中心交换机)在2025年以34.3%的市场份额
    的头像 发表于 03-17 13:47 777次阅读

    1分钟带你了解数据中心供电架构 #电子元器件 #数据中心 #供电架构

    数据中心
    沛城芯动力
    发布于 :2026年02月03日 15:39:04

    WiFi Mesh网络技术架构介绍

    网络,提升质量 显著的保障和可靠性。本文追溯 网状WiFi网络的技术演进,例如: 通过分析变更实现在嵌入式模块中 关键架构解决方案、协议进展及解决方案 WiFi mesh产品系列提供模
    的头像 发表于 01-21 13:32 414次阅读

    数据中心发展的三大驱动力

    、可靠的基础支持。相关部门明确了加快5G网络、大数据中心新型基础设施建设进度, 数据中心发展的三大驱动力 1、中国对于数据中心的政策支持
    的头像 发表于 12-26 10:34 606次阅读

    华为亮相2025亚洲数据中心展览会

    在亚太地区规模最大的数据中心行业盛会——新加坡科技周「2025亚洲数据中心展览会」上,华为数字能源于新加坡滨海湾金沙会展中心的参展活动圆满收官。为期两天的展会中,
    的头像 发表于 10-14 15:03 1212次阅读

    华为成功举行数据中心基础设施峰会

    以“跃升行业智能化”为主题的华为全联接大会2025在上海世博展览馆盛大开幕。同期,华为数字能源举行数据中心基础设施峰会,500多位来自全球数据中心行业的商业领袖、技术专家和生态伙伴共聚
    的头像 发表于 09-20 10:01 1688次阅读

    华为星河AI高算效数据中心网络亮相ODCC 2025

    以“拥抱AI变革 点燃算网引擎”为主题的2025开放数据中心大会(以下简称“ODCC 2025”)在北京国际会议中心召开。在这场汇集了数据中心领域专家学者、科研机构代表、行业大咖的产业盛会上,
    的头像 发表于 09-16 14:54 2888次阅读
    <b class='flag-5'>华为</b>星河AI高算效<b class='flag-5'>数据中心</b><b class='flag-5'>网络</b>亮相ODCC 2025

    华为面向拉美地区发布全新星河AI数据中心网络方案

    华为数据通信创新峰会2025拉美站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向拉美地区
    的头像 发表于 08-11 10:42 2705次阅读

    华为数据中心古井贡酒样板点重磅发布

    以“安全可靠,酝建未来”为主题的华为数据中心古井贡酒样板点发布会在亳州成功举行。该样板点使用华为智能微模块和UPS5000-H解决方案,助力古井贡酒构建安全、高效、智能的现代化
    的头像 发表于 08-01 14:27 1428次阅读

    华为连续9年稳居中国数据中心交换机市场第一

    近日,全球领先的IT市场研究和咨询公司IDC发布了最新的《中国以太网交换机市场跟踪报告,2025Q1》。报告显示,华为CloudEngine系列数据中心交换机在2025年第一季度以31.6%的份额
    的头像 发表于 06-26 11:32 2235次阅读

    华为数据中心自动驾驶网络通过EANTC欧洲高级网络测试中心L4级自智网络测评

    Networking Test Center,简称“EANTC”)发布华为数据中心自动驾驶网络的自智网络(Autonomous Netwo
    的头像 发表于 06-22 10:50 2293次阅读
    <b class='flag-5'>华为</b><b class='flag-5'>数据中心</b>自动驾驶<b class='flag-5'>网络</b>通过EANTC欧洲高级<b class='flag-5'>网络</b>测试<b class='flag-5'>中心</b>L4级自智<b class='flag-5'>网络</b>测评

    数据中心和通信网络有什么区别

    数据中心和通信网络在功能定位、技术架构、应用场景等方面存在显著区别,以下是详细对比: 一、功能定位 数据中心 核心功能:作为存储、处理和管理海量数据
    的头像 发表于 06-12 09:57 1238次阅读
    <b class='flag-5'>数据中心</b>和通信<b class='flag-5'>网络</b>有什么区别

    华为面向亚太地区发布全新星河AI数据中心网络方案

    华为数据通信创新峰会2025亚太站期间,以“星河AI数据中心网络,赋AI时代新动能”为主题的分论坛上,华为面向亚太地区
    的头像 发表于 06-11 11:11 1696次阅读