电子发烧友网报道(文/李弯弯)近日,在世界移动通信大会(MWC26)期间,华为计算产品线总裁张熙伟首次在海外发布多款超节点产品及解决方案,包括Atlas 950 SuperPoD智算超节点、Atlas 850E超节点服务器,以及业界首款通用计算超节点TaiShan 950 SuperPoD,还有TaiShan 500、TaiShan 200等系列化产品。
超节点技术:AI算力发展的关键支撑
在人工智能快速发展的当下,每月都有新突破。智能体时代,模型从局限于大语言模型走向全模态原生融合,万亿级模型参数和10万亿级数据训练成为常态,算力需求提升十倍到百倍。同时,模型上下文序列长度显著增加,对内存容量和带宽需求大幅提升。
而且,随着AI在行业应用中的深入,实时性挑战愈发凸显,如金融风控场景时延要求小于20毫秒,反欺诈场景时延要在10毫秒以下,传统计算架构难以满足低时延要求。单一芯片提升已无法满足AI算力需求,多芯片互联、扩大计算节点规模成为必然选择。
超节点技术应运而生,它是面向AI大模型训练与推理需求的技术方案。通过高速互联协议与专用交换芯片,将数十至数百个GPU或AI计算芯片在单机柜或集群内紧密整合,形成逻辑上统一编址、高带宽、低延迟的协同计算系统。其核心目标是突破传统分布式计算中的“通信墙”瓶颈,提升大规模并行计算效率。该技术具备高算力密度、硬件解耦、开放兼容等特点,是构建标准化“AI工厂”、提升智算基础设施效能的关键路径。
目前,业内对超节点有不同层级划分。一是在单机柜内部实现高速互联,常称为“SuperNode”;另一种是由跨机柜组成的集群级互联,如英伟达提出的“SuperPod”。行业构建大规模GPU集群主要有两种方式:Scale-Out(横向扩展)和Scale-Up(纵向扩展)。Scale-Out是传统方法,通过传统网络连接独立服务器组成集群;Scale-Up则是增加单个节点内资源数量。超节点是Scale-Up的重要实现方式,其内部Scale-Up网络时延目标为百纳秒级,远低于Scale-Out网络的微秒级,能支撑TP(张量并行)、EP(专家并行)等高通信量任务。
Scale-Up网络追求极致性能,具备高带宽、低时延和大内存空间三大核心特性。高带宽方面,提供Tbps级别互联带宽,如NVL72方案中单GPU提供7.2Tbps带宽;低时延方面,目标时延为百纳秒级,而Scale-Out网络时延通常在10微秒级别;大内存空间方面,支持统一内存编址或内存语义,扩展有效内存容量。
AI训练中,流水线并行(PP)和数据并行(DP)通信量相对较小,可通过Scale-Out网络处理,但张量并行(TP)和专家并行(EP)通信量极大,必须依赖Scale-Up网络解决。超节点通过构建高带宽域(HBD),整合大量GPU,降低大规模集群全局组网复杂度与运维难度,提升资源利用效率。其核心应用场景是支撑训练参数规模超万亿级别的AI大模型训练与推理,满足AI Agent等多模型协同实时交互场景的高频、海量通信需求。
华为超节点产品与技术:创新引领算力升级
去年,华为发布业界规模最大的昇腾384超节点,将384颗昇腾AI芯片连接成集群,提供高达300PFLOPs的密集BF16算力,性能接近英伟达GB200 NVL72系统的两倍。
在芯片互联规模与Scale up网络性能上,华为CloudMatrix 384优势明显。GB200 NVL72采用整机柜型超节点方案,有72个GPU芯片;而CloudMatrix 384采用分机柜超节点方案,计算节点和交换节点分装不同机柜(12个计算柜和4个交换柜),Scale up计算单元由384个Ascend 910C芯片组成,昇腾芯片数量增加五倍,弥补了单个GPU性能不足。其BF16密集算力约300 PFLOPS,Scale up单向带宽134400 GB/s,约是GB200 NVL72的2.1倍。
CloudMatrix 384的Scale up网络采用两层扁平拓扑架构,通过华为自研的灵衢网络和灵衢总线设备互联组网。灵衢网络L1层由超节点交换网板承载,L2层由总线设备柜中的灵衢总线设备组成,L1 - L2通过光纤组成超节点集群。L1层每个计算节点集成8个昇腾910C NPU、4个鲲鹏CPU,内部有7颗板载UB交换芯片;L2层划分为7个独立子平面,每个子平面含16个L2 UB交换芯片,L1交换芯片扇出16条链路到对应L2子平面交换芯片,实现无阻塞全对等拓扑。该超节点通过3168根光纤和6912个400G LPO模块构建高速互连总线,在UB平面、RDMA平面等方面有详细设计。
“灵衢”是华为2025年全联接大会发布的互联技术,是一种面向超节点的互联协议,将IO、内存访问和处理单元间通信统一在同一体系,实现高性能数据搬移、资源统一管理等。其协议栈全面完整,基于灵衢的计算系统部署范围广,处理单元地位平等、资源可池化,还支持多种机制提升性能、增进容错性等。
此外,华为发布的Atlas 950 SuperPoD智算超节点,以单柜64卡为基本单元,最大支持8192张NPU卡高速互联,在算力规模、互联带宽等指标上领先英伟达,大模型训练效率、可靠性与推理性能大幅提升。Atlas 850E超节点服务器适配现有风冷机房,支持8到1024卡灵活扩展和快速部署。
软件生态方面,华为持续贡献openEuler开源操作系统,全面开源开放CANN异构计算架构,通过分层解耦,将算子库、加速库、图计算、编程语言等软件代码全量开源。北向支持PyTorch、vLLM、SGLang等业界开源社区和项目,大幅提升开发者易用性。华为副董事长、轮值董事长徐直军曾表示,尽管受美国制裁,不能产出最先进工艺制程的芯片,但基于联接技术能力,华为能做到万卡级超节点,实现世界最强算力。
总结:
华为此次发布的新一代超节点产品,在性能和规模上实现重大突破,为全球AI发展提供了强大算力支持。超节点技术作为AI算力发展的关键支撑,通过创新架构设计,有效解决了传统计算中的瓶颈问题,满足了AI大模型训练和推理的严苛需求。华为在超节点技术领域的探索和创新,不仅体现在硬件产品的性能提升上,更在于自研协议和软件生态的全面布局。灵衢协议的推出和CANN异构计算架构的开源开放,为开发者提供了更加便捷、高效的开发环境,促进了AI技术的创新和应用。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。
举报投诉
-
华为
+关注
关注
218文章
36284浏览量
262993
发布评论请先 登录
相关推荐
热点推荐
阿里云发布基于平头哥新一代AI芯片真武M890的128卡超节点服务器
近日,在2026阿里云峰会上,阿里云发布基于平头哥新一代AI芯片真武M890的128卡超节点服务器,搭载
阿里云发布128卡超节点服务器
5月20日,2026阿里云峰会正式拉开帷幕。在这场备受瞩目的年度盛会上,阿里云重磅发布了基于平头哥新一代AI芯片真武M890打造的128卡超节点
新华三发布S8000超节点系列,单机柜最高128卡可扩展至16384卡
近日,紫光股份旗下新华三集团正式发布S8000超节点系列智算解决方案。该方案单机柜最高可部署128张AI加速卡,通过柜间
天数智芯深度参编的超节点技术体系白皮书正式发布
率先发布的该领域权威技术白皮书的编纂工作,也印证了企业在高速互联架构领域的技术实力和行业贡献,填补了国内超节点技术权威指引的空白,为智算中心
摩尔线程与中国移动研究院等,联合发布128卡高密超节点参考设计,定义超大规模智算底座新标准
随着全球智算集群规模跨入“万卡时代”并向“十万卡”巅峰演进,传统单机八卡服务器在应对超万亿参数模型时,因集群通信开销过大导致算力线性增长受阻,技术重心正加速向具备强
发表于 03-17 08:40
•892次阅读
华为发布新一代绿色AI站点和GW级AIDC解决方案
在MWC26巴塞罗那期间举办的产品与解决方案发布会上,华为数字能源副总裁何波发布新一代AI绿色站点和GW级AIDC解决方案,在智能体
中科曙光3套scaleX万卡超集群落地国家超算互联网郑州核心节点
2月5日,由中科曙光提供的3套万卡超集群系统在国家超算互联网郑州核心节点同时上线试运行,成为全国首个实现3万
福田汽车发布全新一代微卡产品Wonder Plus
在11月9日举行的福田汽车2026全球合作伙伴大会上,福田汽车正式面向全球市场发布了全新一代微卡产品——Wonder Plus。面对全球不同末端配送市场的升级需求,以“
640卡超节点问世:国产算力实现关键一跃
单机柜级640卡超节点ScaleX640,为如火如荼的算力竞争注入了新的变量。 这款被命名为ScaleX640的超节点,凭借“
兰山国投携手华为重磅发布琅琊超充兴程重卡充电站
解决方案打造的琅琊超充兴程重卡充电站也正式发布。该充电站是全电物流加速的重要里程碑,也是兰山国投携手华为构建临沂物流重卡“
华为发布全球最强算力超节点和集群
在华为全联接大会2025(HUAWEI CONNECT 2025)上,华为发布最强算力超节点和集群,并表示将发展生态作为公司核心战略,提升到
【内测活动同步开启】这么小?这么强?新一代大模型MCP开发板来啦!
【内测活动同步开启】这么小?这么强?新一代大模型MCP开发板来啦!
聆思全新一代六合一芯片「LS26系列」,搭载WIFI / BLE & BT / NPU,与「小聆AI」强强
发表于 09-25 11:47
华为超节点互联技术引领AI基础设施新范式
今日,华为全联接大会2025在上海启幕,华为副董事长、轮值董事长徐直军发表题为“以开创的超节点互联技术,引领AI基础设施新范式”的主题演讲,
华为发布新一代超节点产品,支持8192张NPU卡高速互联
评论