0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

华为发布新一代超节点产品,支持8192张NPU卡高速互联

Carol Li 来源:电子发烧友网 作者:李弯弯 2026-03-09 09:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群



电子发烧友网报道(文/李弯弯)近日,在世界移动通信大会(MWC26)期间,华为计算产品线总裁张熙伟首次在海外发布多款超节点产品及解决方案,包括Atlas 950 SuperPoD智算超节点、Atlas 850E超节点服务器,以及业界首款通用计算超节点TaiShan 950 SuperPoD,还有TaiShan 500、TaiShan 200等系列化产品。

超节点技术:AI算力发展的关键支撑

人工智能快速发展的当下,每月都有新突破。智能体时代,模型从局限于大语言模型走向全模态原生融合,万亿级模型参数和10万亿级数据训练成为常态,算力需求提升十倍到百倍。同时,模型上下文序列长度显著增加,对内存容量和带宽需求大幅提升。

而且,随着AI在行业应用中的深入,实时性挑战愈发凸显,如金融风控场景时延要求小于20毫秒,反欺诈场景时延要在10毫秒以下,传统计算架构难以满足低时延要求。单一芯片提升已无法满足AI算力需求,多芯片互联、扩大计算节点规模成为必然选择。

超节点技术应运而生,它是面向AI大模型训练与推理需求的技术方案。通过高速互联协议与专用交换芯片,将数十至数百个GPU或AI计算芯片在单机柜或集群内紧密整合,形成逻辑上统一编址、高带宽、低延迟的协同计算系统。其核心目标是突破传统分布式计算中的“通信墙”瓶颈,提升大规模并行计算效率。该技术具备高算力密度、硬件解耦、开放兼容等特点,是构建标准化“AI工厂”、提升智算基础设施效能的关键路径。

目前,业内对超节点有不同层级划分。一是在单机柜内部实现高速互联,常称为“SuperNode”;另一种是由跨机柜组成的集群级互联,如英伟达提出的“SuperPod”。行业构建大规模GPU集群主要有两种方式:Scale-Out(横向扩展)和Scale-Up(纵向扩展)。Scale-Out是传统方法,通过传统网络连接独立服务器组成集群;Scale-Up则是增加单个节点内资源数量。超节点是Scale-Up的重要实现方式,其内部Scale-Up网络时延目标为百纳秒级,远低于Scale-Out网络的微秒级,能支撑TP(张量并行)、EP(专家并行)等高通信量任务。

Scale-Up网络追求极致性能,具备高带宽、低时延和大内存空间三大核心特性。高带宽方面,提供Tbps级别互联带宽,如NVL72方案中单GPU提供7.2Tbps带宽;低时延方面,目标时延为百纳秒级,而Scale-Out网络时延通常在10微秒级别;大内存空间方面,支持统一内存编址或内存语义,扩展有效内存容量。

AI训练中,流水线并行(PP)和数据并行(DP)通信量相对较小,可通过Scale-Out网络处理,但张量并行(TP)和专家并行(EP)通信量极大,必须依赖Scale-Up网络解决。超节点通过构建高带宽域(HBD),整合大量GPU,降低大规模集群全局组网复杂度与运维难度,提升资源利用效率。其核心应用场景是支撑训练参数规模超万亿级别的AI大模型训练与推理,满足AI Agent等多模型协同实时交互场景的高频、海量通信需求。

华为超节点产品与技术:创新引领算力升级

去年,华为发布业界规模最大的昇腾384超节点,将384颗昇腾AI芯片连接成集群,提供高达300PFLOPs的密集BF16算力,性能接近英伟达GB200 NVL72系统的两倍。

在芯片互联规模与Scale up网络性能上,华为CloudMatrix 384优势明显。GB200 NVL72采用整机柜型超节点方案,有72个GPU芯片;而CloudMatrix 384采用分机柜超节点方案,计算节点和交换节点分装不同机柜(12个计算柜和4个交换柜),Scale up计算单元由384个Ascend 910C芯片组成,昇腾芯片数量增加五倍,弥补了单个GPU性能不足。其BF16密集算力约300 PFLOPS,Scale up单向带宽134400 GB/s,约是GB200 NVL72的2.1倍。

CloudMatrix 384的Scale up网络采用两层扁平拓扑架构,通过华为自研的灵衢网络和灵衢总线设备互联组网。灵衢网络L1层由超节点交换网板承载,L2层由总线设备柜中的灵衢总线设备组成,L1 - L2通过光纤组成超节点集群。L1层每个计算节点集成8个昇腾910C NPU、4个鲲鹏CPU,内部有7颗板载UB交换芯片;L2层划分为7个独立子平面,每个子平面含16个L2 UB交换芯片,L1交换芯片扇出16条链路到对应L2子平面交换芯片,实现无阻塞全对等拓扑。该超节点通过3168根光纤和6912个400G LPO模块构建高速互连总线,在UB平面、RDMA平面等方面有详细设计。

“灵衢”是华为2025年全联接大会发布的互联技术,是一种面向超节点的互联协议,将IO、内存访问和处理单元间通信统一在同一体系,实现高性能数据搬移、资源统一管理等。其协议栈全面完整,基于灵衢的计算系统部署范围广,处理单元地位平等、资源可池化,还支持多种机制提升性能、增进容错性等。

此外,华为发布的Atlas 950 SuperPoD智算超节点,以单柜64卡为基本单元,最大支持8192张NPU卡高速互联,在算力规模、互联带宽等指标上领先英伟达,大模型训练效率、可靠性与推理性能大幅提升。Atlas 850E超节点服务器适配现有风冷机房,支持8到1024卡灵活扩展和快速部署。

软件生态方面,华为持续贡献openEuler开源操作系统,全面开源开放CANN异构计算架构,通过分层解耦,将算子库、加速库、图计算、编程语言等软件代码全量开源。北向支持PyTorch、vLLM、SGLang等业界开源社区和项目,大幅提升开发者易用性。华为副董事长、轮值董事长徐直军曾表示,尽管受美国制裁,不能产出最先进工艺制程的芯片,但基于联接技术能力,华为能做到万卡级超节点,实现世界最强算力。

总结:

华为此次发布的新一代超节点产品,在性能和规模上实现重大突破,为全球AI发展提供了强大算力支持。超节点技术作为AI算力发展的关键支撑,通过创新架构设计,有效解决了传统计算中的瓶颈问题,满足了AI大模型训练和推理的严苛需求。华为在超节点技术领域的探索和创新,不仅体现在硬件产品的性能提升上,更在于自研协议和软件生态的全面布局。灵衢协议的推出和CANN异构计算架构的开源开放,为开发者提供了更加便捷、高效的开发环境,促进了AI技术的创新和应用。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 华为
    +关注

    关注

    218

    文章

    36284

    浏览量

    262993
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    阿里云发布基于平头哥新一代AI芯片真武M890的128节点服务器

    近日,在2026阿里云峰会上,阿里云发布基于平头哥新一代AI芯片真武M890的128节点服务器,搭载
    的头像 发表于 05-22 10:23 169次阅读

    阿里云发布128节点服务器

    5月20日,2026阿里云峰会正式拉开帷幕。在这场备受瞩目的年度盛会上,阿里云重磅发布了基于平头哥新一代AI芯片真武M890打造的128节点
    的头像 发表于 05-21 09:06 775次阅读

    新华三发布S8000节点系列,单机柜最高128可扩展至16384

    近日,紫光股份旗下新华三集团正式发布S8000节点系列智算解决方案。该方案单机柜最高可部署128AI加速,通过柜间
    的头像 发表于 05-11 11:43 1183次阅读

    天数智芯深度参编的节点技术体系白皮书正式发布

    率先发布的该领域权威技术白皮书的编纂工作,也印证了企业在高速互联架构领域的技术实力和行业贡献,填补了国内节点技术权威指引的空白,为智算中心
    的头像 发表于 04-07 17:37 1723次阅读

    摩尔线程与中国移动研究院等,联合发布128高密节点参考设计,定义超大规模智算底座新标准

    随着全球智算集群规模跨入“万时代”并向“十万”巅峰演进,传统单机八服务器在应对万亿参数模型时,因集群通信开销过大导致算力线性增长受阻,技术重心正加速向具备强
    发表于 03-17 08:40 892次阅读

    华为发布新一代绿色AI站点和GW级AIDC解决方案

    在MWC26巴塞罗那期间举办的产品与解决方案发布会上,华为数字能源副总裁何波发布新一代AI绿色站点和GW级AIDC解决方案,在智能体
    的头像 发表于 03-05 10:54 802次阅读

    中科曙光3套scaleX万集群落地国家互联网郑州核心节点

    2月5日,由中科曙光提供的3套万集群系统在国家互联网郑州核心节点同时上线试运行,成为全国首个实现3万
    的头像 发表于 02-09 10:32 813次阅读

    福田汽车发布新一代产品Wonder Plus

    在11月9日举行的福田汽车2026全球合作伙伴大会上,福田汽车正式面向全球市场发布了全新一代产品——Wonder Plus。面对全球不同末端配送市场的升级需求,以“
    的头像 发表于 11-18 09:39 777次阅读

    昆仑芯节点亮相,单卡性能提升95%

    ;天池512节点将于 2026下半年上市,最高支持512互联
    的头像 发表于 11-16 07:32 1.1w次阅读
    昆仑芯<b class='flag-5'>超</b><b class='flag-5'>节点</b>亮相,单卡性能提升95%

    640节点问世:国产算力实现关键

    单机柜级640节点ScaleX640,为如火如荼的算力竞争注入了新的变量。   这款被命名为ScaleX640的节点,凭借“
    的头像 发表于 11-11 09:26 2596次阅读

    兰山国投携手华为重磅发布琅琊充兴程重充电站

    解决方案打造的琅琊充兴程重充电站也正式发布。该充电站是全电物流加速的重要里程碑,也是兰山国投携手华为构建临沂物流重
    的头像 发表于 11-10 14:21 873次阅读

    华为发布全球最强算力节点和集群

    华为全联接大会2025(HUAWEI CONNECT 2025)上,华为发布最强算力节点和集群,并表示将发展生态作为公司核心战略,提升到
    的头像 发表于 10-10 17:29 2541次阅读

    【内测活动同步开启】这么小?这么强?新一代大模型MCP开发板来啦!

    【内测活动同步开启】这么小?这么强?新一代大模型MCP开发板来啦! 聆思全新一代六合芯片「LS26系列」,搭载WIFI / BLE & BT / NPU,与「小聆AI」强强
    发表于 09-25 11:47

    华为节点互联技术引领AI基础设施新范式

    今日,华为全联接大会2025在上海启幕,华为副董事长、轮值董事长徐直军发表题为“以开创的节点互联技术,引领AI基础设施新范式”的主题演讲,
    的头像 发表于 09-20 16:15 2375次阅读

    重磅!华为昇腾384节点真机登场,中兴携厂商首秀GPU节点实力

    作为中国自主的算力核弹,华为昇腾384节点真机首次亮相。中兴通讯、上海仪电、曦智科技、壁仞科技联合打造的光互联芯片及
    的头像 发表于 07-29 00:45 1.3w次阅读
    重磅!<b class='flag-5'>华为</b>昇腾384<b class='flag-5'>超</b><b class='flag-5'>节点</b>真机登场,中兴携厂商首秀GPU<b class='flag-5'>超</b><b class='flag-5'>节点</b>实力