0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

从炫技到务实,超节点的祛魅时刻

脑极体 来源:脑极体 作者:脑极体 2025-12-03 16:55 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

wKgZPGkv-wWALK_gAAgv7tkUiEc911.jpg

DeepSeek、通义千问、Kimi-K2等深度思考的大模型,大家应该都用过。用户对AI越来越上头,企业IT对算力保障的焦虑也在加剧。过去跑个小模型,8张GPU的服务器还能应付,可带不动DeepSeek这种上百个专家、毫秒级响应的MoE架构推理模型。

超节点,就是在这一背景下,火起来的。

传统单台8卡服务器,无法满足当下大模型训推的算力需求。由英伟达率先提出的超节点技术,通过内部高速互联,把数十甚至上百个AI计算芯片,集中整合到一个架构内,打造出基于Scale-up的新型架构,以此实现算力的量级跃升。核心优势可以用一个字概括:省。

省钱,超节点通过内部高速互联,每张卡都能满负荷运行,避免传统多机柜间的算力闲置空转,GPU卡和电费就不会浪费了;

省地,以前跑大模型得把多个机柜拼起来,占满半个机房,现在一台超节点就能扛起AI训推任务,物理空间占用更小了;

省事,超节点把硬件、互联、管理系统全集成好了,企业接入就能跑大模型,AI部署更快,而传统多台服务器要单独调试、搭建网络、解决散热,一套流程下来,没半年搞不定……

有不少CIO或IT从业者十分困惑,超节点能帮我们用AI更省,可怎么还是买不着、用不起呢?有一种“出发点很好,但就是出发不了”的无力感。

的确,目前真正用得上、用得起超节点的行业和企业,并不是很多。

原因比较复杂,比如高端N卡断供,国产GPU规模出货量受限等。其中,有一个因素容易被忽视,那就是超节点让AI更省的核心逻辑,似乎正在跑偏。

在超节点的新闻里,常能看到千卡、单柜X百卡等参数互相碾压,媒体追捧超节点的新纪录,围观群众也默认,规模越大卡越多的超节点就越先进。

但对大多数企业来说,真的需要这么大的算力巨兽吗?斥巨资买回数百卡的超节点,能靠AI赚回本吗?这些问题,已经到了必须回答的时刻。

wKgZO2kv-weAPs4WAAHTnk7vrX8390.jpg

不可否认,数百卡,甚至上千卡的超节点,是国产智算技术进步的证明。但大家有没有想过,我们给手机充电,会关心发电厂的规模有多大,是核电厂还是水电厂吗?只会在乎插上有没有电,电压是否适配,电流是否稳定,会不会把手机烧坏,这些实用层面的问题。

同样的道理,企业部署超节点,除了集成多少卡,也要考虑到实际应用中的隐性成本:

一是故障率升高带来的中断损失。

超节点规模越大,内部光模块、交换机电源节点就越多,比如某300多卡的超节点架构,就涉及近6900个光模块和100台左右交换机。而在高密度部署场景中,任一环节故障,都可能导致整个训练任务中断。对AI大模型训练来说,故障意味着要从checkpoint检查点重新加载模型、重启训练,浪费数天时间和高额电费。

对企业来说,不中断、不重训,比多几张卡更加重要。

二是GPU闲置导致的每Token成本过高。

业内已有共识,超节点规模存在“甜点”,超过甜点后,继续增加超节点规模,性能提升有限但成本显著上升。有模拟数据显示,十万亿参数模型,甜点大概在32-64卡。也就是说,盲目追求上百张卡的超大规模,算力利用率也许并不高,GPU大部分时间是在闲置。比如说,DeepSeek官方论文给的参考方案,Decode阶段需用144张H800,如果超节点使用的国产卡算力是H800的1/3,那么在PD分离场景下,48卡甚至32卡才是更优选择。

三是运维复杂度提升导致的总体TCO成本增加。

高集成度的超节点产品,对运维团队的专业能力要求极高,一旦规模增大,内部故障点也会随之增多,小团队很难靠自己处理。比如英伟达早期就曾尝试过二层架构超节点,将交换机集成到单机内以扩大规模,但企业客户更倾向于选择单层架构,核心就是为了降低故障点、减少运维难度。英伟达256卡超节点也由于TCO总拥有成本太高,而互联网企业客户对TCO很重视,未能成功商业化。

所以,超节点并不是规模越大卡越多就越好。企业需要的是能解决算力问题,且ROI投资回报率最优的IT基础设施。超节点技术的发展,要回归让企业用AI更省的出发点,与企业AI业务相适配的方案才是最优解。

wKgZO2kv-wiAc0DyAAGNDMg1Im0172.jpg

既然堆卡不是出路,那么如何才能让超节点真正成为企业的省钱利器?产业界已经给出了答案:回归理性,追求规模与需求的适配,并通过开放生态降低综合成本。

一方面,越来越多的厂商将目光投向32卡、64卡这样的更合身的规模。

如前所说,超过性能-成本甜点区之后,超节点的边际效益就会递减。因此,大量国产厂商聚焦在32-64卡的实用化设计,推出贴合企业需求的产品。比如新华三UniPoD S80000,实现了单机柜32/64卡高密部署等,让多数企业能够负担得起大模型训推开销。而且,新华三UniPoD S80000采用单层全互联架构,大幅降低了通信延迟和故障点,在MoE等主流模型场景下,更有助于保障业务连续性。刚好的规模与更高的可靠性,成为AI算力降本增效的关键。

wKgZPGkv-wmAbpWfAAA1EojTYmQ954.jpg

(新华三超节点H3C UniPoD S80000)

另一方面,开放的硬件生态正在成为降低成本的新引擎。

随着国产芯片生态成熟,开放式架构支持多品牌国产加速卡,打破海外高端卡垄断,为用户提供了更多选择,从而降低企业的算力成本。这类开放式超节点,也成为算力普惠的关键。比如新华三超节点支持多品牌国产加速卡,兼容CUDA等主流软件生态,降低企业的供应链成本。

上述实践,有望助力超节点的普及,从头部企业的专属品,成为千行百业的普惠基础设施。

wKgZO2kv-wmAdVo2AAHDM1vJJHU742.jpg

需要说明的是,数百卡、千卡超节点的研发,有其战略意义。这一技术路线,推动了光互联、液冷、高密度布线等底层技术的极限突破,是中国算力产业仰望星空的冲顶之路。

AI发展的速度总是超出预期,可能今天觉得32卡就够了,但明天DeepSeek的新模型,也许内含更多专家,超大规模的超节点或许可以带来更低的每token成本。所以,适当超前,把超节点规模进一步做大,可以给后续技术迭代留下一定的冗余。

但对于更广大的99%普通企业而言,需要的是脚踏实地的普惠之路。他们更迫切地希望,使用成本可控、稳定可靠的超节点产品,解决当下大模型落地的算力焦渴,支撑AI在生产力场景中落地。

所以堆卡炫技之外,这条更合身的普惠之路,同样势在必行,不可偏废。

未来行业发展的理想状态,是这两条路并行不悖。既有震撼世界的算力巨无霸,也有服务千行百业的普惠产品。企业无需关心超节点内部有多少卡,只要插上电,AI就能跑起来,也不用担心基础设施的账单出现天文数字。

实现这一目标,只能靠智算厂商急企业之所急,将可靠性、每token成本、TCO等指标,同步纳入超节点的研发技术路线图。别忘了,让企业用AI更省,才是超节点技术的核心价值,也是商业成功的前提。

wKgZO2kv-wqAbDbAAAHMIyWO3BQ124.jpg

审核编辑 黄宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    40928

    浏览量

    302512
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    虹科分享 | 如何精准判断LIN总线节点是否在线?

    今天给大家分享一个比较实用的方法:如何精准地判断LIN总线上的节点是否与主节点通讯。也许这时你会觉得奇怪:“我直接用诊断电脑读取故障码不就知道了?LIN总线的
    的头像 发表于 04-16 11:40 43次阅读
    虹科分享 | 如何精准判断LIN总线<b class='flag-5'>从</b><b class='flag-5'>节点</b>是否在线?

    “舞台“量产博弈”,国产编码器MT6901筑牢人形机器人根基

    ,人形机器人产业已从“舞台”迈入了“量产博弈”新阶段,高盛预测的2035年1540亿美元人形机器人市场,正从商业蓝图加速变为产业现实。但行业狂欢的背后,一个残酷
    的头像 发表于 04-04 10:33 938次阅读
    <b class='flag-5'>从</b>“舞台<b class='flag-5'>炫</b><b class='flag-5'>技</b>”<b class='flag-5'>到</b>“量产博弈”,国产编码器MT6901筑牢人形机器人根基

    别再盲目堆卡了!CTO/CIO如何避免把节点变成碎钞机?

    不想吃算力选型的苦,甜点区间节点或是企业AI最优解
    的头像 发表于 03-26 23:57 527次阅读
    别再盲目堆卡了!CTO/CIO如何避免把<b class='flag-5'>超</b><b class='flag-5'>节点</b>变成碎钞机?

    华为发布新一代节点产品,支持8192张NPU卡高速互联

      电子发烧友网报道(文/李弯弯)近日,在世界移动通信大会(MWC26)期间,华为计算产品线总裁张熙伟首次在海外发布多款节点产品及解决方案,包括Atlas 950 SuperPoD智算节点
    的头像 发表于 03-09 09:19 7139次阅读

    科技云报到:两会“中场时刻”:技术突破制度对齐

    科技云报到:两会“中场时刻”:技术突破制度对齐
    的头像 发表于 03-06 19:01 953次阅读

    中兴通讯重磅发布节点技术白皮书

    近日,中兴通讯重磅发布《节点技术白皮书》,提出以节点为核心打造标准化“AI工厂”,通过系统级架构创新突破算力极限与能效瓶颈,为AI基础设施可持续发展开辟全新路径。
    的头像 发表于 02-10 13:47 667次阅读

    AI模型智算中心视角看真正的节点系统

    英伟达凭借其 GB200、300 NVL72 机架系统,在全球多个AI技术前沿地区已实现大规模出货与应用,成为业内首家也是少数能将“节点”概念理论推向极致工程化实践的公司。
    的头像 发表于 02-04 14:15 736次阅读
    <b class='flag-5'>从</b>AI模型<b class='flag-5'>到</b>智算中心视角看真正的<b class='flag-5'>超</b><b class='flag-5'>节点</b>系统

    奇异摩尔ODCC 2026节点大会精彩回顾

    北京-1月22日,由ODCC(开放数据中心委员会)主办的2026节点大会在北京顺利举办。本次大会围绕节点部件、
    的头像 发表于 01-24 15:49 2020次阅读
    奇异摩尔ODCC 2026<b class='flag-5'>超</b><b class='flag-5'>节点</b>大会精彩回顾

    之年:2026科凉点展望

    多种技术彼此咬合,交织成改变世界的洪流
    的头像 发表于 01-01 23:42 8542次阅读
    <b class='flag-5'>祛</b><b class='flag-5'>魅</b>之年:2026科<b class='flag-5'>技</b>凉点展望

    昆仑芯节点亮相,单卡性能提升95%

    电子发烧友网综合报道 11月13日,2025百度世界大会举办,在同期开展的“百度世界展区”内,百度昆仑芯节点公开亮相。同时,百度发布了天池节点的后续规划:天池256
    的头像 发表于 11-16 07:32 1.1w次阅读
    昆仑芯<b class='flag-5'>超</b><b class='flag-5'>节点</b>亮相,单卡性能提升95%

    节点+集群”:华为撞出来的算力之路

    节点+集群”,成为彻底解决AI算力困局的契机
    的头像 发表于 09-24 10:55 1318次阅读
    “<b class='flag-5'>超</b><b class='flag-5'>节点</b>+集群”:华为撞出来的算力之路

    华为节点互联技术引领AI基础设施新范式

    今日,华为全联接大会2025在上海启幕,华为副董事长、轮值董事长徐直军发表题为“以开创的节点互联技术,引领AI基础设施新范式”的主题演讲,正式发布全球最强算力节点和集群。
    的头像 发表于 09-20 16:15 2260次阅读

    超薄曲面屏全场景AI,传音手机推动前沿科技落地新兴市场

    非洲之王全球技术创新者,传音正通过高端技术的深度本地化,让前沿科技的“尝鲜”工具,转变为新兴市场用户日常生活中的“实用”伴侣。超薄
    的头像 发表于 09-18 11:46 1704次阅读
    <b class='flag-5'>从</b>超薄曲面屏<b class='flag-5'>到</b>全场景AI,传音手机推动前沿科技落地新兴市场

    商汤科技联合华为昇腾实现节点适配多项创新

    近日,商汤大装置SenseCore与昇腾384节点率先完成全面适配。
    的头像 发表于 09-05 15:22 1003次阅读

    重磅!华为昇腾384节点真机登场,中兴携厂商首秀GPU节点实力

    作为中国自主的算力核弹,华为昇腾384节点真机首次亮相。中兴通讯、上海仪电、曦智科技、壁仞科技联合打造的光互联芯片及节点应用创新方案荣获2025年世界人工智能大会最高奖。本文将对这
    的头像 发表于 07-29 00:45 1.3w次阅读
    重磅!华为昇腾384<b class='flag-5'>超</b><b class='flag-5'>节点</b>真机登场,中兴携厂商首秀GPU<b class='flag-5'>超</b><b class='flag-5'>节点</b>实力