0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

总算力5EFLOPS!可扩展至10万卡,国产算力集群部分性能超越NVL576

Felix分析 来源:电子发烧友网 作者:吴子鹏 2025-12-24 09:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网综合报道 近日,在光合组织2025人工智能创新大会(HAIC 2025)上,中科曙光正式发布并展出了全球领先的ScaleX万卡超集群。这一国产万卡级AI集群系统首次以真机形式亮相,标志着中国在高性能计算领域的又一次重大突破。

中科曙光高级副总裁李斌表示,面对人工智能基础设施对性能、效率、可靠性、可扩展性等方面的极致需求,ScaleX万卡超集群在超节点架构、高速互连网络、存储性能优化、系统管理调度等方面实现了多项创新突破,部分技术与能力已超越海外同类产品研发路线图的2027年NVL576里程节点。

NVL576:下一个算力里程节点

NVL576是英伟达基于下一代Rubin Ultra架构打造的机柜级AI超算系统,预计2027年下半年正式亮相,定位“AI工厂”核心心脏,主要面向万亿参数级大模型训练与推理。

从核心参数来看,该超节点(Super Pod)包含576颗Rubin Ultra GPU(代号“Kyber”),设计目标为实现15 EFLOPS(FP4推理)与5 EFLOPS(FP8训练)算力,将是GB 300 NVL72(Blackwell架构代表性产品)的14倍。

公开报道显示,作为系统计算核心,Rubin Ultra GPU由两块掩模尺寸的GPU组成,拥有288GB HBM4内存,FP4峰值推理能力可达50 PFLOPS,预计2026年下半年上市。得益于这一强劲性能,NVL576可单机柜完成万亿参数模型(如GPT-4级别)训练,且训练周期较此前大幅缩短,预计将从数月缩减为数周。

ScaleX万卡超集群:部分技术与能力已超越NVL576

在AI大模型参数规模从千亿向万亿跃迁的当下,算力规模与效率成为制约产业发展的关键因素。高端AI硬件供给受限、软硬件生态割裂、算力成本高昂等问题,曾如“性能墙”一般阻碍中国AI产业升级。中科曙光ScaleX万卡超集群的亮相,首次展示了国产AI计算在系统级架构上的突破。该集群凭借四大优势,实现了算力密度、传输效率、智能调度等方面的全面提升。

优势1:全球首创单机柜级640卡超节点。ScaleX万卡超集群由16个曙光ScaleX 640超节点通过ScaleFabric高速网络互连而成,可实现10240块AI加速卡部署,总算力规模超5 EFLOPS。作为全球首个单机柜级640卡超节点,ScaleX 640采用超高密度刀片、浸没相变液冷等技术,将单机柜算力密度提升20倍,PUE值低至1.04。

优势2:自主研发原生RDMA高速网络。曙光ScaleFabric网络基于国内首款400G类InfiniBand的原生RDMA网卡与交换芯片,可实现400Gb/s超高带宽、低于1微秒端侧通信延迟,超节点间通信性能达到业内领先水平,能充分释放万卡超集群算力,且可将超集群规模轻松扩展至10万卡以上。相较于传统IB网络,其性能提升2.33倍,同时网络总体成本降低30%。

优势3:存、算、传紧耦合深度优化。通过“超级隧道”、AI数据加速等设计,实现从芯片级、系统级到应用级的三级数据传输协同优化,使存力平台高效应对大模型训练时万卡并发读写带宽的极致需求,提升高通量AI推理的响应速度与结果精准度,并可将AI加速卡资源利用率提高55%。

优势4:超集群数字孪生与智能调度。通过物理集群数字孪生,实现故障定位、修复等全流程可视化智能管理;智能化运维平台可支撑集群长期可用性达99.99%;智能调度引擎可管理万级节点、服务十万级用户,支持每秒万级作业调度。

除技术突破外,ScaleX万卡超集群的发布更标志着国产AI算力生态从“单点突围”迈向“生态共进”的关键转折。2025年9月,中科曙光已协同20多家AI产业链企业推出“AI计算开放架构”,通过共享关键共性技术,推进智算集群的协同创新。

在中科曙光看来,相较于技术、产品、解决方案层面的突破,整个智算生态系统的构建更为重要。纵观历史上关键技术的普及轨迹,主要有两条可选路径:一是依靠少数巨头打造的封闭式全栈垂直体系,二是基于开放架构、由产业链各环节共同参与的协作生态。两者并非非此即彼的替代关系,但前者往往占据强势地位,后者要赢得发展空间必须付出巨大努力。

对国内智算产业而言,当前面临的挑战纷繁复杂,亟需整合产业链上的大量企业,实现真正的跨层协作优化,进而打造开放式、标准化、高效率的集群算力,才能在日趋白热化的竞争中掌握主动权。不过,这条道路充满荆棘,横亘在前方的技术墙与生态墙极难跨越,市场呼唤开路先锋的引领与垂范。
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为领衔,三剑客入局!十万集群落地,国产芯片强势崛起

    中国移动宣布,将持续加大对人工智能领域的投入力度,总体投入翻一番,建成国内规模最大、技术领先的智基础设施,探索十万集群建设,全国产
    的头像 发表于 10-14 09:30 1.5w次阅读
    华为领衔,三剑客入局!十万<b class='flag-5'>卡</b>智<b class='flag-5'>算</b><b class='flag-5'>集群</b>落地,<b class='flag-5'>国产</b><b class='flag-5'>算</b><b class='flag-5'>力</b>芯片强势崛起

    企业如何突破AI困局?2026 年异构管理平台推荐

    时代的管理困局 “买了 GPU ,却用不起来”——这是当下许多企业 IT 负责人的真实困扰。 随着生成式 AI 技术的快速普及,企业需求呈指数级增长。据 IDC 数据,2024 年中国智能
    的头像 发表于 05-20 12:53 71次阅读

    国产出海元年开启

    节点的亮相则宣告:国产的时代,或许真的来了。随着中国芯片与大规模集群技术的突破,
    的头像 发表于 03-24 15:15 737次阅读
    <b class='flag-5'>国产</b><b class='flag-5'>算</b><b class='flag-5'>力</b>出海元年开启

    中科曙光3套scaleX集群落地国家超互联网郑州核心节点

    2月5日,由中科曙光提供的3套集群系统在国家超互联网郑州核心节点同时上线试运行,成为全国首个实现3
    的头像 发表于 02-09 10:32 814次阅读

    中科曙光scaleX集群重塑超大规模基础设施

    在“人工智能+”行动深入推进的当下,基础设施已成为国家战略竞争的核心,而超大规模集群的运维管控难题却日益凸显。中科曙光scaleX
    的头像 发表于 01-30 15:43 1092次阅读

    中科曙光scaleX集群背后的持续创新

    集群的发展浪潮正以超乎想象的速度袭来,未来五年,十万级的集群将成为标配。但一个核心挑战
    的头像 发表于 01-19 14:49 847次阅读

    墨芯人工智能千集群正式签约入驻新疆中心

    在“东数西”国家工程全面推进的大背景下,新疆凭借其丰富的清洁能源和独特的区位优势,正迅速崛起为国家级网络的关键枢纽。近日,墨芯人工智能(以下简称“墨芯”)的千
    的头像 发表于 12-30 17:27 1056次阅读

    部分能力超越2027年NVL576,中科曙光发布scaleX集群

    系统首次以真机形式亮相。 “scaleX集群,是曙光发挥大型计算机系统研制经验优势,面向万亿参数大模型、科学智能等复杂任务场景打造的大规模智能
    发表于 12-18 18:30 1213次阅读
    <b class='flag-5'>部分</b>能力<b class='flag-5'>超越</b>2027年<b class='flag-5'>NVL576</b>,中科曙光发布scaleX<b class='flag-5'>万</b><b class='flag-5'>卡</b>超<b class='flag-5'>集群</b>

    湘军,让变成生产

    脑极体
    发布于 :2025年11月25日 22:56:58

    “超节点+集群”:华为撞出来的之路

    “超节点+集群”,成为彻底解决AI困局的契机
    的头像 发表于 09-24 10:55 1438次阅读
    “超节点+<b class='flag-5'>集群</b>”:华为撞出来的<b class='flag-5'>算</b><b class='flag-5'>力</b>之路

    壁仞科技联合三方打造国产集群落地

    近日,由浙江联通、壁仞科技、中兴通讯、优云科技四方联合打造的国产集群,在浙江乌镇智中心正式点亮。该
    的头像 发表于 08-01 15:26 1723次阅读

    集群到十万集群,燧原科技始终践行普惠

    健康、教育等垂直领域,对设施有着更加广泛的需求,包括智中心和训推一体机等。   在 2025 世界人工智能大会暨人工智能全球治理高级别会议(WAIC 2025)上,作为国产人工智
    发表于 07-30 09:54 4711次阅读
    从<b class='flag-5'>万</b><b class='flag-5'>卡</b><b class='flag-5'>集群</b>到十万<b class='flag-5'>卡</b><b class='flag-5'>集群</b>,燧原科技始终践行<b class='flag-5'>算</b><b class='flag-5'>力</b>普惠

    一文看懂AI集群

    最近这几年,AI浪潮席卷全球,成为整个社会的关注焦点。大家在讨论AI的时候,经常会提到AI集群。AI的三要素,是、算法和数据。而AI
    的头像 发表于 07-23 12:18 2090次阅读
    一文看懂AI<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>集群</b>

    燧原科技国产集群通过中国信通院权威认证

    近日,中国信息通信研究院(以下简称“中国信通院”)成功召开集群服务推进方阵年中总交流会。会议期间,中国信通院重磅发布了首批《大规模智
    的头像 发表于 07-04 16:50 1421次阅读

    热插拔集群

    能力‌ 服务器节点热插拔‌:集群服务器支持在线更换计算节点(如2U服务器容纳12个热插拔AI节点,单节点集成5)。 GPU/
    的头像 发表于 06-26 09:20 1319次阅读