0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

算力即国力!摩尔线程架构/芯片/超节点/万卡集群四连发,助力打造AI国之重器

Felix分析 来源:电子发烧友网 作者:吴子鹏 2025-12-23 09:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

电子发烧友网报道(文/吴子鹏)在人工智能AI)时代,算力如同工业革命的电力,成为驱动社会运转的“数字能源”,是AI从技术研发走向大规模应用的核心支撑。因此,在摩尔线程首届MUSA开发者大会(MDC 2025)上,摩尔线程创始人、董事长兼CEO张建中表示:“算力即国力,我们希望能够从芯片到集群,以‘加速计算’的能力,利用全功能GPU打造国之重器。”
摩尔线程创始人、董事长兼CEO张建中

MDC 2025上,摩尔线程集中发布了一系列技术与产品进展,包括新架构“花港”亮相、夸娥万卡智算集群发布、下一代MTT C256超节点架构分享、搭载智能SoC芯片“长江”的AI算力本MTT AIBOOK发布等,算力应用场景覆盖“云边端”。本文重点聚焦云端算力基础设施建设,从“Scale Up”“万卡集群”角度,解读摩尔线程最新产品对国产算力的赋能价值。

从千卡到万卡的跃升,下一步目标直指十万卡

云端算力基础设施的重要应用场景之一,是AI大模型的训练与推理。以训练任务为例,大模型企业通常采用Tensor并行(TP)、Pipeline并行(PP)、Data并行(DP)及专家并行(EP)等方式,拆分千亿、万亿参数规模的大模型,进而完成部署与适配。其中,PP、DP等通信量较大的任务,通常选择Scale Up方式应对,即尽可能部署在单个超节点内;而通信量相对较小的任务,则多采用Scale Out方式。

超节点的本质是极致优化的Scale Up,是算力纵向扩展的最高形态。它通过高速互联技术,将数十至上百颗计算芯片紧密集成为逻辑统一的计算单元,对外表现为一台“超级计算机”。因此,在超节点体系中,算力芯片与互联技术是核心关键。

摩尔线程在MDC 2025上公布的“华山”芯片,基于“花港”架构打造,是专注于AI训推一体与超大规模智能计算的芯片。作为新一代全功能GPU架构,“花港”在计算密度、能效、精度支持、互联能力及图形技术等方面实现全面突破,核心特性包括:

计算性能显著提升:基于新一代指令集,算力密度提升50%,能效大幅优化;支持从FP4到FP64的全精度端到端计算,新增MTFP6/MTFP4及混合低精度支持。

异步编程与超大规模互联:集成新一代异步编程模型,优化任务调度与并行机制;通过自研MTLink高速互联技术,支持十万卡以上规模智算集群扩展。

图形与AI深度融合:内置AI生成式渲染架构,增强硬件光线追踪加速引擎,完整支持DirectX 12 Ultimate,实现图形渲染与智能计算的高度协同。

全栈自研与安全可信:架构基于全栈自主研发,拥有扎实的专利壁垒(截至2025年6月30日,公司累计授权专利514项,其中发明专利468项),具备全栈自研与自主可控的核心能力;通过四层硬件安全架构,提供从芯片到系统的可验证安全守护。

从行业发展趋势来看,低精度训练推理是未来AI的主要场景,下一代MT Transformer Engine中将进一步利用MTFP8和MTFP4的优势加速Attention部分,将Attention从BF16向FP8甚至FP6演进。为适配更高密度的Tensor Core,“花港”架构在硬件层面进行创新,对Attention中的SIMT部分完成革新性升级:原生支持矩阵rowmax计算,大幅提升混合精度SIMT吞吐量,增强在线量化反量化能力,并提供低精度训练推理中随机舍入等算法的硬件支持。

得益于“花港”架构的领先性能,“华山”芯片集成新一代异步编程与全精度张量计算单元,支持从FP4至FP64的全精度计算,为万卡级智算集群提供稳定高效的算力支撑,是构建下一代“AI工厂”的坚实底座。“华山”芯片具备多项差异化创新:不仅支持MTLink 4.0,还开放兼容多种以太网协议,可适配更多Scale Up交换机;基于新一代Scale Up系统,目前“华山”芯片可支持高达1024个GPU集成的超节点;内置RAS 2.0,可实现ECC和SRAM校验,保障芯片运行准确性;集成ACE 2.0新一代异步通信引擎,负责芯片内部通信调度,提升计算效率。

在Scale Up拓展的具体进展上,摩尔线程在MDC 2025上分享了面向下一代超大规模智算中心的MTT C256超节点架构规划,聚焦高密硬件架构设计,旨在实现极致智算性能。

尽管摩尔线程未在MDC 2025上详细介绍Scale Out相关内容,但从其最新发布的夸娥万卡智算集群中,可看出其在该领域的强劲技术实力。作为Scale Out与Scale Up融合的最终成果,夸娥万卡集群树立了国产智算效率标杆,核心突破包括:浮点运算能力达到10 Exa-Flops,训练算力利用率(MFU)在Dense大模型上达60%、在MOE大模型上达40%,有效训练时间占比超90%,训练线性扩展效率达95%,与国际主流生态高度兼容,且在多项能效指标上具备显著优势。

张建中表示,摩尔线程已具备千卡和万卡集群的部署与运营能力,下一步目标是攻克十万卡集群技术。

MUSA 5.0的战略基石价值:让算力普惠各行各业

强劲的全功能GPU性能,叠加针对性的系统优化,使大模型开发者无论是开展训练还是推理工作,都能获得极致优化的效率:

在训练侧,基于原生FP8能力完整复现顶尖大模型训练流程,多项关键精度指标达到国际主流水平。技术层面实现核心优化:Flash Attention算力利用率超95%,突破FP8累加精度等关键技术瓶颈,充分释放国产GPU在大模型训练中的性能潜力。

在推理侧,摩尔线程联合硅基流动,经系统级工程优化与FP8精度加速,在DeepSeek R1 671B全量模型上实现性能突破:MTT S5000单卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s,树立国产推理性能新标杆。

需要说明的是,本文仅解读了摩尔线程全功能GPU在AI计算领域的能力。此外,该公司全功能GPU的核心引擎还涵盖3D图形渲染、物理仿真与科学计算、智能视频编解码,这使得摩尔线程全功能GPU在AI科学计算、工业智能、数字孪生、具身智能、量子计算、6G通信、生物医药等领域拥有广阔市场空间。

能够实现全场景覆盖,核心原因在于摩尔线程不仅拥有性能领先的全功能GPU,其自主研发的MUSA统一架构更是战略基石。

MUSA(Meta-computing Unified System Architecture,元计算统一计算架构)是摩尔线程自主研发的全栈技术体系,覆盖芯片架构、指令集、编程模型、软件运行库及驱动程序框架等核心环节。

MUSA不仅完整定义了从芯片设计到软件生态的统一技术标准,更彰显了公司坚持底层创新、践行长期主义的战略核心,为全功能GPU奠定了坚实技术根基。历经五年深度研发与持续迭代,MUSA实现了软件性能的指数级跨越。全新升级的MUSA 5.0标志着该架构步入成熟新阶段,在全栈统一性、极致效能与生态开放性上取得关键突破,具体包括:

编程生态全面升级:原生支持MUSA C,深度兼容TileLang、Triton等编程语言,为开发者提供灵活高效的全栈开发体验。

计算效能极致优化:核心计算库muDNN实现GEMM/FlashAttention效率超98%,通信效率达97%,编译器性能提升3倍,并集成高性能算子库,显著加速训练与推理全流程。

开源生态持续扩大:计划逐步开源计算加速库、通信库及系统管理框架等核心组件,向开发者社区开放深度优化的底层能力。

前沿特性拓展边界:即将推出兼容跨代GPU指令架构的中间语言MTX、面向渲染+AI融合计算的编程语言muLang、量子计算融合框架MUSA-Q及计算光刻库muLitho,持续拓展全功能GPU的算力应用边界。

张建中指出,MUSA不仅支持国际通用的CPU系统,同时兼容国产CPU操作系统与开发环境;通过MUSA架构,开发者可采用同一套软件支撑“云边端”不同系列产品。“我们希望MUSA能为我国各领域科技开发者提供更优质的工具与装置,助力他们践行‘十五五’规划,在各自领域贡献力量。我相信中国科技自立自强之路将走得更快、更稳,摩尔线程将持续为美好世界加速。”
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算力
    +关注

    关注

    2

    文章

    1786

    浏览量

    16860
  • 摩尔线程
    +关注

    关注

    2

    文章

    299

    浏览量

    6691
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为领衔,三剑客入局!十万集群落地,国产芯片强势崛起

    的“驱动燃料”。中移动在现场展示了“AI集群
    的头像 发表于 10-14 09:30 1.5w次阅读
    华为领衔,三剑客入局!十万<b class='flag-5'>卡</b>智<b class='flag-5'>算</b><b class='flag-5'>集群</b>落地,国产<b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>芯片</b>强势崛起

    摩尔线程发布“云边端”全栈智矩阵,开启物智能新纪元

    5月18日,摩尔线程在北京举办主题为 “词元时代,物智能” 的年度产品发布会。在Agentic AI驱动词元(Token)需求呈指数级跃升的关键
    的头像 发表于 05-19 09:32 1.2w次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>发布“云边端”全栈智<b class='flag-5'>算</b>矩阵,开启<b class='flag-5'>万</b>物智能新纪元

    Java并发编程的“基石”——多线程概念初识

    集群中,每一秒都有数百个任务在排队、挂起、抢占资源。如果调度出现毫秒级的延迟或死锁,意味着价值数百万的
    发表于 04-16 18:50

    中科曙光6AI4S计算集群:用 &quot;智融合&quot; 重塑科学计算叙事

    电子发烧友网报道(文 / 吴子鹏)4 月 14 日,国内最大规模的 AI for Science(AI4S)计算集群在郑州国家互联网核心
    发表于 04-16 15:59 5207次阅读

    摩尔线程与中国移动研究院等,联合发布128高密节点参考设计,定义超大规模智底座新标准

    随着全球智集群规模跨入“时代”并向“十万”巅峰演进,传统单机八服务
    发表于 03-17 08:40 901次阅读

    中科曙光3套scaleX集群落地国家互联网郑州核心节点

    2月5日,由中科曙光提供的3套集群系统在国家互联网郑州核心
    的头像 发表于 02-09 10:32 824次阅读

    中科曙光scaleX集群重塑超大规模基础设施

    在“人工智能+”行动深入推进的当下,基础设施已成为国家战略竞争的核心,而超大规模集群的运维管控难题却日益凸显。中科曙光scaleX
    的头像 发表于 01-30 15:43 1102次阅读

    摩尔线程公布全功能GPU架构路线图:以“花港”新架构训练集群,开启自主新时代

    MUSA统一架构为核心的全栈技术成果,全面展现公司在高端全功能GPU领域的关键突破与前瞻布局。 本次发布的核心成果包括: 1、新架构“花港”亮相:全功能GPU架构“花港”,支持FP4到FP64的全精度计算,
    发表于 12-20 12:51 1195次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>公布全功能GPU<b class='flag-5'>架构</b>路线图:以“花港”新<b class='flag-5'>架构</b>与<b class='flag-5'>万</b><b class='flag-5'>卡</b>训练<b class='flag-5'>集群</b>,开启自主<b class='flag-5'>算</b><b class='flag-5'>力</b>新时代

    华为发布全球最强节点集群

    在华为全联接大会2025(HUAWEI CONNECT 2025)上,华为发布最强节点集群,并表示将发展生态作为公司核心战略,提升到
    的头像 发表于 10-10 17:29 2556次阅读

    节点+集群”:华为撞出来的之路

    节点+集群”,成为彻底解决AI困局的契机
    的头像 发表于 09-24 10:55 1451次阅读
    “<b class='flag-5'>超</b><b class='flag-5'>节点</b>+<b class='flag-5'>集群</b>”:华为撞出来的<b class='flag-5'>算</b><b class='flag-5'>力</b>之路

    睿海光电800G光模块助力全球AI基建升级

    18%。 智中心建设:与国内AI独角兽合作,提供支持液冷散热的800G模块集群助力其大模型训练效率提升30%。 边缘计算网络:在北美某5G运营商边缘
    发表于 08-13 19:05

    摩尔线程副总裁王华:AI工厂全栈技术重构基建,开启国产 GPU 黄金时代

    摩尔线程在世界人工智能大会(WAIC 2025)前夕举办以“进化,精度革命”为主题的技术分享会,创新性提出“AI工厂” 理念。这一系统性
    的头像 发表于 08-02 14:21 5941次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>副总裁王华:<b class='flag-5'>AI</b>工厂全栈技术重构<b class='flag-5'>算</b><b class='flag-5'>力</b>基建,开启国产 GPU 黄金时代

    一文看懂AI集群

    最近这几年,AI浪潮席卷全球,成为整个社会的关注焦点。大家在讨论AI的时候,经常会提到AI集群
    的头像 发表于 07-23 12:18 2111次阅读
    一文看懂<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b><b class='flag-5'>集群</b>

    热插拔集群

    能力‌ 服务节点热插拔‌:集群服务支持在线更换计算节点(如2U服务容纳12个热插拔
    的头像 发表于 06-26 09:20 1331次阅读

    奇异摩尔邀您相约2025中AI大会

    在2025中AI大会上,奇异摩尔首席网络架构专家叶栋将带来“
    的头像 发表于 06-17 17:49 1714次阅读