0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程副总裁王华:AI工厂全栈技术重构算力基建,开启国产 GPU 黄金时代

电子麦克风 来源:电子发烧友网 作者:张迎辉 2025-08-02 14:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

摩尔线程在世界人工智能大会(WAIC 2025)前夕举办以“算力进化,精度革命”为主题的技术分享会,创新性提出“AI工厂” 理念。这一系统性工程通过全功能GPU、自研架构、集群技术与软件生态的深度协同,重新定义了AI基础设施的生产力公式 ——AI工厂生产效率=加速计算通用性 × 单芯片有效算力 × 单节点效率 × 集群效率 × 集群稳定性。作为国内率先实现单芯片集成AI计算、图形渲染、物理仿真、超高清视频编解码四大引擎的GPU厂商,摩尔线程此次提出的 “AI工厂” 并非单纯的硬件升级,而是涵盖芯片架构、集群管理、算法优化、资源调度的全栈式创新。正如创始人张建中在主题演讲中所言:“我们正在建造的,是能够生产AGI时代先进模型的超级工厂。”

一、大模型算力需求呈指数级增长,参数量与数据量成核心驱动力

在WAIC 2025摩尔线程技术分享日上,副总裁王华首先聚焦大模型算力需求的发展趋势。他指出,2020年至2025年间,主流大模型的算力需求呈现出近乎指数级的增长态势,从单位为flops的数值来看,每一格代表10倍增长的纵轴上,模型所需算力持续攀升。

图:摩尔线程副总裁王华在大会上演讲分享他对大模型智算集群的看法(图片来源:电子发烧友网)

以具体模型为例,2020 年大模型算力需求 TOP 值为 10²³flops,而到 2025 年,Grok-3 的算力需求已达 10²⁶flops,短短五年间实现了约 1000 倍的增长;GPT-4 的训练量更是达到 10²⁵flops,较早期模型提升一个数量级。这种增长的核心驱动力来自参数量与数据量的双重扩张 —— 根据 Scaling Law,参数量和数据量的增大能显著降低模型 loss 值,提升模型效果,进而推动算力需求激增。

王华还通过不同规模集群的训练时间对比,直观展现了算力需求的规模。以英伟达H100 集群为例:DeepSeek 模型算力需求约 3.4×10²⁴flops,在千卡集群中需训练 97 天,五千卡集群需 22 天,万卡集群需 13 天;万亿参数的 Kimi K2 模型计算量为 2.98×10²⁴flops,对应训练时间分别为 85 天、19 天、11 天;而 GPT-4 因算力需求达 10²⁵flops,千卡集群需 602 天,五千卡集群需 137 天,万卡集群需 80 天。即便是早期的 GPT-3,虽参数量不小,但因数据量有限,训练效率相对更高。这些数据清晰表明,参数量与数据量的 “双增长” 正持续推高大模型训练的算力门槛。

二、FP8 成低精度训练 “甜点”,技术突破平衡效率与效果

在算力需求激增的背景下,低精度训练技术成为提升效率的关键。王华介绍,从FP32 到 FP16 再到 FP8,精度每下降一半,算力可提升一倍 —— 这源于显存占用减少、缓存速度提升,但同时也可能因数值损失导致模型效果下降。因此,如何在精度、参数量、数据量之间找到平衡,成为核心课题。

引入精度参数P 后的新 Scaling Law 显示,在固定计算量下,需合理配置参数量(N)、数据量(D)与精度(P):精度越高,loss 值(L)越小,但算力成本也越高。通过对比 FP32、FP16、FP8、FP6、FP4 的效果,发现 FP6 和 FP8 处于 loss 值最低的 “甜点区域”,而 FP4 因精度过低导致 loss 值回升。近期研究进一步验证,FP8 是当前兼顾效率与效果的最优选择,相比 FP16 训练有巨大提升空间。

不过,FP8 训练面临两大核心挑战:一是取值范围有限,易出现上溢(梯度爆炸)和下溢(梯度消失);二是不同操作对精度敏感度差异大 —— 矩阵乘等操作对精度不敏感,累加 / 归约类操作敏感度中等,非线性函数(如指数级增长的计算)则高度敏感。对此,行业普遍采用混合精度训练策略:对精度不敏感的部分(如矩阵乘)用 FP8 计算,敏感部分保留高精度

王华强调,FP8 技术的落地离不开软硬件协同支撑。硬件上,新一代 Tensor Core(如英伟达产品)已支持 FP8 输入与高精度输出;软件层面,权重更新用 FP32 表达、Tensor Scaling 动态调整数值范围等技术,有效缓解了精度损失问题。以 DeepSeek 模型为例,其前向和反向传播中的 3 次矩阵乘均采用 FP8,激活值的缓存与传输也用 FP8,仅对精度敏感部分保留高精度,大幅提升了训练效率。

三、摩尔线程全栈支持FP8 训练,技术创新攻克落地难点

作为国内GPU 厂商代表,摩尔线程已构建起 FP8 训练的软硬件全栈支持能力。王华详细介绍了其技术布局:

在硬件层面,摩尔线程GPU 为全功能芯片,原生支持从 FP64、FP32 到 FP8 的全精度算力,为低精度训练提供基础支撑。

软件栈则包含三大开源框架:一是Torch-MUSA,作为 Torch 栈上的 MUSA 底层插件,已实现对 FP8 数据类型的完整支持,可在 MUSA 平台上顺畅运行整个 Torch 生态;二是 MT-MegatronLM,支持 Dense、多模态、MoE 等模型的高效训练,支持FP8 混合精度训练、高性能 muDNN 库与 MCCL 通信库;三是 MT-TransformerEngine,专注于 Transformer 模型的高效训练与推理优化,通过算子融合、并行加速等技术提升效率。

依托这套软件栈,摩尔线程成为行业内率先复现DeepSeek-V3 “满血版” 训练的厂商(其他厂商多聚焦推理复现)。其核心突破包括:通过 MT FlashMLA 和 DeepGEMM 库优化算子性能,精准复现了 DeepSeek 的训练逻辑。

针对FP8 训练的具体难点,摩尔线程还做了针对性创新:在 scaling factor 选择上,Per-Tensor 维度因数值范围稳定(最小值约 200,最大值约 2000),采用固定因子;Per-Block 维度因最小值可能为 0,易导致数值异常,故用 JIT 动态的scalingfactor的选择。在处理outlier(异常值)方面,通过 Smooth SwiGLU 技术,在量化后先乘缩放因子、第二次量化后再恢复,降低了 FP8 上溢风险,提升了训练稳定性。

四、大规模集群训练:模拟优化与可靠性保障并重

随着集群规模扩大(万卡、十万卡级),训练的效率与可靠性成为关键。王华指出,大规模训练无法全靠实验验证(资源消耗过大),需依赖模拟工具与可靠性技术。

在模拟优化方面,摩尔线程开源了Simumax 软件(GitHub 可下载),通过理论与仿真结合,估算训练中的资源开销。该工具支持多种并行策略、优化策略,可在主流模型上通过计算图仿真,收集各类开销数据,快速评估资源需求,并定位性能偏差原因。其核心逻辑是基于经验与理论数据,在计算图上模拟全流程,汇总开销后形成量化结果,为集群配置提供精准参考。

在可靠性保障上,摩尔线程建立了“全生命周期管理” 体系:一是 “起飞检查”,训练前对硬件、网络进行全面检测,跑小负载验证栈稳定性,自动剔除异常节点,降低人工排查带来的时间成本和人力成本;二是“飞行检查”,实时检测训练中的hang、异常退出、训练亚健康等问题并及时处理;三是“落地检查”,训练中断时自动抓取故障上下文,定位问题根源。

针对“慢节点” 拖累整体效率的问题,摩尔线程通过两方面检查解决:起飞阶段用小工作负载测试识别明显慢节点;训练中对比节点通信时间,挑出异常节点。此举常能带来10%-20% 的性能提升。

在容错训练上,针对万卡级集群的高故障率,采用“动态摘除” 策略:若某 DP(数据并行)节点故障,将其从通信组中摘除,剩余节点继续工作;若 DP 规模较大,可摘除单个节点,跳过该节点的参数计算与更新 —— 因数据量巨大,少量数据缺失对整体效果影响极小,但能避免集群重启的巨额开销。

王华总结,算力需求激增推动低精度训练技术崛起,FP8 成为当前最优解,而摩尔线程通过软硬件全栈创新与集群管理技术,正为大规模大模型训练提供高效、可靠的支撑。未来,其开发者大会将分享更多技术探索,持续推动 AI 算力基础设施的进化。

五、对未来趋势的总结

最后,王总特别总结指出现在的AI三个大趋势:第一、算力需求的发展趋势,使得大智算集群成为训练的刚需。第二,低精度的训练,会带来大规模训练效率的提升。第三,集群的可靠性对大规模训练至关重要。(完)

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5339

    浏览量

    136281
  • 摩尔线程
    +关注

    关注

    2

    文章

    299

    浏览量

    6696
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    摩尔线程发布“云边端”矩阵,开启万物智能新纪元

    5月18日,摩尔线程在北京举办主题为 “词元时代,万物智能” 的年度产品发布会。在Agentic AI驱动词元(Token)需求呈指数级跃升的关键节点,万物智能处于爆发前夜,
    的头像 发表于 05-19 09:32 1.5w次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>发布“云边端”<b class='flag-5'>全</b><b class='flag-5'>栈</b>智<b class='flag-5'>算</b>矩阵,<b class='flag-5'>开启</b>万物智能新纪元

    紫光展锐以AI能力开启端边AI时代

    当前,AI产业迎来关键拐点,重心由云端训练全面转向端边推理,AI正从内容生成加速迈向物理世界,成为可感知、可决策、可自主执行的智能体。紫光展锐依托多年
    的头像 发表于 05-18 11:09 586次阅读

    摩尔线程与光轮智能正式达成战略合作

    近日,国产全功能GPU领军企业摩尔线程与全球领先的物理AI数据与仿真基础设施企业光轮智能正式达成战略合作。双方将依托
    的头像 发表于 05-15 09:28 735次阅读

    摩尔线程自主解决方案亮相2026移动云大会

    此前,5月7日至9日,2026移动云大会在苏州举行,聚焦网融合、人工智能、Token应用与产业落地,汇聚政、产、学、研、用各界嘉宾。作为中国移动投资的国产GPU头部企业及核心生态伙伴,摩尔
    的头像 发表于 05-14 15:49 226次阅读

    摩尔线程营收暴涨243%:国产GPU如何点燃革命的“中国芯”?

    亿元,再创155.35%的同比增速,毛利率同步提升至65.2%,较上年提升12个百分点。这一数据不仅刷新了国产GPU企业的增长纪录,更标志着中国在高端芯片领域正式突破“卡脖子”困局
    的头像 发表于 04-27 09:39 875次阅读

    端侧AI爆发!斯贝达自研技术,助力国产AI崛起

    AI时代已成为产业智能化的核心底座。国产
    的头像 发表于 04-14 16:51 5527次阅读

    摩尔线程深耕国产生态,共促科技和产业融合创新

    未来产业、量子科技、人工智能等多个平行论坛。同时,摩尔线程重点展示了与生态伙伴在量子计算等前沿领域的最新合作进展,并携自主
    发表于 03-29 18:52 1625次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>深耕<b class='flag-5'>国产</b><b class='flag-5'>算</b><b class='flag-5'>力</b>生态,共促科技和产业融合创新

    国产AI Coding上线:摩尔线程+硅基流动+智谱,强强联合!

    摩尔线程今日正式推出AI Coding Plan 智能编程服务。作为首个基于国产全功能 GPU
    的头像 发表于 02-03 17:07 2143次阅读
    <b class='flag-5'>全</b><b class='flag-5'>栈</b><b class='flag-5'>国产</b><b class='flag-5'>AI</b> Coding上线:<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>+硅基流动+智谱,强强联合!

    摩尔线程正式推出AI Coding Plan智能编程服务

    摩尔线程今日正式推出 AI Coding Plan 智能编程服务。作为首个基于国产全功能 GPU
    的头像 发表于 02-03 16:46 2031次阅读

    AI开发更简单!摩尔线程发布AI本MTT AIBOOK

    12月20日,在首届MUSA开发者大会现场,摩尔线程正式发布其战略级终端产品——AI本 MTT AIBOOK。 该产品专为
    的头像 发表于 12-30 17:00 1054次阅读
    让<b class='flag-5'>AI</b>开发更简单!<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>发布<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>本MTT AIBOOK

    摩尔线程公布全功能GPU架构路线图:以“花港”新架构与万卡训练集群,开启自主时代

    MUSA统一架构为核心的技术成果,全面展现公司在高端全功能GPU领域的关键突破与前瞻布局。 本次发布的核心成果包括: 1、新架构“花港”亮相:全功能
    发表于 12-20 12:51 1198次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>公布全功能<b class='flag-5'>GPU</b>架构路线图:以“花港”新架构与万卡训练集群,<b class='flag-5'>开启</b>自主<b class='flag-5'>算</b><b class='flag-5'>力</b>新<b class='flag-5'>时代</b>

    摩尔线程WAIC2025亮相:以“AI工厂”理念重塑生态 产品开启智能新纪元

    在2025年世界人工智能大会(WAIC 2025)开幕前一天,国产GPU企业摩尔线程以“进化
    的头像 发表于 07-28 16:00 1.1w次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>WAIC2025亮相:以“<b class='flag-5'>AI</b><b class='flag-5'>工厂</b>”理念重塑<b class='flag-5'>算</b><b class='flag-5'>力</b>生态 <b class='flag-5'>全</b><b class='flag-5'>栈</b>产品<b class='flag-5'>开启</b>智能新纪元

    摩尔线程亮相WAIC 2025:以“AI工厂”理念驱动进化,AI应用赋能千行百业

    7月26日-29日,2025世界人工智能大会(WAIC)在上海举办。摩尔线程携以全功能GPU为核心的“云边端”
    的头像 发表于 07-28 11:34 2664次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>亮相WAIC 2025:以“<b class='flag-5'>AI</b><b class='flag-5'>工厂</b>”理念驱动<b class='flag-5'>算</b><b class='flag-5'>力</b>进化,<b class='flag-5'>全</b><b class='flag-5'>栈</b><b class='flag-5'>AI</b>应用赋能千行百业

    摩尔线程AI工厂”:五大核心技术支撑,打造大模型训练超级工厂

    2025年7月25日,上海——在世界人工智能大会(WAIC 2025)开幕前夕,摩尔线程以“进化,精度革命”为主题举办技术分享会,并创新
    的头像 发表于 07-28 11:28 4969次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>“<b class='flag-5'>AI</b><b class='flag-5'>工厂</b>”:五大核心<b class='flag-5'>技术</b>支撑,打造大模型训练超级<b class='flag-5'>工厂</b>

    摩尔线程AI工厂”:以系统级创新定义新一代AI基础设施

    2025年7月25日,上海——在世界人工智能大会(WAIC 2025)开幕前夕,摩尔线程以“进化,精度革命”为主题举办技术分享会,并创新
    发表于 07-28 10:34 2997次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>“<b class='flag-5'>AI</b><b class='flag-5'>工厂</b>”:以系统级创新定义新一代<b class='flag-5'>AI</b>基础设施