0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程“AI工厂”:五大核心技术支撑,打造大模型训练超级工厂

时光流逝最终成了回忆 来源:电子发烧友网 作者:综合报道 2025-07-28 11:28 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2025年7月25日,上海——在世界人工智能大会(WAIC 2025)开幕前夕,摩尔线程以“算力进化,精度革命”为主题举办技术分享会,并创新性提出“AI工厂”理念。摩尔线程创始人兼CEO张建中在主题演讲中表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI训练基础设施,致力于为AGI时代打造生产先进模型的“超级工厂”。


“AI工厂”:锻造先进模型的“超级工厂”

人工智能前沿模型的竞争正推动着AI智能水平的迅猛提升,全球科技巨头正以惊人的速度迭代模型。从GPT系列、Gemini到DeepSeek、QWen的快速更新,模型训练迭代时间已缩短至不足3个月,这种高频迭代不仅体现在大型语言模型(LLM)上,还同步扩展至多模态模型、语音模型、世界模型等前沿模型领域。这些模型在性能、效率和应用场景上实现的指数级突破,不仅推动了AI从专用领域向通用智能的跨越,其快速迭代的特性更对新一代高性能人工智能计算基础设施提出了迫切需求。

摩尔线程提出的“AI工厂”,如同芯片晶圆厂的制程升级,是一个系统性、全方位的变革,需要实现从底层芯片架构创新、到集群整体架构的优化,再到软件算法调优和资源调度系统的全面升级。这种全方位的基础设施变革,将推动AI训练从千卡级向万卡级乃至十万卡级规模演进,以系统级工程实现生产力和创新效率的飞跃。

这座“AI工厂”的智能“产能”,由五大核心要素共同决定,其效率公式可概括为:AI工厂生产效率 = 加速计算通用性 × 单芯片有效算力 × 单节点效率 × 集群效率 × 集群稳定性

摩尔线程以全功能GPU通用算力为基石,通过先进架构、芯片算力、单节点效率、集群效率优化与可靠性等协同跃升的深度技术创新,旨在将全功能GPU加速计算平台的强大潜能,转化为工程级的训练效率与可靠性保障。

五大核心技术:系统性提升AI训练效率

摩尔线程通过软硬深度协同的系统级创新,从五大核心技术构建“AI工厂”,致力于推动大模型训练效率实现质的飞跃。

技术一:全功能GPU,实现加速计算通用性
在AI基础设施建设中,计算功能的完备性与精度完整性是支撑多元场景的核心基石。摩尔线程以自主研发的全功能GPU为核心,构建了“功能完备”与“精度完整”的通用性底座,全面覆盖从AI训练、推理到科学计算的全场景需求。

  • 创新突破:单芯片覆盖多场景。基于MUSA架构的突破性设计,摩尔线程的GPU单芯片即可集成AI计算加速、图形渲染、物理仿真及超高清视频编解码能力,充分适配AI训推、具身智能、AIGC等多样化应用场景。
  • 精度标杆:性能跃升20%~30%。在计算精度方面,摩尔线程支持从FP64至INT8的完整精度谱系,并通过FP8混合精度技术,在主流前沿大模型训练中实现20%~30%的性能跃升,为国产GPU的算力效率树立行业标杆。
  • 前瞻布局:推动AI基础设施进化。这一技术体系不仅满足大模型时代的高效计算需求,更为世界模型和新兴AI架构的演化提供前瞻性支撑,助力AI基础设施向高通用性、高精度方向持续升级。


技术二:自研MUSA架构,提升芯片有效算力
强大的芯片有效算力是驱动“AI工厂”高效运转的核心动力。摩尔线程基于自研MUSA架构,通过计算、内存、通信三重突破,显著提升单GPU运算效率。

  • 创新架构突破传统限制:摩尔线程采用创新的多引擎、可伸缩GPU架构,通过硬件资源池化及动态资源调度技术,构建了全局共享的计算、内存与通信资源池。这一设计不仅突破了传统GPU功能单一的限制,还在保障通用性的同时显著提升了资源利用率。其参数化配置可伸缩架构允许面向目标市场快速裁剪出优化的芯片配置,大幅降低了新品芯片的开发成本。
  • 计算性能显著提升:在计算层面,摩尔线程的AI加速系统(TCE/TME)全面支持INT8/FP8/FP16/BF16/TF32等多种混合精度计算。作为国内首批实现FP8算力量产的GPU厂商,其FP8技术通过快速格式转换、动态范围智能适配和高精度累加器等创新设计,在保证计算精度的同时,将Transformer计算性能提升约30%。
  • 内存与通信效率全面优化:内存系统方面,通过多精度近存规约引擎、低延迟Scale-Up、通算并行资源隔离等技术,实现了50%的带宽节省和60%的延迟降低。在通信和互联领域,独创的ACE异步通信引擎减少了15%的计算资源损耗,MTLink2.0互联技术提供了高出国内行业平均水平60%的带宽,为大规模集群部署奠定了坚实基础。

技术三:MUSA全栈系统软件,提升单节点计算效率
当AI算力竞争进入深水区,摩尔线程通过MUSA全栈系统软件实现关键技术突破,推动AI工厂从单点创新转向系统级效能提升。其核心创新包括:

  • 任务调度优化:核函数启动时间缩短50%;
  • 极致性能算子库:GEMM算子算力利用率达98%,Flash Attention 算子算力利用率突破95%;
  • 通信效能跃升:MCCL通信库实现RDMA网络97%带宽利用率;基于异步通信引擎优化计算通信并行,集群性能提升10%;
  • 低精度计算效率革新:FP8优化与重计算技术显著降低训练开销;
  • 开发生态完善:基于Triton-MUSA编译器+MUSA Graph 实现DeepSeek R1推理加速1.5倍,全面兼容Triton等主流框架。


技术四:自研KUAE大规模集群,优化集群效率

  • 当单节点效率达到新高度,如何实现大规模集群的高效协作成为新的挑战。摩尔线程自研KUAE计算集群通过5D大规模分布式并行计算技术,实现上千节点的高效协作,推动AI基础设施从单点优化迈向系统工程级突破。
  • 创新5D并行训练:摩尔线程整合数据、模型、张量、流水线和专家并行技术,全面支持Transformer等主流架构,显著提升大规模集群训练效率。
  • 性能仿真与优化:自主研发的Simumax工具面向超大规模集群自动搜索最优并行策略,精准模拟FP8混合精度训练与算子融合,为DeepSeek等模型缩短训练周期提供科学依据。
  • 秒级备份恢复:针对大模型稳定性难题,创新CheckPoint加速方案利用RDMA技术,将百GB级备份恢复时间从数分钟压缩至1秒,提升GPU有效算力利用率。


技术五:零中断容错技术,提升集群的稳定性和可靠性
在构建高效集群的基础上,稳定可靠的运行环境是“AI工厂”持续产出的保障。

特别在万卡级AI集群中,硬件故障导致的训练中断会严重浪费算力。摩尔线程创新推出零中断容错技术,故障发生时仅隔离受影响节点组,其余节点继续训练,备机无缝接入,全程无中断。这一方案使KUAE集群有效训练时间占比超99%,大幅降低恢复开销。
同时,KUAE集群通过多维度训练洞察体系实现动态监测与智能诊断,异常处理效率提升50%;结合集群巡检与起飞检查,训练成功率提高10%,为大规模AI训练提供稳定保障。


从训练到验证:构建完整闭环

摩尔线程以打造先进的“AI工厂”为目标,凭借全功能GPU的通用计算能力、创新的MUSA架构、优化的MUSA软件栈、自研的KUAE集群以及零中断容错技术这五大核心要素,构建起高效的“AI工厂”,为AI大模型训练提供了强大而可靠的基础设施支持。

完善的“AI工厂”不仅需要高效训练大模型,还需具备推理验证能力。摩尔线程基于自研MUSA技术栈,构建覆盖LLM、视觉、生成类模型的全流程推理解决方案,实现“训练-验证-部署”的无缝衔接。其MT Transformer自研推理引擎、TensorX自研推理引擎和vLLM-MUSA推理框架,为模型验证和部署提供极致性能支持。

AI工厂,驱动千行百业智能升级

依托AI工厂,摩尔线程成功构建起覆盖"训练-推理-部署"全流程的高效体系。这一突破标志着国产计算基础设施已具备支撑AGI时代规模化、高效率、高可靠模型生产的关键能力。

从图形渲染基石到AI算力引擎,摩尔线程全功能GPU持续加速计算革新。以“KUAE+MUSA”为智算业务核心,摩尔线程将加速赋能千行百业,推动全功能GPU驱动的AI技术在物理仿真、AIGC、科学计算、具身智能、智能体、医疗影像分析、工业大模型等关键领域的应用与部署。

同时,摩尔线程深知开放是生态繁荣之源。摩尔线程将于今年10月举办首届MUSA开发者大会,诚邀全球开发者共探前沿技术,共享MUSA自主新生态。

随着WAIC 2025正式拉开帷幕,摩尔线程以“全功能GPU,为美好世界加速”为主题,精彩亮相上海世博展览馆H1-A821展位,诚邀业界同仁莅临参观交流,共同见证国产人工智能基础设施的创新突破与发展。



关于摩尔线程
摩尔线程以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 摩尔线程
    +关注

    关注

    2

    文章

    256

    浏览量

    6198
  • 大模型
    +关注

    关注

    2

    文章

    3440

    浏览量

    4960
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何用FCU3501 AI边缘计算盒子,打造智慧工厂的视觉分析核心

    飞凌嵌入式FCU3501 AI边缘计算盒子,凭借“高可靠架构、强算力支撑、零门槛部署”的多重优势,能够为深陷转型困境的行业打造智慧工厂视觉质检与安全生产一体化系统,成为突破困局的关键动
    的头像 发表于 11-21 08:03 1178次阅读
    如何用FCU3501 <b class='flag-5'>AI</b>边缘计算盒子,<b class='flag-5'>打造</b>智慧<b class='flag-5'>工厂</b>的视觉分析<b class='flag-5'>核心</b>?

    摩尔线程新一代大语言模型对齐框架URPO入选AAAI 2026

    近日,摩尔线程在人工智能前沿领域取得重要突破,其提出的新一代大语言模型对齐框架——URPO统一奖励与策略优化,相关研究论文已被人工智能领域的国际顶级学术会议AAAI 2026收录。这一成果标志着
    的头像 发表于 11-17 16:03 222次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>新一代大语言<b class='flag-5'>模型</b>对齐框架URPO入选AAAI 2026

    摩尔线程发布大模型训练仿真工具SimuMax v1.0

    近日,摩尔线程正式发布并开源大模型分布式训练仿真工具SimuMax 1.0版本。该版本在显存和性能仿真精度上实现突破性提升,同时引入多项关键功能,进一步增强了
    的头像 发表于 09-11 18:19 3327次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>发布大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>仿真工具SimuMax v1.0

    摩尔线程五大核心技术提升 AI 工厂效率

    电子发烧友网报道(文 / 吴子鹏)第十三届半导体设备与核心部件及材料展(CSEAC 2025)的主题是 “做强中国芯,拥抱芯世界”。在展会开幕式暨 2025 集成电路(无锡)创新发展论坛上,摩尔线程
    发表于 09-07 02:56 3841次阅读

    摩尔线程副总裁王华:AI工厂全栈技术重构算力基建,开启国产 GPU 黄金时代

    摩尔线程在世界人工智能大会(WAIC 2025)前夕举办以“算力进化,精度革命”为主题的技术分享会,创新性提出“AI工厂” 理念。这一系统性
    的头像 发表于 08-02 14:21 4602次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>副总裁王华:<b class='flag-5'>AI</b><b class='flag-5'>工厂</b>全栈<b class='flag-5'>技术</b>重构算力基建,开启国产 GPU 黄金时代

    摩尔线程WAIC2025亮相:以“AI工厂”理念重塑算力生态 全栈产品开启智能新纪元

    决方案成为焦点,全方位展现了其在AI领域的技术实力与行业愿景。     一、“AI工厂”理念:重构大模型
    的头像 发表于 07-28 16:00 9914次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>WAIC2025亮相:以“<b class='flag-5'>AI</b><b class='flag-5'>工厂</b>”理念重塑算力生态 全栈产品开启智能新纪元

    摩尔线程亮相WAIC 2025:以“AI工厂”理念驱动算力进化,全栈AI应用赋能千行百业

    模型的“超级工厂”。此次参会不仅彰显了摩尔线程AI基础设施领域的系统性创新,更通过多行业案例展
    的头像 发表于 07-28 11:34 1373次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>亮相WAIC 2025:以“<b class='flag-5'>AI</b><b class='flag-5'>工厂</b>”理念驱动算力进化,全栈<b class='flag-5'>AI</b>应用赋能千行百业

    摩尔线程AI工厂”:以系统级创新定义新一代AI基础设施

    演讲中表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代A
    发表于 07-28 10:34 2385次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>“<b class='flag-5'>AI</b><b class='flag-5'>工厂</b>”:以系统级创新定义新一代<b class='flag-5'>AI</b>基础设施

    【「DeepSeek 核心技术揭秘」阅读体验】第三章:探索 DeepSeek - V3 技术架构的奥秘

    数据中挖掘有价值信息,这也让我意识到架构设计对模型性能起着根本性作用,是 AI 具备强大能力的 “骨骼” 支撑。 二、流水线并行 书中关于流水线并行的内容,展现了提升计算效率的巧妙思路。简单流水线并行虽
    发表于 07-20 15:07

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    模型圈子,其多项性能超过了当时处于领先地位的ChatGPT 4,也证明了不需要高昂的费用也能训练出优质大模型。这激起了我的好奇心,借着这次机会好好阅读一下DeepSeek的核心技术
    发表于 07-17 11:59

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    , incentivize.”也就是说,不要去“教”模型,而要“激励”它自主探索。 《DeepSeek核心技术揭秘》是剖析 DeepSeek 技术原理的专业技术书,以全面的内容、深入的
    发表于 06-09 14:38

    关于AI工厂三阶段模型

    在今天(2025年5月20日)的Computex大会上,富士康董事长刘扬伟发表了以“AI工厂三阶段模型”及“Genesis”为核心的Keynote演讲,提到鸿海集团在
    的头像 发表于 05-20 23:26 1183次阅读
    关于<b class='flag-5'>AI</b><b class='flag-5'>工厂</b>三阶段<b class='flag-5'>模型</b>

    首创开源架构,天玑AI开发套件让端侧AI模型接入得心应手

    科正将AI能力体系化并赋能终端生态。 大会上,联发科定义了“智能体化用户体验”的五大特征:主动及时、知你懂你、互动协作、学习进化和专属隐私信息守护。这五大特征需要跨越从芯片、模型、应
    发表于 04-13 19:52

    摩尔线程GPU原生FP8计算助力AI训练

    并行训练和推理,显著提升了训练效率与稳定性。摩尔线程是国内率先原生支持FP8计算精度的国产GPU企业,此次开源不仅为AI
    的头像 发表于 03-17 17:05 1205次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>GPU原生FP8计算助力<b class='flag-5'>AI</b><b class='flag-5'>训练</b>

    摩尔线程宣布成功部署DeepSeek蒸馏模型推理服务

    近日,摩尔线程智能科技(北京)有限责任公司在其官方渠道发布了一则重要消息,宣布公司已经成功实现了对DeepSeek蒸馏模型推理服务的部署。这一技术突破,标志着
    的头像 发表于 02-06 13:49 1182次阅读