0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程GPU原生FP8计算助力AI训练

摩尔线程 来源:摩尔线程 2025-03-17 17:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,摩尔线程正式开源MT-MegatronLM与MT-TransformerEngine两大AI框架。通过深度融合FP8混合训练策略和高性能算子库,这两大框架在国产全功能GPU上实现了高效的混合并行训练和推理,显著提升了训练效率与稳定性。摩尔线程是国内率先原生支持FP8计算精度的国产GPU企业,此次开源不仅为AI训练和推理提供了全新的国产化解决方案,更对推动国产GPU在AI大模型领域的应用具有重要意义。

▼MT-MegatronLM开源地址:

https://github.com/MooreThreads/MT-MegatronLM

▼MT-TransformerEngine开源地址:

https://github.com/MooreThreads/MT-TransformerEngine

框架介绍

MT-MegatronLM是面向全功能GPU的开源混合并行训练框架,支持dense模型、多模态模型及MoE(混合专家)模型的高效训练。该框架利用全功能GPU支持FP8混合精度策略、高性能算子库muDNN与集合通信库MCCL,可以显著提升国产全功能GPU集群的算力利用率。

MT-TransformerEngine主要用于Transformer模型的高效训练与推理优化,通过算子融合、并行加速策略等技术,充分释放摩尔线程全功能GPU高密度计算的潜力和memory bound算子的效率。

技术突破与优势

两大框架的技术突破集中体现在硬件适配与算法创新的深度协同:

▽混合并行训练:支持Dense、多模态及MoE模型的混合并行训练,可灵活应对不同模型架构的复杂运算场景;

▽FP8混合训练策略:结合摩尔线程GPU原生支持的FP8混合精度训练策略,能够有效提升训练效率;

▽高性能算子库:通过高性能算子库muDNN与通信库MCCL的深度集成,系统性优化了计算密集型任务与多卡协同的通信开销;同时结合摩尔线程开源Simumax库,可自动进行并行策略搜索,并针对不同模型和加速环境spec最大化并行训练性能;

▽异常训练处理:框架内置的rewind异常恢复机制,可自动回滚至最近稳定节点继续训练,大幅提升大规模训练的稳定性;

▽完整的兼容性:两个框架兼容GPU主流生态,既保障了现有生态的平滑迁移,也为开发者构建自有的AI技术栈提供了底层支撑。

▼摩尔线程Simumax开源地址:

https://github.com/MooreThreads/SimuMax

实际应用效果

在实际应用中,这两个框架的充分结合已经取得了显著的成果。这些成果不仅验证了框架的技术成熟度,也为国产GPU生态的规模化应用奠定了坚实基础。

▽高效训练:在全功能GPU集群上,Llama3 8B模型的训练任务,可以利用FP8在loss几乎无损的情况下MFU达到90%以上;(如下图所示)

4a65906c-fff3-11ef-9310-92fbcf53809c.png

图注:利用摩尔线程FP8混合精度加速技术在loss无损的情况下得到28%的加速

▽复现DeepSeek 满血版训练:摩尔线程已深度集成并开源对DeepSeek并行算法DualPipe的高效支持,MT-DualPipe可以完整接入MT-Megatron框架和MT-TransformerEngine框架,成功实现DeepSeek V3训练流程的完整复现,支持MLA、MTP及多种专家平衡策略;

▽性能大幅优化:通过多种Transformer算子融合技术,显著提升了内存带宽利用率,有效缓解memory bound瓶颈,进一步释放国产GPU的硬件潜力。

持续优化与生态共建

为加速国产GPU生态发展与建设,摩尔线程将持续优化MT-MegatronLM与MT-TransformerEngine框架,并引入一系列创新功能:

▽Dual Pipe/ZeroBubble并行策略:进一步降低气泡率,提升并行训练效率;

▽多种FP8优化策略:独创的FP8优化策略,提高训练的性能和稳定性;

▽异步checkpoint策略:提高训练过程中的容错能力和效率;

▽优化后的重计算策略:减少计算和显存开销,提高训练速度;

▽容错训练策略:独创的容错训练算法,增强训练过程中的容错能力;

▽集成摩尔线程FlashMLA和DeepGemm库:进一步释放摩尔线程GPU的算力和FP8计算能力,提升计算性能和效率。

摩尔线程始终致力于推动开源生态的发展,通过技术开放与生态共建,加速国产全功能GPU在AI计算领域的规模化应用,为更多用户提供更智能、高效的解决方案。

▼ 关于摩尔线程

摩尔线程成立于2020年10月,以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5097

    浏览量

    134415
  • AI
    AI
    +关注

    关注

    89

    文章

    38077

    浏览量

    296301
  • 开源
    +关注

    关注

    3

    文章

    4031

    浏览量

    45545
  • 摩尔线程
    +关注

    关注

    2

    文章

    254

    浏览量

    6197

原文标题:开源MT-MegatronLM和MT-TransformerEngine|摩尔线程GPU原生FP8计算助力AI训练

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    摩尔线程亮相GOTC 2025全球开源技术峰会

    摩尔线程高级副总裁杨上山在主论坛发表《摩尔线程全功能GPU原生支持开源生态》的主题演讲,系统阐
    的头像 发表于 11-04 10:43 1530次阅读

    摩尔线程副总裁王华:AI工厂全栈技术重构算力基建,开启国产 GPU 黄金时代

    摩尔线程在世界人工智能大会(WAIC 2025)前夕举办以“算力进化,精度革命”为主题的技术分享会,创新性提出“AI工厂” 理念。这一系统性工程通过全功能 GPU、自研架构、集群技术与
    的头像 发表于 08-02 14:21 4598次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>副总裁王华:<b class='flag-5'>AI</b>工厂全栈技术重构算力基建,开启国产 <b class='flag-5'>GPU</b> 黄金时代

    摩尔线程吴庆详解 MUSA 软件栈:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度​

    的分享。GPU 计算软件开发总监吴庆登上讲台,发表了题为《摩尔线程 MUSA 软件栈助力 KUAE 集群释放无限潜能》的演讲。他从专业视角出
    的头像 发表于 07-28 13:47 5487次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>吴庆详解 MUSA 软件栈:以技术创新释放 KUAE 集群潜能,引领 <b class='flag-5'>GPU</b> <b class='flag-5'>计算</b>新高度​

    摩尔线程亮相WAIC 2025:以“AI工厂”理念驱动算力进化,全栈AI应用赋能千行百业

    模型的“超级工厂”。此次参会不仅彰显了摩尔线程AI基础设施领域的系统性创新,更通过多行业案例展现了国产GPU技术的广泛应用前景。     首提“A
    的头像 发表于 07-28 11:34 1373次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>亮相WAIC 2025:以“<b class='flag-5'>AI</b>工厂”理念驱动算力进化,全栈<b class='flag-5'>AI</b>应用赋能千行百业

    摩尔线程AI工厂”:五大核心技术支撑,打造大模型训练超级工厂

    演讲中表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI
    的头像 发表于 07-28 11:28 3948次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>“<b class='flag-5'>AI</b>工厂”:五大核心技术支撑,打造大模型<b class='flag-5'>训练</b>超级工厂

    摩尔线程AI工厂”:以系统级创新定义新一代AI基础设施

    演讲中表示,为应对生成式AI爆发式增长下的大模型训练效率瓶颈,摩尔线程将通过系统级工程创新,构建新一代AI
    发表于 07-28 10:34 2385次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>“<b class='flag-5'>AI</b>工厂”:以系统级创新定义新一代<b class='flag-5'>AI</b>基础设施

    摩尔线程AI算力平台AutoDL达成深度合作

    近日,摩尔线程与国内领先的AI算力平台AutoDL宣布达成深度合作,双方联合推出面向个人开发者的“摩尔线程专区”,首次将国产
    的头像 发表于 05-23 16:10 1408次阅读

    摩尔线程发布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    , 支持原生FP8数据类型,支持PyTorch 2.5.0 ,并通过多项针对MUSA计算平台的性能优化,进一步提升了对AI模型和大规模数据处理的支持能力。
    的头像 发表于 05-11 16:41 1262次阅读

    摩尔线程GPU成功适配Deepseek-V3-0324大模型

    架构和全功能GPU的强大技术实力,摩尔线程迅速响应并完成了对DeepSeek-V3的无缝升级,实现了零报错、零兼容性问题的光速部署,充分展现了摩尔
    的头像 发表于 03-31 11:34 1103次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b><b class='flag-5'>GPU</b>成功适配Deepseek-V3-0324大模型

    摩尔线程发布云电脑驱动MT vGPU 2.7.0

    3月18日,摩尔线程正式发布云电脑驱动MT vGPU 2.7.0。新版本在国内首次实现了国产GPU云电脑对DirectX 12的支持,同时显著提升图形渲染性能与兼容性。通过全功能GPU
    的头像 发表于 03-19 15:56 759次阅读

    摩尔线程全面支持DeepSeek开源周成果

    DeepSeek开源周正式收官,作为国内率先原生支持FP8计算精度的国产GPU企业,摩尔线程迅速
    的头像 发表于 03-04 10:06 839次阅读

    摩尔线程完成DeepSeek开源库FlashMLA和DeepGEMM适配

    自DeepSeek启动“开源周”以来,已陆续开源三个代码库。摩尔线程基于全新MUSA Compute Capability 3.1计算架构,可提供原生
    的头像 发表于 02-27 14:40 1082次阅读

    FP8在大模型训练中的应用

    越来越多的技术团队开始使用 FP8 进行大模型训练,这主要因为 FP8 有很多技术优势。比如在新一代的 GPU 上,FP8 相对于 BF16
    的头像 发表于 01-23 09:39 1891次阅读
    <b class='flag-5'>FP8</b>在大模型<b class='flag-5'>训练</b>中的应用

    GPU是如何训练AI大模型的

    AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解
    的头像 发表于 12-19 17:54 1308次阅读

    如何使用FP8新技术加速大模型训练

    /fp8_primer.html#Introduction-to-FP8 其中,使用 FP8 进行大模型训练具有以下优势: 新一代 GPU 如 NVIDIA Ada Lovelace、
    的头像 发表于 12-09 11:30 2065次阅读