0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程发布Torch-MUSA v2.1.1版本

摩尔线程 来源:摩尔线程 2025-09-10 11:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,摩尔线程发布其面向PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2.1.1。该版本在v2.1.0的基础上,进一步扩展了对大规模深度学习模型训练与推理的支持能力,并在编译优化、计算性能和算子生态等方面实现显著增强。

Torch-MUSA v2.1.1核心特性

全新的v2.1.1版本集成了v2.1.0版本的多项重要特性,主要包括:

▼FSDP2分布式训练支持:引入基于DTensor的每参数分片策略,结合摩尔线程MUSA架构GPU深度优化,大幅提升大模型分布式训练效率。

▼AOTInductor集成:支持模型针对摩尔线程计算卡进行提前编译(Ahead-of-Time编译),优化推理部署流程。

▼内存管理优化:新增可插拔的MUSA内存统一系统分配器后端,有效缓解GPU内存碎片化问题,降低训练峰值内存占用。

▼Triton-MUSA后端增强:为torch.compile提供完整的Triton-MUSA后端支持,减少设备特定代码,提升编译效率。

▼PyTorch3D原生支持:扩展对PyTorch3D计算库的支持,确保3D深度学习工作流在摩尔线程计算卡上的流畅运行。

本次发布的 v2.1.1 版本,聚焦于进一步释放硬件潜力,并在关键计算路径上实现加速:

▼引入MUSA Graphs后端:为torch.compile新增MUSA Graphs后端,进一步降低主机开销,并通过MUSA Graph技术实现端到端的计算加速。

▼集成muSolver计算库:将muSolver深度集成至多个线性代数算子的后端,提升计算效率和数值稳定性。

▼新增融合算子:支持使用MUSA原生的FusedAdamW和FusedAdam,通过算子融合减少内核启动开销,提升训练效率。

▼算子性能优化与扩展:持续优化算子性能,原生支持算子数量增加至950+。

▼扩展基准测试模块:加强对更多算子用例的性能评估支持,方便用户进行全面的性能对比与分析。

体验与生态兼容持续优化

从上一版本开始,Torch-MUSA在用户体验和生态兼容性方面实现了显著的改进与优化:

▼简化集成流程:从v2.1.0开始支持torch_musa自动加载,用户无需在Python脚本中显式调用"import torch_musa"导入即可使用,简化了集成流程。

▼生态兼容:v2.1.0和v2.2.0均基于PyTorch 2.5.0构建,确保了与主流PyTorch生态工具链的兼容性。

▼持续性能优化:在FP8混合精度训练(v2.0.0引入的特性)、内核融合、通信优化等方面进行了持续优化,为用户带来更加稳定、高效的开发体验。

▼Torch-MUSA 开源地址:

https://github.com/MooreThreads/torch_musa

▼版本迭代:

v1.1.0:初次发布,支持PyTorch 2.0,提供基础张量操作和常见神经网络层的MUSA加速。

v1.2.0:进一步扩展算子支持,支持了完整功能的Profiler、MUSA Extension,并增加了Torch-MUSA专有特性如compare_tool、musa_converter,帮助用户更快的定位模型精度问题。

v1.3.0:支持PyTorch 2.2.0,性能进一步提升,支持FSDP,支持更复杂的模型和更大规模的数据处理。

v2.0.0:首次原生支持FP8数据类型,支持PyTorch 2.5.0,新增MUSA虚拟内存管理技术优化大模型训练内存效率,通过集成Triton-MUSA后端显著提升torch.compile编译效率,支持MUSA Graph技术。

v2.1.0:支持FSDP2,集成AOTInductor,支持PyTorch3D,为torch.compile提供完整的Triton-MUSA后端支持,支持torch_musa自动加载。

v2.1.1:torch.compile支持MUSA Graphs后端,原生支持算子超950个,并优化了大量算子性能。

▼未来计划:

Torch-MUSA将继续跟进PyTorch的版本更新,计划下一版本支持PyTorch 2.7,并持续优化性能与功能,为基于MUSA架构的国产全功能GPU构建更强大的深度学习生态。

▼ 关于摩尔线程

摩尔线程以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 深度学习
    +关注

    关注

    73

    文章

    5603

    浏览量

    124609
  • pytorch
    +关注

    关注

    2

    文章

    813

    浏览量

    14918
  • 摩尔线程
    +关注

    关注

    2

    文章

    285

    浏览量

    6635

原文标题:强化FSDP2分布式训练支持,摩尔线程发布Torch-MUSA v2.1.1

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    摩尔线程正式开源MuJoCo Warp MUSA

    3月30日,摩尔线程正式开源MuJoCo Warp MUSA。这是具身智能领域首个基于MUSA架构的全功能GPU加速物理仿真后端,补齐了国产算力在强化学习仿真训练底层生态中的关键一环。
    的头像 发表于 04-01 10:40 1986次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>正式开源MuJoCo Warp <b class='flag-5'>MUSA</b>

    摩尔线程发布图形显卡驱动程序v330.140

    3月20日,摩尔线程正式发布版本号为v330.140的图形显卡驱动程序。本次更新重磅引入MTVSR实时视频超分技术,并针对多款热门游戏及专业
    的头像 发表于 03-24 09:52 275次阅读

    摩尔线程快速完成对Qwen3.5模型全面适配

    2月17日,摩尔线程宣布已在旗舰级AI训推一体全功能GPU MTT S5000上完成对阿里最新大模型Qwen3.5的全方位适配。此次支持充分展示了摩尔线程
    发表于 02-18 08:32 1116次阅读

    摩尔线程正式开源TileLang-MUSA项目

    近日,摩尔线程正式开源TileLang-MUSA项目,实现对TileLang编程语言的完整支持。该项目已成功在摩尔线程多代全功能GPU上完成
    的头像 发表于 02-11 16:57 1645次阅读

    让AI开发更简单!摩尔线程发布AI算力MTT AIBOOK

    12月20日,在首届MUSA开发者大会现场,摩尔线程正式发布其战略级终端产品——AI算力 MTT AIBOOK。 该产品专为AI学习与开发
    的头像 发表于 12-30 17:00 946次阅读
    让AI开发更简单!<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b><b class='flag-5'>发布</b>AI算力<b class='flag-5'>本</b>MTT AIBOOK

    摩尔线程在MDC 2025重磅发布全栈创新成果

    12月20日,在首届MUSA开发者大会上,摩尔线程创始人、董事长兼CEO张建中发表主题演讲,系统展示了以自主MUSA统一架构为核心的全栈创新成果,全面展现公司在技术和生态上的关键突破与
    的头像 发表于 12-22 18:04 1562次阅读

    摩尔线程发布Torch-MUSA v2.7.0版本

    近日,摩尔线程正式发布PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2.
    的头像 发表于 12-04 09:05 1256次阅读

    摩尔线程发布大模型训练仿真工具SimuMax v1.0

    近日,摩尔线程正式发布并开源大模型分布式训练仿真工具SimuMax 1.0版本。该版本在显存和性能仿真精度上实现突破性提升,同时引入多项关键
    的头像 发表于 09-11 18:19 3861次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b><b class='flag-5'>发布</b>大模型训练仿真工具SimuMax <b class='flag-5'>v</b>1.0

    摩尔线程发布图形显卡驱动程序v310.120

    8月20日,摩尔线程发布版本号为v310.120的图形显卡驱动程序。本次更新带来多项重大技术升级:新增对Windows 11 24H2
    的头像 发表于 08-21 16:07 1593次阅读

    摩尔线程吴庆详解 MUSA 软件栈:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度​

    的分享。GPU 计算软件开发总监吴庆登上讲台,发表了题为《摩尔线程 MUSA 软件栈助力 KUAE 集群释放无限潜能》的演讲。他从专业视角出发,为在场听众深入剖析了 MUSA 软件栈在
    的头像 发表于 07-28 13:47 6383次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>吴庆详解 <b class='flag-5'>MUSA</b> 软件栈:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度​

    摩尔线程发布图形显卡驱动程序v300.110.1

    近日,摩尔线程发布版本号为v300.110.1的图形显卡驱动程序。本次更新针对近期上市的高人气游戏《剑星》进行了专项优化,MTT S80在该
    的头像 发表于 06-24 18:01 1290次阅读

    摩尔线程发布图形显卡驱动程序v300.110

    近日,摩尔线程发布版本号为v300.110的图形显卡驱动程序,为游戏玩家和专业用户带来全方位的性能优化与体验提升,特别在3DMark基准测试
    的头像 发表于 05-22 17:26 1309次阅读

    摩尔线程发布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    近日,摩尔线程正式发布Torch-MUSA v2.0.0版本,这是其面向PyTorch深度学习框
    的头像 发表于 05-11 16:41 1851次阅读

    摩尔线程Linux驱动v3.0.0发布

    近日,摩尔线程正式推出Linux驱动程序v3.0.0,全面支持图形显卡MTT S80和高性能专业显卡MTT X300。作为v2.7.0RC4之后的重大升级
    的头像 发表于 05-08 11:38 1488次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>Linux驱动<b class='flag-5'>v</b>3.0.0<b class='flag-5'>发布</b>

    摩尔线程发布图形显卡驱动程序v290.100.2

    近日,摩尔线程发布版本号为v290.100.2的图形显卡驱动程序。此次更新在DirectX 12模式下对《巫师3:狂猎》进行了显著优化,使其
    的头像 发表于 04-23 11:20 1024次阅读