0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程发布Torch-MUSA v2.7.0版本

摩尔线程 来源:摩尔线程 2025-12-04 09:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,摩尔线程正式发布PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2.7.0,新版本在功能集成、性能优化与硬件支持方面实现进一步突破。Torch-MUSA在短短一个月内,连续完成v2.5.0和v2.7.0两次版本更新,充分体现了摩尔线程在MUSA生态建设上的持续投入与快速迭代能力。

▼Torch-MUSA开源地址:

https://github.com/MooreThreads/torch_musa

自v2.5.0起,Torch-MUSA版本号已与PyTorch主版本号保持同步,便于开发者进行版本识别与管理。新版本进一步集成muSolver与muFFT等计算加速库,显著提升复杂计算任务的执行效率;同时新增对统一内存设备(Unified Memory)的UMM支持,有效优化内存使用效率。

此外,新版本继续保持与最新MUSA SDK的兼容性,支持使用MUSA SDK 4.2.0至4.3.0及更高版本进行编译。目前Torch-MUSA专属支持的算子总数已超过1050个,系统在性能与稳定性方面均实现进一步提升,为大模型训练与推理提供了更高效、更可靠的底层支持。

v2.7.0版本主要更新内容

新增特性

▼动态双精度转换(Dynamic Double Cast)

用户可通过设置环境变量export TORCH_USE_MUSA_DOUBLE_CAST=1,开启Float64数据类型算子的动态转换功能,torch_musa将使用float32作为计算数据类型。

▼分布式检查点(Distributed Checkpoint)

支持从多个rank并行加载和保存模型,显著加速检查点的保存与加载过程。目前已支持分布式检查点的异步保存功能。

功能增强

▼新增Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample(1d、2d、3d、with aa)、flash_attention、transformer_encoder_layer 等多个实用算子,MUSA专属支持的算子总数突破1050个。

▼通过升级PyTorch底层支持,torch.compile与AOTInductor功能进一步增强;

▼默认启用TF32计算模式,提升浮点运算效率;

▼优化性能分析工具Kineto的稳定性,并将其适配版本升级至2.7.0;

▼继续优化FSDP2流水线并行策略,进一步降低内存占用。

v2.5.0版本主要更新内容

新增特性

▼新增muFFT与muSolver库集成,大幅扩展计算能力;

▼在面向边缘计算的SoC设备中支持统一内存管理,基于Arm 架构的UMA(统一内存寻址)设计,实现GPUCPU共享同一物理内存空间,显著降低模型运行过程中的内存开销,具体包括:

消除GPU端重复内存分配;

减少主机与设备间的内存拷贝;

GPU可直接访问由CPU分配器申请的内存空间。

算子扩展与性能优化

▼新增支持包括ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd等多个算子;

▼新增基础 Sparse(CSR) 操作支持;

▼扩充量化算子支持范围;

▼修复torch.norm形状错误问题;

▼支持reduce_sum的uint8输入与int64输出;

C++扩展新增支持tensor.is_musa()方法;

▼修复空输入下argmax/argmin的异常行为;

▼优化var/std、pad、convolution3d、layer_norm等操作的执行效率。

系统功能增强

▼开放torch.musa.mccl.version()接口

▼支持getCurrentMUSABlasHandle与getCurrentMUSABlasLtHandle;

▼优化FSDP2流水线并行策略,降低训练内存占用。

未来计划

Torch-MUSA将继续跟进PyTorch的版本更新,计划下一版本支持PyTorch 2.9.0,并进一步优化性能与功能,持续构建和完善基于MUSA架构国产全功能GPU的深度学习生态。

▼ 关于摩尔线程

摩尔线程以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38153

    浏览量

    296806
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51719
  • pytorch
    +关注

    关注

    2

    文章

    813

    浏览量

    14706
  • 摩尔线程
    +关注

    关注

    2

    文章

    256

    浏览量

    6223

原文标题:摩尔线程发布Torch-MUSA v2.7.0,持续增强AI模型训练与推理支持

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    摩尔线程发布大模型训练仿真工具SimuMax v1.0

    近日,摩尔线程正式发布并开源大模型分布式训练仿真工具SimuMax 1.0版本。该版本在显存和性能仿真精度上实现突破性提升,同时引入多项关键
    的头像 发表于 09-11 18:19 3353次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b><b class='flag-5'>发布</b>大模型训练仿真工具SimuMax <b class='flag-5'>v</b>1.0

    摩尔线程发布Torch-MUSA v2.1.1版本

    近日,摩尔线程发布其面向PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2
    的头像 发表于 09-10 11:02 735次阅读

    摩尔线程发布图形显卡驱动程序v310.120

    8月20日,摩尔线程发布版本号为v310.120的图形显卡驱动程序。本次更新带来多项重大技术升级:新增对Windows 11 24H2
    的头像 发表于 08-21 16:07 964次阅读

    摩尔线程吴庆详解 MUSA 软件栈:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度​

    的分享。GPU 计算软件开发总监吴庆登上讲台,发表了题为《摩尔线程 MUSA 软件栈助力 KUAE 集群释放无限潜能》的演讲。他从专业视角出发,为在场听众深入剖析了 MUSA 软件栈在
    的头像 发表于 07-28 13:47 5533次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>吴庆详解 <b class='flag-5'>MUSA</b> 软件栈:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度​

    摩尔线程发布图形显卡驱动程序v300.110

    近日,摩尔线程发布版本号为v300.110的图形显卡驱动程序,为游戏玩家和专业用户带来全方位的性能优化与体验提升,特别在3DMark基准测试
    的头像 发表于 05-22 17:26 939次阅读

    摩尔线程发布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    近日,摩尔线程正式发布Torch-MUSA v2.0.0版本,这是其面向PyTorch深度学习框
    的头像 发表于 05-11 16:41 1277次阅读

    摩尔线程Linux驱动v3.0.0发布

    近日,摩尔线程正式推出Linux驱动程序v3.0.0,全面支持图形显卡MTT S80和高性能专业显卡MTT X300。作为v2.7.0RC4之后的重大升级
    的头像 发表于 05-08 11:38 1108次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>Linux驱动<b class='flag-5'>v</b>3.0.0<b class='flag-5'>发布</b>

    摩尔线程GPU成功适配Deepseek-V3-0324大模型

    近日,DeepSeek正式发布了其大语言模型的全新小版本迭代——DeepSeek-V3-0324,这一版本在推理能力、代码生成、中文写作以及搜索能力等多个维度实现了显著提升。凭借其先进
    的头像 发表于 03-31 11:34 1109次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>GPU成功适配Deepseek-<b class='flag-5'>V</b>3-0324大模型

    摩尔线程发布图形显卡驱动v290.100.1

    3月20日,摩尔线程发布版本号为v290.100.1的图形显卡驱动程序。在DirectX 12模式下,新驱动对《战地风云5》《幽灵行者2》进
    的头像 发表于 03-21 14:26 681次阅读

    摩尔线程发布云电脑驱动MT vGPU 2.7.0

    3月18日,摩尔线程正式发布云电脑驱动MT vGPU 2.7.0。新版本在国内首次实现了国产GPU云电脑对DirectX 12的支持,同时显
    的头像 发表于 03-19 15:56 766次阅读

    摩尔线程完成DeepSeek开源库FlashMLA和DeepGEMM适配

    自DeepSeek启动“开源周”以来,已陆续开源三个代码库。摩尔线程基于全新MUSA Compute Capability 3.1计算架构,可提供原生FP8计算能力,同时升级了高性能线性代数模板库
    的头像 发表于 02-27 14:40 1122次阅读

    摩尔线程图形显卡MTT S80实现DeepSeek模型部署

    摩尔线程“全功能”图形显卡MTT S80,不仅游戏渲染性能强大,能玩《黑神话:悟空》,现在还能本地部署DeepSeek R1蒸馏模型。搭配最新发布MUSA SDK RC3.1.1
    的头像 发表于 02-21 15:46 4051次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>图形显卡MTT S80实现DeepSeek模型部署

    摩尔线程发布图形显卡驱动v290.100

    2月20日,摩尔线程发布版本号为v290.100的图形显卡驱动程序。此次更新针对多款热门游戏进行了深度优化,旨在为玩家带来更流畅、更稳定的游
    的头像 发表于 02-20 18:16 1080次阅读

    摩尔线程发布图形显卡驱动程序v280.90.2

    1月20日,摩尔线程发布最新图形显卡驱动程序v280.90.2。
    的头像 发表于 01-21 10:07 898次阅读

    摩尔线程发布最新图形显卡驱动程序v280.90.1

    12月20日,摩尔线程发布最新图形显卡驱动程序v280.90.1,旨在通过深入的性能优化和关键问题修复,为用户带来更加流畅和沉浸式的游戏体验。 在本次更新中,
    的头像 发表于 12-21 16:16 880次阅读