0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程发布Torch-MUSA v2.7.0版本

摩尔线程 来源:摩尔线程 2025-12-04 09:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,摩尔线程正式发布PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2.7.0,新版本在功能集成、性能优化与硬件支持方面实现进一步突破。Torch-MUSA在短短一个月内,连续完成v2.5.0和v2.7.0两次版本更新,充分体现了摩尔线程在MUSA生态建设上的持续投入与快速迭代能力。

▼Torch-MUSA开源地址:

https://github.com/MooreThreads/torch_musa

自v2.5.0起,Torch-MUSA版本号已与PyTorch主版本号保持同步,便于开发者进行版本识别与管理。新版本进一步集成muSolver与muFFT等计算加速库,显著提升复杂计算任务的执行效率;同时新增对统一内存设备(Unified Memory)的UMM支持,有效优化内存使用效率。

此外,新版本继续保持与最新MUSA SDK的兼容性,支持使用MUSA SDK 4.2.0至4.3.0及更高版本进行编译。目前Torch-MUSA专属支持的算子总数已超过1050个,系统在性能与稳定性方面均实现进一步提升,为大模型训练与推理提供了更高效、更可靠的底层支持。

v2.7.0版本主要更新内容

新增特性

▼动态双精度转换(Dynamic Double Cast)

用户可通过设置环境变量export TORCH_USE_MUSA_DOUBLE_CAST=1,开启Float64数据类型算子的动态转换功能,torch_musa将使用float32作为计算数据类型。

▼分布式检查点(Distributed Checkpoint)

支持从多个rank并行加载和保存模型,显著加速检查点的保存与加载过程。目前已支持分布式检查点的异步保存功能。

功能增强

▼新增Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample(1d、2d、3d、with aa)、flash_attention、transformer_encoder_layer 等多个实用算子,MUSA专属支持的算子总数突破1050个。

▼通过升级PyTorch底层支持,torch.compile与AOTInductor功能进一步增强;

▼默认启用TF32计算模式,提升浮点运算效率;

▼优化性能分析工具Kineto的稳定性,并将其适配版本升级至2.7.0;

▼继续优化FSDP2流水线并行策略,进一步降低内存占用。

v2.5.0版本主要更新内容

新增特性

▼新增muFFT与muSolver库集成,大幅扩展计算能力;

▼在面向边缘计算的SoC设备中支持统一内存管理,基于Arm 架构的UMA(统一内存寻址)设计,实现GPUCPU共享同一物理内存空间,显著降低模型运行过程中的内存开销,具体包括:

消除GPU端重复内存分配;

减少主机与设备间的内存拷贝;

GPU可直接访问由CPU分配器申请的内存空间。

算子扩展与性能优化

▼新增支持包括ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd等多个算子;

▼新增基础 Sparse(CSR) 操作支持;

▼扩充量化算子支持范围;

▼修复torch.norm形状错误问题;

▼支持reduce_sum的uint8输入与int64输出;

C++扩展新增支持tensor.is_musa()方法;

▼修复空输入下argmax/argmin的异常行为;

▼优化var/std、pad、convolution3d、layer_norm等操作的执行效率。

系统功能增强

▼开放torch.musa.mccl.version()接口

▼支持getCurrentMUSABlasHandle与getCurrentMUSABlasLtHandle;

▼优化FSDP2流水线并行策略,降低训练内存占用。

未来计划

Torch-MUSA将继续跟进PyTorch的版本更新,计划下一版本支持PyTorch 2.9.0,并进一步优化性能与功能,持续构建和完善基于MUSA架构国产全功能GPU的深度学习生态。

▼ 关于摩尔线程

摩尔线程以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    42239

    浏览量

    303292
  • 模型
    +关注

    关注

    1

    文章

    3882

    浏览量

    52381
  • pytorch
    +关注

    关注

    2

    文章

    813

    浏览量

    14963
  • 摩尔线程
    +关注

    关注

    2

    文章

    299

    浏览量

    6698

原文标题:摩尔线程发布Torch-MUSA v2.7.0,持续增强AI模型训练与推理支持

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    摩尔线程发布首款家庭AI中枢AICUBE

    近日,北京——国产GPU领军企业摩尔线程正式举办2026产品发布会,宣布全面深化端侧AI战略布局,并重磅发布首款面向家庭场景的消费级产品——MTT AICUBE(以下简称AICUBE)
    的头像 发表于 05-20 09:39 574次阅读

    摩尔线程完成DeepSeek-V4全链路工程化适配:S5000基于MUSA+SGLang实现复杂MoE模型快速落地

    近日,摩尔线程依托旗舰级AI训推一体智算卡MTT S5000与自研MUSA软件栈,基于SGLang 开源推理框架,成功完成DeepSeek-V4的完整运行验证。该成果表明,面向新一代M
    发表于 05-02 09:01 870次阅读

    摩尔线程TileLang-MUSA率先支持DeepSeek-V4全新TileKernels

    4月24日,摩尔线程宣布,其基于TileLang 0.1.8版本深度优化并已成为TileLang官方主线版本的TileLang-MUSA,已
    的头像 发表于 04-30 16:17 581次阅读

    摩尔线程正式开源MuJoCo Warp MUSA

    3月30日,摩尔线程正式开源MuJoCo Warp MUSA。这是具身智能领域首个基于MUSA架构的全功能GPU加速物理仿真后端,补齐了国产算力在强化学习仿真训练底层生态中的关键一环。
    的头像 发表于 04-01 10:40 3325次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>正式开源MuJoCo Warp <b class='flag-5'>MUSA</b>

    摩尔线程发布图形显卡驱动程序v330.140

    3月20日,摩尔线程正式发布版本号为v330.140的图形显卡驱动程序。本次更新重磅引入MTVSR实时视频超分技术,并针对多款热门游戏及专业
    的头像 发表于 03-24 09:52 433次阅读

    摩尔线程MTT S5000全面适配Qwen3.5三款新模型

    第一时间做出极速响应,宣布已在旗舰级AI训推一体全功能GPU MTT S5000上,完成对这三款全新模型的全方位适配。   此次高效支持充分展示了摩尔线程MUSA生态的成熟度与完备性。在本次Qwen3.5
    的头像 发表于 02-26 16:23 977次阅读

    摩尔线程快速完成对Qwen3.5模型全面适配

    2月17日,摩尔线程宣布已在旗舰级AI训推一体全功能GPU MTT S5000上完成对阿里最新大模型Qwen3.5的全方位适配。此次支持充分展示了摩尔线程
    发表于 02-18 08:32 1163次阅读

    摩尔线程正式开源TileLang-MUSA项目

    近日,摩尔线程正式开源TileLang-MUSA项目,实现对TileLang编程语言的完整支持。该项目已成功在摩尔线程多代全功能GPU上完成
    的头像 发表于 02-11 16:57 1861次阅读

    让AI开发更简单!摩尔线程发布AI算力MTT AIBOOK

    12月20日,在首届MUSA开发者大会现场,摩尔线程正式发布其战略级终端产品——AI算力 MTT AIBOOK。 该产品专为AI学习与开发
    的头像 发表于 12-30 17:00 1055次阅读
    让AI开发更简单!<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b><b class='flag-5'>发布</b>AI算力<b class='flag-5'>本</b>MTT AIBOOK

    摩尔线程在MDC 2025重磅发布全栈创新成果

    12月20日,在首届MUSA开发者大会上,摩尔线程创始人、董事长兼CEO张建中发表主题演讲,系统展示了以自主MUSA统一架构为核心的全栈创新成果,全面展现公司在技术和生态上的关键突破与
    的头像 发表于 12-22 18:04 1676次阅读

    摩尔线程发布大模型训练仿真工具SimuMax v1.0

    近日,摩尔线程正式发布并开源大模型分布式训练仿真工具SimuMax 1.0版本。该版本在显存和性能仿真精度上实现突破性提升,同时引入多项关键
    的头像 发表于 09-11 18:19 4018次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b><b class='flag-5'>发布</b>大模型训练仿真工具SimuMax <b class='flag-5'>v</b>1.0

    摩尔线程发布Torch-MUSA v2.1.1版本

    近日,摩尔线程发布其面向PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2
    的头像 发表于 09-10 11:02 1340次阅读

    摩尔线程发布图形显卡驱动程序v310.120

    8月20日,摩尔线程发布版本号为v310.120的图形显卡驱动程序。本次更新带来多项重大技术升级:新增对Windows 11 24H2
    的头像 发表于 08-21 16:07 1768次阅读

    摩尔线程吴庆详解 MUSA 软件栈:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度​

    的分享。GPU 计算软件开发总监吴庆登上讲台,发表了题为《摩尔线程 MUSA 软件栈助力 KUAE 集群释放无限潜能》的演讲。他从专业视角出发,为在场听众深入剖析了 MUSA 软件栈在
    的头像 发表于 07-28 13:47 6586次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>吴庆详解 <b class='flag-5'>MUSA</b> 软件栈:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度​

    摩尔线程发布图形显卡驱动程序v300.110.1

    近日,摩尔线程发布版本号为v300.110.1的图形显卡驱动程序。本次更新针对近期上市的高人气游戏《剑星》进行了专项优化,MTT S80在该
    的头像 发表于 06-24 18:01 1397次阅读