0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程发布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

摩尔线程 来源:摩尔线程 2025-05-11 16:41 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,摩尔线程正式发布Torch-MUSA v2.0.0版本,这是其面向PyTorch深度学习框架的MUSA扩展库的重要升级。新版本基于MUSA Compute Capability 3.1计算架构,支持原生FP8数据类型,支持PyTorch 2.5.0,并通过多项针对MUSA计算平台的性能优化,进一步提升了对AI模型和大规模数据处理的支持能力。

FP8原生支持,国产GPU的技术突破

作为本次升级的核心亮点,Torch-MUSA v2.0.0率先在国产GPU上实现了对FP8数据类型的完整支持。FP8是当前AI计算的一种前沿低精度格式,在支持原生FP8的GPU上,大语言模型(LLM)训练采用FP8混合精度可大幅提高GPU算力,显著降低显存占用。摩尔线程基于新一代 MUSA Compute Capability 3.1 计算架构的全功能 GPU 原生支持 FP8 计算,这为 Torch-MUSA v2.0.0 实现 FP8 矩阵乘法和分布式通信优化提供了坚实的基础。依托这一底层架构优势,Torch-MUSA v2.0.0 能够充分发挥 FP8 的计算效能,显著提升大语言模型训练和推理的效率。

三大关键优化,提升AI计算效率

Torch-MUSA v2.0.0在MUSA计算平台引入多项创新功能,进一步提升深度学习任务的执行效率:

新增虚拟内存管理支持:

MUSA虚拟内存管理技术能够有效缓解GPU内存碎片化问题,降低模型训练过程中的峰值内存占用,特别适用于FSDP、DeepSpeed和Megatron-LM等主流大模型训练框架。

新增MUSA Graph支持:

MUSA Graph技术将多个MUSA内核整合到一个图中,通过单次CPU调度大幅减少启动开销,提升计算效率,同时与CUDA Graph接口高效兼容。

torch.compile增加Triton后端支持:

为torch.compile提供了Triton-MUSA后端支持,开发者可以直接使用PyTorch原生接口,获得更高效的性能表现。

支持PyTorch 2.5.0,生态兼容性更强

Torch-MUSA v2.0.0在完整支持PyTorch 2.2.0的基础上,新增了对PyTorch 2.5.0的支持,使开发者能够在基于MUSA Compute Capability 3.1计算架构的全功能GPU上,无缝运行新版本的PyTorch,享受更高效的AI计算体验。

Torch-MUSA已完全开源,开发者可通过访问GitHub获取源代码。摩尔线程鼓励开发者积极参与该项目的开发与改进,通过提交问题报告(issue)或代码修改申请(pull request)等方式,共同推动Torch-MUSA以及MUSA软件生态的持续进步与创新。

Torch-MUSA开源地址:

https://github.com/MooreThreads/torch_musa

功能特性:

在Torch-MUSA中,用户只需指定torch.device("musa"),即可轻松将现有的PyTorch模型迁移到MUSA架构的GPU上运行,无需大幅修改代码。Torch-MUSA完全兼容PyTorch的自动微分和动态图机制,支持多种常用的神经网络模块及优化算法,并加速了关键深度学习算子的计算。此外,Torch-MUSA还支持多种PyTorch特性,包括DDP、JIT、FSDP、Profiler、Extension等。

版本迭代:

MUSA Graph技术将多个MUSA内核整合到一个图中,通过单次CPU调度大幅减少启动开销,提升计算效率,同时与CUDA Graph接口高效兼容。

v1.1.0:初次发布,支持PyTorch 2.0,提供基础张量操作和常见神经网络层的MUSA加速。

v1.2.0:进一步扩展算子支持,支持了完整功能的Profiler、MUSA Extension,并增加了Torch-MUSA专有特性如compare_tool、musa_converter,帮助用户更快的定位模型精度问题。

v1.3.0:支持PyTorch 2.2.0,性能进一步提升,支持FSDP,支持更复杂的模型和更大规模的数据处理。

v2.0.0:在MUSA Compute Capability 3.1计算架构上,原生支持FP8数据类型,支持PyTorch 2.5.0,新增MUSA虚拟内存管理技术优化大模型训练内存效率,通过集成Triton-MUSA后端显著提升torch.compile编译效率,支持MUSA Graph技术。

未来计划:

Torch-MUSA将继续跟进PyTorch的版本更新,计划支持更高版本的PyTorch。摩尔线程期待与广大开发者和研究人员共同完善Torch-MUSA的功能,持续优化性能,为基于MUSA架构的国产全功能GPU构建更强大的深度学习生态。

关于摩尔线程

摩尔线程成立于2020年10月,以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • pytorch
    +关注

    关注

    2

    文章

    813

    浏览量

    14958
  • 摩尔线程
    +关注

    关注

    2

    文章

    299

    浏览量

    6693

原文标题:支持原生FP8和PyTorch 2.5.0,摩尔线程发布Torch-MUSA v2.0.0

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    EdgeLock® 硬件级防护落地,米尔MYD‑LMX9X V2.0.0 引入安全系统

    米尔电子正式发布MYD‑LMX9X平台V2.0.0软件版本。本次升级以系统安全为核心,集成EdgeLockSecureEnclave硬件信任根,完整实现安全启动(AHAB)、安全存储、安全OTA升级
    的头像 发表于 05-21 08:03 328次阅读
    EdgeLock® 硬件级防护落地,米尔MYD‑LMX9X <b class='flag-5'>V2.0.0</b> 引入安全系统

    摩尔线程TileLang-MUSA率先支持DeepSeek-V4全新TileKernels

    4月24日,摩尔线程宣布,其基于TileLang 0.1.8版本深度优化并已成为TileLang官方主线版本的TileLang-MUSA,已
    的头像 发表于 04-30 16:17 578次阅读

    燧原科技L600 FP8原生适配DeepSeek-V4-Pro/Flash模型

    两大版本,全系标配百万token长上下文能力,燧原L600已完成对上述两个模型在FP8精度上的极速适配。
    的头像 发表于 04-28 15:19 689次阅读

    摩尔线程S5000 + 智源FlagOS:基于原生FP8引擎,Day-0适配DeepSeek-V4

    推理力度模式(Flash-Max)下推理能力逼近Pro版本。值得关注的是,V4模型首次采用“FP4+FP8”混合精度策略,而当前国内主流 AI 芯片仍普遍以
    发表于 04-24 16:30 2045次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>S5000 + 智源FlagOS:基于<b class='flag-5'>原生</b><b class='flag-5'>FP8</b>引擎,Day-0适配DeepSeek-<b class='flag-5'>V</b>4

    摩尔线程正式开源MuJoCo Warp MUSA

    3月30日,摩尔线程正式开源MuJoCo Warp MUSA。这是具身智能领域首个基于MUSA架构的全功能GPU加速物理仿真后端,补齐了国产算力在强化学习仿真训练底层生态中的关键一环。
    的头像 发表于 04-01 10:40 3300次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>正式开源MuJoCo Warp <b class='flag-5'>MUSA</b>

    PyTorch 中RuntimeError分析

    \')# 执行上采样 x = x.to(torch.bfloat16)# 转换回 BFloat16 方案2:升级 PyTorch 版本 该问题在 PyTorch 2.1.0 及更高
    发表于 03-06 06:02

    摩尔线程MTT S5000全面适配Qwen3.5三款新模型

    第一时间做出极速响应,宣布已在旗舰级AI训推一体全功能GPU MTT S5000上,完成对这三款全新模型的全方位适配。   此次高效支持充分展示了摩尔线程MUSA生态的成熟度与完备性。
    的头像 发表于 02-26 16:23 969次阅读

    摩尔线程快速完成对Qwen3.5模型全面适配

    MUSA C编程语言及Triton-MUSA工具链高效完成模型部署与优化。 在Qwen3.5的适配过程中,摩尔线程验证了MUSA生态的两大核
    发表于 02-18 08:32 1163次阅读

    摩尔线程MTT S5000率先完成对GLM-5的适配

    的算子覆盖与强大的生态兼容能力,摩尔线程成功打通了模型推理全链路,并深度释放MTT S5000的原生FP8加速能力,在确保模型精度的同时显著降低了显存占用,实现了GLM-5的高性能推理
    的头像 发表于 02-12 10:34 1112次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>MTT S5000率先完成对GLM-5的适配

    Day-0支持摩尔线程MTT S5000率先完成对GLM-5的适配

    的算子覆盖与强大的生态兼容能力,摩尔线程成功打通了模型推理全链路,并深度释放MTT S5000的原生FP8加速能力,在确保模型精度的同时显著降低了显存占用,实现了GLM-5的高性能推理
    发表于 02-12 09:15 1729次阅读
    Day-0<b class='flag-5'>支持</b>|<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>MTT S5000率先完成对GLM-5的适配

    摩尔线程正式开源TileLang-MUSA项目

    近日,摩尔线程正式开源TileLang-MUSA项目,实现对TileLang编程语言的完整支持。该项目已成功在摩尔
    的头像 发表于 02-11 16:57 1857次阅读

    摩尔线程发布Torch-MUSA v2.7.0版本

    近日,摩尔线程正式发布PyTorch深度学习框架的MUSA扩展库——Torch-MUSA
    的头像 发表于 12-04 09:05 1400次阅读

    全新升级 | 匠芯创AiUIBuilder V2.0.0发布

    。本次更新在界面设计、功能集成和开发体验上实现了全面突破,为嵌入式UI开发带来新一轮效率革命。界面全新升级操作体验优化V2.0.0版本对操作界面进行了全新设计,布局更
    的头像 发表于 10-29 10:03 1155次阅读
    全新升级 | 匠芯创AiUIBuilder <b class='flag-5'>V2.0.0</b><b class='flag-5'>发布</b>

    摩尔线程发布Torch-MUSA v2.1.1版本

    近日,摩尔线程发布其面向PyTorch深度学习框架的MUSA扩展库——Torch-MUSA
    的头像 发表于 09-10 11:02 1338次阅读

    摩尔线程发布图形显卡驱动程序v310.120

    8月20日,摩尔线程发布版本号为v310.120的图形显卡驱动程序。本次更新带来多项重大技术升级
    的头像 发表于 08-21 16:07 1763次阅读