0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程正式开源MuJoCo Warp MUSA

摩尔线程 来源:摩尔线程 2026-04-01 10:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

3月30日,摩尔线程正式开源MuJoCo Warp MUSA。这是具身智能领域首个基于MUSA架构的全功能GPU加速物理仿真后端,补齐了国产算力在强化学习仿真训练底层生态中的关键一环。

长期以来,大规模强化学习仿真训练高度依赖单一国际算力架构。尤其在机器人运控训练场景中,物理仿真、并行环境调度与大规模训练任务对底层算力平台和软件栈提出了极高要求,国产算力在这一领域长期缺乏可用、完整的基础支撑。

MuJoCo Warp MUSA的开源,标志着国产全功能GPU在强化学习仿真训练领域实现了从无到有的突破。通过打通云侧大规模训练与端侧自研SoC芯片部署路径,摩尔线程率先为机器人仿真领域提供了可落地、可验证的全栈国产算力参考方案。该方案通过全链路并行加速与高效分布式扩展,在足式机器人运控训练任务中实现了相较CPU最高40倍的训练加速。

MuJoCo Warp MUSA:

为MuJoCo引入MUSA原生支持

MuJoCo(Multi-Joint dynamics with Contact)是由神经科学家Emo Todorov开发、现由DeepMind维护的高精度物理引擎。凭借对多关节机器人、摩擦、碰撞、肌肉与电机驱动等复杂物理交互的稳定模拟能力,MuJoCo已成为学术界与工业界广泛使用的物理仿真平台之一,OpenAI Gym、dm_control等标准模拟平台均已集成MuJoCo作为物理仿真后端。

早期开源的MuJoCo主要基于CPU运行,在复杂接触场景和海量强化学习样本生成任务中,性能瓶颈较为明显。为提升效率,MuJoCo团队与国际主流GPU厂商合作,基于Warp编程语言推出了GPU加速版本MuJoCo Warp。

此次,摩尔线程为MuJoCo Warp增加了对MUSA架构的原生支持,使MuJoCo物理引擎能够直接调用摩尔线程全功能GPU,加速机器人物理仿真与强化学习训练任务。

b8ae9f98-2c28-11f1-90a1-92fbcf53809c.png

图注:MuJoCo Warp MUSA机器人仿真训练的阶段性过程Viser回放。

关键测试结果

*更多测试结果可参见摩尔线程开发者公众号

▼基础单元测试:MuJoCo Warp MUSA与MuJoCo Warp CPU版本完成严格一致性对齐,单个仿真步长计算结果的绝对误差控制在 1e-5 以内,并通过 Viewer 可视化验证,对比结果如下:

b904d1a6-2c28-11f1-90a1-92fbcf53809c.gif

视频:Humanoid GPU-CPU 对比测试,配置参数如下。

nbody:17

solver:NEWTON

iterations:10

integrator:EULER

b9716708-2c28-11f1-90a1-92fbcf53809c.gif

视频:LeRobot GPU-CPU 对比测试,配置参数如下。

nbody:10

solver:NEWTON

iterations:10

integrator:EULER

▼四足机器狗训练:在宇树Go2四足机器狗平地运控任务中,MTT S5000单卡处理4096个仿真环境仅需7~8 秒,相较多核CPU的280~300秒,实现最高约40倍加速,单卡1小时完成收敛,大幅缩短了训练周期。

b9d7854c-2c28-11f1-90a1-92fbcf53809c.png

图注:Go2机器狗平地环境运控,关键训练配置参数如下。

num environment:4096

solver:newton with PCG 10 iterations

ccd_iterations:50

num_steps_per_env:24

decimation:4

ba300eba-2c28-11f1-90a1-92fbcf53809c.png

▼两足人形机器人训练:在宇树G1人形机器人动作跟踪任务中,MTT S5000单卡约4.8天完成模仿学习收敛,验证了MuJoCo Warp MUSA在高难度人形机器人任务中的稳定性。

ba84e386-2c28-11f1-90a1-92fbcf53809c.gif

图注:G1人形机器人动作跟踪(Motion Tracking)训练实验。

bb05f0b6-2c28-11f1-90a1-92fbcf53809c.png

▼分布式GPU加速测试:在数据并行策略下,MuJoCo Warp MUSA支持多卡近线性扩展,8卡训练收敛加速达8倍以上,32卡最快约3.6小时完成训练。

bb5c475e-2c28-11f1-90a1-92fbcf53809c.png

图注:G1人形机器人动作跟踪训练,MTT S5000单卡与8卡训练结果对比。

bbb86a84-2c28-11f1-90a1-92fbcf53809c.png

图注:分布式加速性能。表中“时间”为单步仿真耗时,“倍数”为训练收敛加速比。如上表所示,采用数据并行(Data Parallelism)策略:每张GPU运行4096个env环境,一共同时计算8×4096 = 32,768个env,进行分布式并行仿真,收敛速度随GPU数量增加接近线性提升,而单次迭代耗时基本不变。

Sim2Real真机验证:四足机器狗与两足人形机器人均已完成真机验证,训练策略可稳定迁移至真实机器人,展现出良好的动作跟踪精度、动态平衡能力与现实部署可行性。

bc0ead7c-2c28-11f1-90a1-92fbcf53809c.gif

图注:两足人形机器人真机验证,高精度跟踪舞蹈动作轨迹。

从训练到部署:

自研SoC芯片协同,打通云边端

MuJoCo Warp MUSA的意义不仅在于训练加速,更在于进一步打通从仿真训练到真实部署的关键链路。

在真机部署阶段,机器人本体采用摩尔线程自研的长江SoC芯片作为端侧控制核心。该芯片不仅可以满足基础运控策略的实时执行需求,也可支持语音 TTS、ASR、各类 CV 模型以及端侧大模型部署。

通过“云侧大规模训练加速 + 端侧高效执行部署”的协同,摩尔线程初步构建起了从仿真训练到真机部署的完整闭环支持,也为具身智能终端提供了全栈的国产算力支撑。

bc83a992-2c28-11f1-90a1-92fbcf53809c.png

图注:正在进行策略部署调试中的机器狗,端侧控制采用摩尔线程长江SoC芯片。

bcdd9452-2c28-11f1-90a1-92fbcf53809c.gif

图注:使用摩尔线程长江SoC芯片对机器狗进行端侧控制的真机运行效果。

开源共建:

持续完善国产具身智能基础设施

MuJoCo Warp MUSA 的开源,是摩尔线程在机器人仿真方向迈出的关键一步,也为国产具身智能生态补上了重要的底层能力。

通过提供自主可控的物理仿真加速方案,摩尔线程希望为开发者与科研机构提供了更具可行性的国产技术底座,加速推动机器人从虚拟训练走向真实应用。

后续,摩尔线程将持续优化MUSA软件栈,并计划将当前成果进一步整合重构为通用的机器人仿真训练平台Lambda Lab,面向具身智能开发者持续推进开源共建。

MTT KUAE 开放试用申请:

https://metapark.mthreads.com/kuaetry

MuJoCo Warp MUSA开源地址:

https://github.com/MooreThreads/mujoco_warp_musa

*以上测试数据、视频及图片均来源于摩尔线程具身智能实验室。

关于摩尔线程

摩尔线程以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5259

    浏览量

    136039
  • 算力
    +关注

    关注

    2

    文章

    1658

    浏览量

    16832
  • 摩尔线程
    +关注

    关注

    2

    文章

    285

    浏览量

    6635

原文标题:摩尔线程开源MuJoCo Warp MUSA:实现国产全功能GPU在强化学习仿真训练领域突破

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    摩尔线程MTT S5000全面适配Qwen3.5三款新模型

    开源Qwen3.5-397B-A17B之后,阿里再次宣布开源千问3.5最新三款中等规模模型:Qwen3.5-35B-A3B、Qwen3.5-122B-A10B、Qwen3.5-27B。摩尔线
    的头像 发表于 02-26 16:23 716次阅读

    摩尔线程快速完成对Qwen3.5模型全面适配

    2月17日,摩尔线程宣布已在旗舰级AI训推一体全功能GPU MTT S5000上完成对阿里最新大模型Qwen3.5的全方位适配。此次支持充分展示了摩尔线程
    发表于 02-18 08:32 1116次阅读

    Day-0支持|摩尔线程完成MiniMax M2.5模型极速适配

    2月14日,摩尔线程在其旗舰级AI训推一体全功能GPU MTT S5000上,成功实现了对MiniMax新一代大模型MiniMax M2.5的Day-0极速适配。 在此次适配工作中,摩尔线程
    发表于 02-15 08:01 1582次阅读

    摩尔线程正式开源TileLang-MUSA项目

    近日,摩尔线程正式开源TileLang-MUSA项目,实现对TileLang编程语言的完整支持。该项目已成功在摩尔
    的头像 发表于 02-11 16:57 1645次阅读

    格灵深瞳亮相摩尔线程首届MUSA开发者大会

    12月20-21日,摩尔线程首届MUSA开发者大会(MDC 2025)在北京中关村国际创新中心举办。在分论坛上,格灵深瞳研发副总裁、AI Infra负责人闫梓祯分享主题演讲《视觉智能应用高效落地秘籍
    的头像 发表于 12-26 14:52 505次阅读

    摩尔线程在MDC 2025重磅发布全栈创新成果

    12月20日,在首届MUSA开发者大会上,摩尔线程创始人、董事长兼CEO张建中发表主题演讲,系统展示了以自主MUSA统一架构为核心的全栈创新成果,全面展现公司在技术和生态上的关键突破与
    的头像 发表于 12-22 18:04 1566次阅读

    国产GPU技术与生态双重突破,摩尔线程举办首届MUSA开发者大会

    2025年12月20日,摩尔线程首届MUSA开发者大会(MDC 2025)于北京中关村国际创新中心正式开幕。本次大会以自主计算创新与开发者生态共建为核心议题,吸引2000多名来自产学研的专业人士
    发表于 12-20 12:45 2193次阅读
    国产GPU技术与生态双重突破,<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>举办首届<b class='flag-5'>MUSA</b>开发者大会

    摩尔线程新一代GPU架构即将揭晓

    12月19日至20日,摩尔线程首届MUSA开发者大会(MUSA Developer Conference,简称MDC 2025)将在北京中关村国际创新中心拉开帷幕。作为国内首个聚焦全功
    的头像 发表于 12-13 15:14 2179次阅读

    摩尔线程发布Torch-MUSA v2.7.0版本

    近日,摩尔线程正式发布PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2.7.0,新版本在功能集成、性能优化与硬件支持方面实现进一步突破。Torch-
    的头像 发表于 12-04 09:05 1257次阅读

    摩尔线程亮相GOTC 2025全球开源技术峰会

    摩尔线程高级副总裁杨上山在主论坛发表《摩尔线程全功能GPU原生支持开源生态》的主题演讲,系统阐述了摩尔
    的头像 发表于 11-04 10:43 2266次阅读

    摩尔线程发布Torch-MUSA v2.1.1版本

    近日,摩尔线程发布其面向PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2.1.1。该版本在v2.1.0的基础上,进一步扩展了对大规模深度学习模型训练与推理的支持
    的头像 发表于 09-10 11:02 1202次阅读

    摩尔线程吴庆详解 MUSA 软件栈:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度​

    的分享。GPU 计算软件开发总监吴庆登上讲台,发表了题为《摩尔线程 MUSA 软件栈助力 KUAE 集群释放无限潜能》的演讲。他从专业视角出发,为在场听众深入剖析了 MUSA 软件栈在
    的头像 发表于 07-28 13:47 6383次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>吴庆详解 <b class='flag-5'>MUSA</b> 软件栈:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度​

    摩尔线程率先支持腾讯混元-A13B模型

    近日,腾讯正式开源基于专家混合(MoE)架构的大语言模型混元-A13B。同日,摩尔线程团队凭借技术前瞻性,率先完成该模型在全功能GPU的深度适配与高效支持。这一成果充分彰显了MUSA
    的头像 发表于 07-04 14:10 998次阅读

    摩尔线程发布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    近日,摩尔线程正式发布Torch-MUSA v2.0.0版本,这是其面向PyTorch深度学习框架的MUSA扩展库的重要升级。新版本基于MUSA
    的头像 发表于 05-11 16:41 1851次阅读

    摩尔线程GPU率先支持Qwen3全系列模型

    近日,阿里云正式发布Qwen3系列的8款开源混合推理模型。摩尔线程团队在模型发布当天,率先完成了Qwen3全系列模型在全功能GPU上的高效支持。这一成果充分展现了MUSA架构及全功能G
    的头像 发表于 05-07 15:24 1122次阅读