0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程MusaCoder开源:首个基于国产全功能GPU全栈训练的代码大模型,性能比肩国际SOTA

摩尔线程 来源:摩尔线程 2026-06-10 16:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,摩尔线程正式发布并开源面向GPU底层算子生成的专用代码大模型MusaCoder。这是业内首个基于国产GPU算力底座完成全链路训练与验证的开源代码大模型其完整后训练流程均在基于MTT S5000构建的夸娥智算集群上完成。在KernelBench严格评测中,MusaCoder-27B-RL以Overall Pass@8 93.2%、Avg.@8 88.60%的成绩,超越Claude Opus 4.7、GLM-5.1、DeepSeek-V4 Pro、Kimi K2.6等主流SOTA代码模型,展现出在GPU原生Kernel生成任务上的领先性能。

195426d0-64a3-11f1-90a1-92fbcf53809c.png
图示:KernelBench准确率(Avg.@8)对比

MusaCoder模型权重已开源:

https://huggingface.co/MooreThreads/MusaCoder-27B

MusaCoder论文地址:

http://arxiv.org/abs/2606.04847

MusaCoder:专为GPU设计的高性能算子生成模型

MusaCoder是摩尔线程面向GPU底层算子生成任务设计的专用代码大模型,包含9B和27B两个参数规模。该模型重点支持从PyTorch标准算子自动生成高性能CUDA/MUSA原生Kernel代码,旨在降低开发者手写底层GPU算子的门槛,提升GPU高性能计算场景下的代码生成、验证和优化效率。

传统代码大模型虽然具备较强的通用编程能力,但在GPU Kernel生成任务中仍面临显著挑战:一方面,GPU Kernel 对并行计算、线程组织、内存访问、索引映射和硬件执行特性要求极高;另一方面,生成代码不仅要语法正确,还必须能够通过编译、数值正确性验证、反作弊检测,并在真实执行中获得性能收益。

19a4ee94-64a3-11f1-90a1-92fbcf53809c.png

图示:MusaCoder训练总流程

针对上述难点,MusaCoder构建了一套面向GPU原生算子(CUDA/MUSA)生成的大模型全栈后训练方法论。该流程覆盖数据构建、执行验证、强化学习优化等关键环节,使模型能够从基础代码能力逐步进化为具备底层算子生成与修复能力的专用模型。

在数据构建阶段,MusaCoder通过结构化推理过程和显式Shape信息注入,增强模型对张量形状、内存布局和索引关系的理解,解决从通用代码能力迁移到GPU Kernel生成任务时的冷启动问题。

在评测与训练环境方面,摩尔线程构建了MooreEval分布式执行验证系统。MooreEval能够对模型生成的代码进行自动编译、执行、正确性验证、性能测试和反作弊检测,并将结果转化为稳定的训练反馈信号。这使得模型不仅能学习“写出能运行的代码”,还能够进一步学习“写出正确、合法且更高效的原生GPU Kernel”。

在强化学习阶段,MusaCoder针对GPU Kernel生成任务中的多轮修复、训练稳定性和长尾困难样本等问题,引入了PrimeEcho、MirrorPop和BDR等机制,用于提升模型在多轮调试场景下的修复能力和训练稳定性。通过这些方法,MusaCoder打通了从基础代码微调到执行反馈强化学习的完整优化闭环。

核心成果:正确率与真实加速能力双提升

在MooreEval执行式验证协议下,MusaCoder-27B-RL在KernelBench评测中取得了显著领先表现。

19f61efe-64a3-11f1-90a1-92fbcf53809c.png

表1:KernelBench评估结果对比。Pass@8表示8个采样代码中至少有一个通过验证,而Avg.@8则衡量8个样本的平均正确率。

高准确率超越SOTA:从正确率来看,MusaCoder-27B-RL的Overall Pass@8达到93.2%,Avg.@8达到88.60%,均超过Claude Opus 4.7的87.2%和77.30%。在更具挑战性的Level 3任务上,MusaCoder-27B-RL的优势更加明显。Level 3任务通常涉及复杂shape推导、索引映射和多算子组合,对模型的底层代码理解能力和调试能力提出了更高要求。在该难度级别上,MusaCoder-27B-RL的Pass@8和Avg.@8,分别领先Claude Opus 4.718个百分点和26.5个百分点

真实加速能力突出:在MooreEval标准下,只有同时通过正确性验证、合法性检查,并且相比PyTorch baseline获得有效加速的候选实现,才会被计入Faster Rate。MusaCoder-27B-RL的Overall Faster Rate达到15.0%(vs. PyTorch Eager)9.2%(vs. torch.compile),分别高于Claude Opus 4.7的11.8%和7.5%。

这表明,MusaCoder不仅能够更稳定地生成正确的GPU Kernel,也更有能力生成具备实际性能收益的原生算子代码。

国产GPU完成全流程后训练,验证夸娥智算集群能力

MusaCoder的SFT(监督微调)、RFT(拒绝采样微调)、RL(强化学习)、异步rollout、在线编译执行验证及reward计算等全栈训练与验证流程均依托摩尔线程旗舰级AI训推一体智算卡MTT S5000所构建的夸娥智算集群完成

这一成果,充分验证了国产GPU不仅能够支撑大模型推理和常规微调任务更能够稳定承载代码大模型后训练全周期算力需求。尤其是在GPU Kernel生成这一类任务中,训练系统需要频繁进行代码生成、编译、执行、验证和反馈计算,对硬件、编译栈、运行时、调度系统和评测基础设施都提出了更高要求。

MusaCoder的成功实践,将一次模型训练验证沉淀为可复用的工程范式:不仅为AI Coding、AI Infra等基础设施的自主可控提供了实践范例,也展现了摩尔线程在AI软件栈、训练平台、评测系统和开源模型生态方面的完整工程支撑能力

共建开放生态,推动国产AI创新与应用

MusaCoder的正式开源,旨在为MUSA生态提供面向PyTorch到原生算子生成的基础模型能力,帮助开发者更高效地完成GPU Kernel的生成、验证、修复和优化,降低底层算子开发门槛。

同时,MusaCoder也为高校、科研机构和开源社区提供了一个基于国产全功能GPU的代码生成研究平台,推动异构计算编程、AI编译优化和自动化Kernel生成等方向的开放研究与技术交流

未来,摩尔线程将持续增强MusaCoder在复杂任务上的生成与修复能力,并进一步探索与IDE插件、自动调试工具、profiling工具等开发者工具链的结合,逐步形成从PyTorch参考实现到MUSA原生Kernel的自动生成、验证、修复和优化闭环,持续推动国产GPU生态建设与AI基础设施创新。

关于摩尔线程

摩尔线程以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5355

    浏览量

    136384
  • 摩尔线程
    +关注

    关注

    2

    文章

    302

    浏览量

    6706
  • 大模型
    +关注

    关注

    2

    文章

    3918

    浏览量

    5350

原文标题:摩尔线程MusaCoder开源:首个基于国产全功能GPU全栈训练的代码大模型,性能比肩国际SOTA

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    斯坦福评测第一!北大 EvoPhys-World世界模型摩尔线程GPU完成原生训练

    时,EvoPhys-World 在世界生成(World Generation)评测中位列第一。这一国际前沿成果 全程在摩尔线程 MTT S5000 全功能
    发表于 06-09 07:28 895次阅读
    斯坦福评测第一!北大 EvoPhys-World世界<b class='flag-5'>模型</b>在<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b><b class='flag-5'>GPU</b>完成原生<b class='flag-5'>训练</b>

    摩尔线程 × 中科院计算所丨DeferredGS国产化适配落地

    表示与重光照方法DeferredGS的国产化适配。这一里程碑不仅验证了摩尔线程全功能
    发表于 06-05 09:26 825次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b> × 中科院计算所丨DeferredGS<b class='flag-5'>全</b><b class='flag-5'>栈</b><b class='flag-5'>国产</b>化适配落地

    摩尔线程与光轮智能正式达成战略合作

    近日,国产全功能GPU领军企业摩尔线程与全球领先的物理AI数据与仿真基础设施企业光轮智能正式达成战略合作。双方将依托
    的头像 发表于 05-15 09:28 771次阅读

    摩尔线程 x 中国移动|国产GPU率先支撑央企大模型,S5000完成九天35B大模型适配

    ,依托成熟的MUSA软件与高性能算子优化,已率先完成九天35B模型流程适配与推理验证。这不仅是国产
    发表于 04-28 08:32 1022次阅读

    Day-0支持|摩尔线程完成智谱GLM-5.1极速适配,高效支撑长程任务与代码生成

      今日,摩尔线程在其旗舰级AI训推一体全功能GPU MTT S5000上,成功实现了对智谱新一代旗舰模型GLM-5.1的Day-0极速适配
    的头像 发表于 04-08 14:47 1272次阅读
    Day-0支持|<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>完成智谱GLM-5.1极速适配,高效支撑长程任务与<b class='flag-5'>代码</b>生成

    摩尔线程正式开源MuJoCo Warp MUSA

    3月30日,摩尔线程正式开源MuJoCo Warp MUSA。这是具身智能领域首个基于MUSA架构的全功能
    的头像 发表于 04-01 10:40 3383次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>正式<b class='flag-5'>开源</b>MuJoCo Warp MUSA

    摩尔线程深耕国产算力生态,共促科技和产业融合创新

    3月25日至29日,以“科技创新与产业创新深度融合”为主题的2026中关村论坛年会在京举行,汇聚来自100多个国家和地区的上千名嘉宾,共促创新与发展。摩尔线程作为国产全功能
    发表于 03-29 18:52 1676次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>深耕<b class='flag-5'>国产</b>算力生态,共促科技和产业融合创新

    摩尔线程正式开源TileLang-MUSA项目

    近日,摩尔线程正式开源TileLang-MUSA项目,实现对TileLang编程语言的完整支持。该项目已成功在摩尔线程多代
    的头像 发表于 02-11 16:57 1911次阅读

    国产AI Coding上线:摩尔线程+硅基流动+智谱,强强联合!

    摩尔线程今日正式推出AI Coding Plan 智能编程服务。作为首个基于国产全功能 GPU
    的头像 发表于 02-03 17:07 2205次阅读
    <b class='flag-5'>全</b><b class='flag-5'>栈</b><b class='flag-5'>国产</b>AI Coding上线:<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>+硅基流动+智谱,强强联合!

    摩尔线程正式推出AI Coding Plan智能编程服务

    摩尔线程今日正式推出 AI Coding Plan 智能编程服务。作为首个基于国产全功能 GPU
    的头像 发表于 02-03 16:46 2074次阅读

    摩尔线程公布全功能GPU架构路线图:以“花港”新架构与万卡训练集群,开启自主算力新时代

    2025年12月20日,北京——摩尔线程首届MUSA开发者大会(简称:MDC 2025)在北京中关村国际创新中心正式开幕。作为国内首个聚焦全功能
    发表于 12-20 12:51 1206次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>公布<b class='flag-5'>全功能</b><b class='flag-5'>GPU</b>架构路线图:以“花港”新架构与万卡<b class='flag-5'>训练</b>集群,开启自主算力新时代

    摩尔线程亮相GOTC 2025全球开源技术峰会

    摩尔线程高级副总裁杨上山在主论坛发表《摩尔线程全功能GPU原生支持
    的头像 发表于 11-04 10:43 2391次阅读

    摩尔线程发布大模型训练仿真工具SimuMax v1.0

    近日,摩尔线程正式发布并开源模型分布式训练仿真工具SimuMax 1.0版本。该版本在显存和性能
    的头像 发表于 09-11 18:19 4046次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>发布大<b class='flag-5'>模型</b><b class='flag-5'>训练</b>仿真工具SimuMax v1.0

    摩尔线程吴庆详解 MUSA 软件:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度​

    在 2025 年世界人工智能大会(WAIC 2025)期间,摩尔线程举办的技术分享日活动现场气氛热烈,众多业内人士齐聚一堂,翘首以盼这家即将IPO上市的国产全功能
    的头像 发表于 07-28 13:47 6623次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>吴庆详解 MUSA 软件<b class='flag-5'>栈</b>:以技术创新释放 KUAE 集群潜能,引领 <b class='flag-5'>GPU</b> 计算新高度​

    摩尔线程亮相WAIC 2025:以“AI工厂”理念驱动算力进化,AI应用赋能千行百业

    7月26日-29日,2025世界人工智能大会(WAIC)在上海举办。摩尔线程携以全功能GPU为核心的“云边端”
    的头像 发表于 07-28 11:34 2756次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>亮相WAIC 2025:以“AI工厂”理念驱动算力进化,<b class='flag-5'>全</b><b class='flag-5'>栈</b>AI应用赋能千行百业