0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程正式开源TileLang-MUSA项目

摩尔线程 来源:摩尔线程 2026-02-11 16:57 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,摩尔线程正式开源TileLang-MUSA项目,实现对TileLang编程语言的完整支持。该项目已成功在摩尔线程多代全功能GPU上完成功能验证与特性开发,旨在通过高层抽象与编译器优化,大幅降低开发门槛,为国产算力平台提供更高效的AI与高性能计算开发体验。

TileLang-MUSA开源地址:

https://github.com/MooreThreads/tilelang_musa

TileLang:重新定义GPU算子编程的语言

TileLang是一款基于张量分块(Tiling)抽象的高性能AI算子编程语言,属于领域特定语言(DSL)。它采用声明式语法与类Python前端,使开发者能够以接近数学公式的形式描述计算意图,并由编译器自动完成循环优化、内存调度与代码生成,在保持底层性能的同时大幅降低GPU及异构计算平台的编程复杂度。

在实际应用中,TileLang通过三大核心作用显著提升GPU计算的开发效率:

通过高级抽象降低开发门槛,开发者无需深入底层硬件知识即可生成高性能代码;

具备跨平台能力,实现“一次编写、多架构运行”,有效解决多元算力生态的适配难题;

编译器自动执行Layout推导、线程映射、Warp特化、流水线排布、内存优化等复杂优化,在保障性能的同时提升开发效率。

TileLang已广泛应用于多个关键领域,例如:在AI与机器学习中,研究人员可用其快速定义新型算子(如注意力机制);在科学计算中,可便捷移植大型数值模拟程序至不同硬件平台;对硬件厂商而言,TileLang可作为构建芯片软件生态的基础工具链。

在产业实践中,DeepSeek-V3的研发已采用TileLang进行算子快速原型设计与性能验证,证明了其在大规模模型训练中的实战价值。摩尔线程开源的TileLang-MUSA项目,正是这一技术理念的产业落地——通过提供高效开发工具链降低创新门槛,推动国产算力应用生态的繁荣发展。

TileLang-MUSA:连接前沿语法与国产算力的桥梁

摩尔线程此次开源的 TileLang-MUSA项目,旨在充分释放全功能GPU的性能潜力。它提供了一种介于底层汇编与高层DSL之间的“中间层”抽象,在保留硬件控制力的同时,显著降低了编程复杂度。具体特性如下:

广泛的硬件架构覆盖:TileLang-MUSA已在摩尔线程多代全功能GPU上完成功能验证与打通,包括训推一体全功能智算卡 MTT S5000和MTT S4000,展现了良好的硬件兼容性。

核心计算特性的深度映射:项目团队实现了TileLang高层语义到摩尔线程GPU底层MUSA架构的精准映射。

Tensor Core 加速:编译器能够自动调用MUSA的MMA(矩阵乘累加)指令,充分发挥硬件张量核心的峰值计算能力;

Tile-Level Pipeline:自动处理从全局内存(Global Memory)到共享内存(Shared Memory)再到寄存器(Registers)的多级数据搬运,利用MUSA异步拷贝指令掩盖访存延迟;

Warp级并行优化:完整支持Warp Specialization特性。

目前,基于MUSA架构的TileLang原生算子单元测试覆盖率已超过80%,为大规模应用提供了可靠保障。

代码示例:体验“零门槛”算子迁移

开发者在完成环境配置后,可保留原有的import tilelang习惯,通过Cython编译后端直接在MUSA环境中运行TileLang代码。

以下是一个基于TileLang-MUSA的高性能矩阵乘法实现示例:通过简洁明了的语法描述计算逻辑,编译器能够自动生成高度优化的MUSA内核代码。依托TileLang丰富且经过深度调优的原语算子库(primitives),开发者借助TileLang-MUSA不仅能够显著提升编码效率,更能直接调用底层硬件的计算潜力,实现媲美手工优化性能的矩阵运算。

importtilelang
importtilelang.languageasT
importtorch
fromtilelang.primitives.gemm.baseimportGemmWarpPolicy


defmatmul(M, N, K, block_M, block_N, block_K, dtype="float16", accum_dtype="float"):
  @T.prim_func
defmatmul_kernel(
    A: T.Tensor((M, K), dtype),
    B: T.Tensor((K, N), dtype),
    C: T.Tensor((M, N), dtype),
):
withT.Kernel(T.ceildiv(N, block_N), T.ceildiv(M, block_M), threads=512)as(bx, by):
      T.use_swizzle(panel_size=4, order='col')
      A_shared = T.alloc_shared((block_M, block_K), dtype)
      B_shared = T.alloc_shared((block_K, block_N), dtype)
      C_local = T.alloc_fragment((block_M, block_N), accum_dtype)
      T.clear(C_local)
forkinT.Pipelined(T.ceildiv(K, block_K), num_stages=3):
        T.copy(A[by * block_M, k * block_K], A_shared)
        T.copy(B[k * block_K, bx * block_N], B_shared)
        T.gemm(A_shared, B_shared, C_local, policy=T.GemmWarpPolicy.Square)
      T.copy(C_local, C[by * block_M, bx * block_N])
returnmatmul_kernel


defmain():
  M, N, K, BLOCK_M, BLOCK_N, BLOCK_K =8192,7168,16384,256,256,64
  device ="musa"
  A = torch.randn((M, K), dtype=torch.float16, device=device)
  B = torch.randn((K, N), dtype=torch.float16, device=device)
  program = matmul(M, N, K, BLOCK_M, BLOCK_N, BLOCK_K, dtype="float16", accum_dtype="float32")


  kernel = tilelang.compile(
    program,
    out_idx=-1,
    target="musa",
    execution_backend="cython",
    verbose=True,
  )
  ref_out = torch.mm(A, B)
  C = kernel(A, B)
  torch.testing.assert_close(ref_out.to(torch.float16), C.to(torch.float16), rtol=1.25e-1, atol=1.25e-1)


if__name__ =="__main__":
  main()

*代码示例

实测表现:兼顾开发效率与运行性能

TileLang-MUSA的设计理念是让开发者“写得快”且“跑得快”。在实际算子开发实践中,这一目标已得到验证。

以大语言模型中至关重要的FlashAttention-3和GEMM(通用矩阵乘)算子为例,在摩尔线程MTT S5000上的测试结果显示:

开发效率倍增:相较手写MUSA C++代码,使用TileLang-MUSA的代码量减少了约90%,且代码逻辑更加清晰,极大降低了开发与维护成本。

性能媲美手写:得益于TileLang-MUSA优秀的编译器优化,生成的算子性能在典型配置下,Gemm最高可达到手写优化版本的95%, FlashAttention-3可以达到手写优化版本的85%。

自动化调优:借助TileLang-MUSA的Auto-tuning机制,开发者可以在MUSA架构的全功能GPU上快速搜索最优的分块策略(Tile Size)和流水线级数,轻松超越未经深度优化的基准实现。

TileLang-MUSA的推出,为开发者带来了三大核心价值:

无缝迁移:TileLang用户可以近乎零成本地将算子逻辑迁移至摩尔线程GPU;

降低门槛:TileLang-MUSA为不熟悉MUSA指令集的AI工程师提供了高层次的开发入口,大幅降低了国产GPU的应用门槛;

赋能大模型:TileLang-MUSA通过支持FlashAttention等关键算子的高效开发,将有力加速大语言模型等前沿AI应用在国产算力平台上的部署与落地。

TileLang-MUSA不仅验证了“高层语言+国产GPU”这一技术路线的可行性,更为构建开放、易用的国产算力开发生态提供了关键工具支撑。

未来展望:打造基于MUSA的深度学习统一平台

TileLang-MUSA的开源是摩尔线程构建国产算力生态的关键一步。以此为起点,摩尔线程将持续推进平台与生态建设,致力于打造一个覆盖从单算子到完整大模型的国产算力统一加速平台:持续进行性能优化,开发更多MUSA架构定制扩展,使生成代码性能稳定达到手写优化版本的90%以上;深度集成SGLang等主流AI框架,实现训练与推理场景的端到端无缝加速;从单算子优化延伸至Transformer、MoE等复杂模型架构的跨算子调度与全局优化;同时完善调试和性能分析工具链,为开发者提供全流程支持。

这一切努力,最终都将汇聚于一个核心目标:构建一个开放、高效、充满生命力的国产算力生态,让创新的想法在坚实的基石上自由生长。

点击下方“阅读原文”了解TileLang-MUSA开源项目,或直接访问:

https://github.com/MooreThreads/tilelang_musa

*以上测试数据均来自摩尔线程实验室

关于摩尔线程

摩尔线程以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5266

    浏览量

    136040
  • 开源
    +关注

    关注

    3

    文章

    4329

    浏览量

    46429
  • 摩尔线程
    +关注

    关注

    2

    文章

    285

    浏览量

    6637

原文标题:摩尔线程开源TileLang-MUSA,以高效算子开发释放全功能GPU计算潜力

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Day-0支持|摩尔线程完成智谱GLM-5.1极速适配,高效支撑长程任务与代码生成

    栈强大的生态兼容性,摩尔线程技术团队基于高性能 SGLang-MUSA推理引擎及TileLang-MUSA算子编程语言,采用PD分离架构完成深度调优,在 MTT S5000 上实现 G
    的头像 发表于 04-08 14:47 970次阅读
    Day-0支持|<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>完成智谱GLM-5.1极速适配,高效支撑长程任务与代码生成

    摩尔线程正式开源MuJoCo Warp MUSA

    3月30日,摩尔线程正式开源MuJoCo Warp MUSA。这是具身智能领域首个基于MUSA架构的全功能GPU加速物理仿真后端,补齐了国产
    的头像 发表于 04-01 10:40 2055次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>正式<b class='flag-5'>开源</b>MuJoCo Warp <b class='flag-5'>MUSA</b>

    摩尔线程MTT S5000全面适配Qwen3.5三款新模型

    开源Qwen3.5-397B-A17B之后,阿里再次宣布开源千问3.5最新三款中等规模模型:Qwen3.5-35B-A3B、Qwen3.5-122B-A10B、Qwen3.5-27B。摩尔线
    的头像 发表于 02-26 16:23 726次阅读

    摩尔线程快速完成对Qwen3.5模型全面适配

    2月17日,摩尔线程宣布已在旗舰级AI训推一体全功能GPU MTT S5000上完成对阿里最新大模型Qwen3.5的全方位适配。此次支持充分展示了摩尔线程
    发表于 02-18 08:32 1116次阅读

    格灵深瞳亮相摩尔线程首届MUSA开发者大会

    12月20-21日,摩尔线程首届MUSA开发者大会(MDC 2025)在北京中关村国际创新中心举办。在分论坛上,格灵深瞳研发副总裁、AI Infra负责人闫梓祯分享主题演讲《视觉智能应用高效落地秘籍
    的头像 发表于 12-26 14:52 509次阅读

    摩尔线程在MDC 2025重磅发布全栈创新成果

    12月20日,在首届MUSA开发者大会上,摩尔线程创始人、董事长兼CEO张建中发表主题演讲,系统展示了以自主MUSA统一架构为核心的全栈创新成果,全面展现公司在技术和生态上的关键突破与
    的头像 发表于 12-22 18:04 1572次阅读

    国产GPU技术与生态双重突破,摩尔线程举办首届MUSA开发者大会

    2025年12月20日,摩尔线程首届MUSA开发者大会(MDC 2025)于北京中关村国际创新中心正式开幕。本次大会以自主计算创新与开发者生态共建为核心议题,吸引2000多名来自产学研的专业人士
    发表于 12-20 12:45 2193次阅读
    国产GPU技术与生态双重突破,<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>举办首届<b class='flag-5'>MUSA</b>开发者大会

    摩尔线程发布Torch-MUSA v2.7.0版本

    近日,摩尔线程正式发布PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2.7.0,新版本在功能集成、性能优化与硬件支持方面实现进一步突破。Torch-
    的头像 发表于 12-04 09:05 1263次阅读

    摩尔线程亮相GOTC 2025全球开源技术峰会

    摩尔线程高级副总裁杨上山在主论坛发表《摩尔线程全功能GPU原生支持开源生态》的主题演讲,系统阐述了摩尔
    的头像 发表于 11-04 10:43 2270次阅读

    拥抱DeepSeek开源生态| 算能TPU接入TileLang,集结北大复旦山大顶尖团队!

    TPU的TileLang-TPU项目也于近日完成工程验证。TileLang发布之初,算能联合北京大学、复旦大学、山东大学等高校的科研团队,共同开展TileLang
    的头像 发表于 10-03 19:08 1603次阅读
    拥抱DeepSeek<b class='flag-5'>开源</b>生态| 算能TPU接入<b class='flag-5'>TileLang</b>,集结北大复旦山大顶尖团队!

    摩尔线程发布Torch-MUSA v2.1.1版本

    近日,摩尔线程发布其面向PyTorch深度学习框架的MUSA扩展库——Torch-MUSA v2.1.1。该版本在v2.1.0的基础上,进一步扩展了对大规模深度学习模型训练与推理的支持
    的头像 发表于 09-10 11:02 1211次阅读

    摩尔线程吴庆详解 MUSA 软件栈:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度​

    的分享。GPU 计算软件开发总监吴庆登上讲台,发表了题为《摩尔线程 MUSA 软件栈助力 KUAE 集群释放无限潜能》的演讲。他从专业视角出发,为在场听众深入剖析了 MUSA 软件栈在
    的头像 发表于 07-28 13:47 6390次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>吴庆详解 <b class='flag-5'>MUSA</b> 软件栈:以技术创新释放 KUAE 集群潜能,引领 GPU 计算新高度​

    摩尔线程率先支持腾讯混元-A13B模型

    近日,腾讯正式开源基于专家混合(MoE)架构的大语言模型混元-A13B。同日,摩尔线程团队凭借技术前瞻性,率先完成该模型在全功能GPU的深度适配与高效支持。这一成果充分彰显了MUSA
    的头像 发表于 07-04 14:10 1000次阅读

    摩尔线程发布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    近日,摩尔线程正式发布Torch-MUSA v2.0.0版本,这是其面向PyTorch深度学习框架的MUSA扩展库的重要升级。新版本基于MUSA
    的头像 发表于 05-11 16:41 1860次阅读

    摩尔线程GPU率先支持Qwen3全系列模型

    近日,阿里云正式发布Qwen3系列的8款开源混合推理模型。摩尔线程团队在模型发布当天,率先完成了Qwen3全系列模型在全功能GPU上的高效支持。这一成果充分展现了MUSA架构及全功能G
    的头像 发表于 05-07 15:24 1128次阅读