沐曦曦云C系列产品已支持TileLang-电子发烧友网

一门由TileLang社区主导开发的编程语言，正悄然改变国产GPU的生态格局。

近日，DeepSeek宣布在其新版本中拥抱国产GPU语言TileLang，引发业界广泛关注。作为国产高性能GPU的代表，沐曦曦云C系列产品已率先在这一新兴开源社区获得支持。TileLang项目是由TileLang社区主导开发，旨在简化高性能GPU/CPU内核的开发。它采用Python式语法，让开发者能够专注于提高生产力，而无需牺牲实现最佳性能所需的底层优化。

1生态破局：国产算力的协同前行

TileLang作为一种专门用来开发GPU内核的领域专用语言，性能上可以对标国际主流生态。DeepSeek官方推荐开发者使用该版本进行实验性开发，因其在调试便捷性与迭代速度上具备明显优势。这一特性对正在积极构建软件生态的国产GPU厂商来说，无疑是重要机遇。

沐曦率先跟进这一机遇。沐曦AI编译器团队和TileLang社区合作已提前参与该项目，探讨沐曦GPU与TileLang的适配。这种与开源社区的紧密合作，显著加快了沐曦曦云C系列产品融入主流开发生态的速度。

2生态适配：从追赶者到参与者

在算力领域，硬件性能只是基础，软件生态才是决定成败的关键。沐曦MXMACA软件栈作为连接硬件与应用的桥梁，其兼容性与性能直接关系到用户体验。目前沐曦MXMACA软件栈已实现对主流国际主流生态的兼容，原生支持PyTorch、TensorFlow及国产框架。这种兼容性设计让开发者能够几乎无成本地将现有项目迁移到MXMACA软件栈。

如今，MXMACA对TileLang社区的快速支持更进一步，体现了沐曦在开源生态建设上的敏锐度。TileLang作为重要的AI计算编译器项目，其对MXMACA的支持不仅减少了开发者适配工作量，更打通了沐曦硬件与现代化AI编译工具链的通道。

在WAIC 2025期间，沐曦联合创始人、CTO兼首席软件架构师杨建曾明确表示，“GPU芯片的价值发挥离不开软件驱动，从底层驱动、中间框架到上层应用，形成完整链条”。这一理念正在通过实际的开源贡献得以践行。

3开发效率：TileLang的革命性突破

TileLang最显著的优势在于大幅提升GPU内核的开发效率。TileLang实现FlashAttention算子开发，代码量从500+行减少至80行，并保持了与官方版本持平的性能。这种代码量的大幅减少不仅降低了开发门槛，也提高了维护性和可读性。

有开发者感叹TileLang是一种非常优雅的语言，只需不到100行代码就能写出比Flash Attention 2原版快30%。这种开发效率与性能兼得的特点，正是TileLang引发关注的重要原因。

TileLang提供了三个不同层次的编程接口，满足从初学者到专家不同水平开发者的需求。这种分层设计使曦云C系列的开发者能够根据自身熟练程度，选择合适的切入点进行算子开发与优化。

4实战验证：从原型到产品的性能表现

DeepSeek选择TileLang并非偶然，而是基于实际性能验证。具体的性能数据来自TileLang以DeepSeek发布的FlashMLA内核作为评测基准的实验：在英伟达H100上的MLA解码速度，TileLang编写的内核做到与FlashMLA相当。这一结果证明了TileLang在性能上具备与国际先进产品竞争的实力。DeepSeek v3.2也验证了TileLang确实可以用来训练模型。这一实践意义重大，表明了TileLang已从实验阶段走向实际生产应用。

沐曦开源的TileLang已发布在gitee仓库【mcTileLang】，基于TileLang已有的优化效果详细性能如下：