0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

沐曦曦云C系列产品已支持TileLang

沐曦MetaX 来源:沐曦MetaX 2025-10-14 09:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一门由TileLang社区主导开发的编程语言,正悄然改变国产GPU的生态格局。

近日,DeepSeek宣布在其新版本中拥抱国产GPU语言TileLang,引发业界广泛关注。作为国产高性能GPU的代表,沐曦曦云C系列产品已率先在这一新兴开源社区获得支持。TileLang项目是由TileLang社区主导开发,旨在简化高性能GPU/CPU内核的开发。它采用Python式语法,让开发者能够专注于提高生产力,而无需牺牲实现最佳性能所需的底层优化。

1生态破局:国产算力的协同前行

TileLang作为一种专门用来开发GPU内核的领域专用语言,性能上可以对标国际主流生态。DeepSeek官方推荐开发者使用该版本进行实验性开发,因其在调试便捷性与迭代速度上具备明显优势。这一特性对正在积极构建软件生态的国产GPU厂商来说,无疑是重要机遇。

沐曦率先跟进这一机遇。沐曦AI编译器团队和TileLang社区合作已提前参与该项目,探讨沐曦GPU与TileLang的适配。 这种与开源社区的紧密合作,显著加快了沐曦曦云C系列产品融入主流开发生态的速度。

2生态适配:从追赶者到参与者

在算力领域,硬件性能只是基础,软件生态才是决定成败的关键。沐曦MXMACA软件栈作为连接硬件与应用的桥梁,其兼容性与性能直接关系到用户体验。目前沐曦MXMACA软件栈已实现对主流国际主流生态的兼容,原生支持PyTorch、TensorFlow及国产框架。这种兼容性设计让开发者能够几乎无成本地将现有项目迁移到MXMACA软件栈。

如今,MXMACA对TileLang社区的快速支持更进一步,体现了沐曦在开源生态建设上的敏锐度。TileLang作为重要的AI计算编译器项目,其对MXMACA的支持不仅减少了开发者适配工作量,更打通了沐曦硬件与现代化AI编译工具链的通道。

在WAIC 2025期间,沐曦联合创始人、CTO兼首席软件架构师杨建曾明确表示,“GPU芯片的价值发挥离不开软件驱动,从底层驱动、中间框架到上层应用,形成完整链条”。 这一理念正在通过实际的开源贡献得以践行。

3开发效率:TileLang的革命性突破

TileLang最显著的优势在于大幅提升GPU内核的开发效率。TileLang实现FlashAttention算子开发,代码量从500+行减少至80行,并保持了与官方版本持平的性能。这种代码量的大幅减少不仅降低了开发门槛,也提高了维护性和可读性。

有开发者感叹TileLang是一种非常优雅的语言,只需不到100行代码就能写出比Flash Attention 2原版快30%。这种开发效率与性能兼得的特点,正是TileLang引发关注的重要原因。

TileLang提供了三个不同层次的编程接口,满足从初学者到专家不同水平开发者的需求。 这种分层设计使曦云C系列的开发者能够根据自身熟练程度,选择合适的切入点进行算子开发与优化。

4实战验证:从原型到产品的性能表现

DeepSeek选择TileLang并非偶然,而是基于实际性能验证。具体的性能数据来自TileLang以DeepSeek发布的FlashMLA内核作为评测基准的实验:在英伟达H100上的MLA解码速度,TileLang编写的内核做到与FlashMLA相当。这一结果证明了TileLang在性能上具备与国际先进产品竞争的实力。DeepSeek v3.2也验证了TileLang确实可以用来训练模型。 这一实践意义重大,表明了TileLang已从实验阶段走向实际生产应用。

沐曦开源的TileLang已发布在gitee仓库【mcTileLang】,基于TileLang已有的优化效果详细性能如下:

70ef6956-9e0e-11f0-8c8f-92fbcf53809c.png

表1 测试数据及性能

可以预期在常用核心算子上将有与国际领先产品竞争甚至超越的表现,期待开源社区一起共建和持续更新。

4在线体验:模力方舟曦云C系列体验

为了让开发者更便捷地体验TileLang在曦云C系列上的性能表现,沐曦已在模力方舟平台提供在线体验环境。这一平台将提供预配置的开发环境,让开发者无需自行搭建硬件平台,即可体验TileLang在曦云C系列上的算子开发和优化过程。

从芯片到编译器,从硬件到生态,沐曦曦云C系列产品与TileLang的快速适配展现了中国算力产业的新思路:不再单点突破,而是携手开源生态共进。

沐曦曦云C系列产品在TileLang社区的支持只是国产GPU漫长征程中的一小步,却是生态建设上质变的一大步。当开发者们在模力方舟平台上轻点鼠标,就能在曦云系列上运行优化后的TileLang代码,那种生态隔阂的坚冰正悄然消融。

未来的算力格局,注定是多元共存、开源生态共荣的图景。

关于沐曦

沐曦致力于自主研发全栈高性能GPU芯片及计算平台,为智算、通用计算、云渲染等前沿领域提供高能效、高通用性的算力支撑,助力数字经济发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5307

    浏览量

    136157
  • 开源
    +关注

    关注

    3

    文章

    4405

    浏览量

    46546
  • 沐曦
    +关注

    关注

    1

    文章

    112

    浏览量

    1890
  • DeepSeek
    +关注

    关注

    2

    文章

    860

    浏览量

    3442

原文标题:沐曦已支持TileLang,性能比肩国际主流

文章出处:【微信号:沐曦MetaX,微信公众号:沐曦MetaX】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    股份开源TileLang-Metax并入驻TileAI社区

    4月27日,股份面向GPU的TileLang适配支持与优化项目
    的头像 发表于 04-28 15:57 267次阅读

    股份C系列GPU产品Day 0适配腾讯混元Hy3 preview语言模型

    4月23日,腾讯混元团队正式发布并开源Hy3 preview语言模型。股份旗下 C 系列
    的头像 发表于 04-28 15:51 1249次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份<b class='flag-5'>曦</b><b class='flag-5'>云</b><b class='flag-5'>C</b><b class='flag-5'>系列</b>GPU<b class='flag-5'>产品</b>Day 0适配腾讯混元Hy3 preview语言模型

    股份C系列GPU产品Day 0适配百度文心ERNIE-Image文生图模型

    4月15日,百度文心大模型团队重磅推出ERNIE‑Image文生图模型,股份 C 系列
    的头像 发表于 04-15 17:39 563次阅读

    股份C系列GPU产品Day 0适配MiniMax M2.7模型

    4月12日,MiniMax新一代Agent旗舰大模型M2.7开源。股份C系列GPU已完成
    的头像 发表于 04-13 17:08 1035次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份<b class='flag-5'>曦</b><b class='flag-5'>云</b><b class='flag-5'>C</b><b class='flag-5'>系列</b>GPU<b class='flag-5'>产品</b>Day 0适配MiniMax M2.7模型

    股份C系列GPU产品Day 0适配智谱GLM-5.1旗舰模型

    4月8日,智谱新一代旗舰模型GLM-5.1实现开源。目前,股份 C 系列 GPU已完成该
    的头像 发表于 04-09 11:25 511次阅读

    股份C系列GPU全面适配通义千问Qwen3.5三款新模型

    今日,通义千问团队正式开源发布Qwen3.5系列中等规模模型,推出包括Qwen3.5-35B-A3B、Qwen3.5-122B-A10B、Qwen3.5-27B三个版本。股份旗下
    的头像 发表于 02-28 10:05 805次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份<b class='flag-5'>曦</b><b class='flag-5'>云</b><b class='flag-5'>C</b><b class='flag-5'>系列</b>GPU全面适配通义千问Qwen3.5三款新模型

    股份C系列GPU深度适配通义千问Qwen3.5模型

    今天,通义千问今天正式发布 Qwen3.5,并推出Qwen3.5系列的第一款模型 Qwen3.5-397B-A17B 的开放权重版本。股份
    的头像 发表于 02-26 14:26 896次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份<b class='flag-5'>曦</b><b class='flag-5'>云</b><b class='flag-5'>C</b><b class='flag-5'>系列</b>GPU深度适配通义千问Qwen3.5模型

    C500/C550 GPU产品深度适配MiniMax M2.5模型

    2月13日晚间,MiniMax正式开源MiniMax M2.5模型。技术团队依托MXMACA软件栈,在24小时内完成C500/
    的头像 发表于 02-26 14:19 1246次阅读

    C500/C550 GPU产品适配智谱GLM-OCR模型

    今天,智谱AI正式发布并开源GLM-OCR,以 “小尺寸、高精度” 实现文档解析能力新标杆。股份C500/
    的头像 发表于 02-03 11:36 995次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b><b class='flag-5'>云</b><b class='flag-5'>C</b>500/<b class='flag-5'>C</b>550 GPU<b class='flag-5'>产品</b>适配智谱GLM-OCR模型

    C600 GPU产品适配阶跃星辰基座模型Step 3.5 Flash

    今天,阶跃星辰技术团队发布并开源最新旗舰基座模型 Step 3.5 Flash。股份实现C
    的头像 发表于 02-02 14:44 597次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b><b class='flag-5'>云</b><b class='flag-5'>C</b>600 GPU<b class='flag-5'>产品</b>适配阶跃星辰基座模型Step 3.5 Flash

    C500/C550 GPU产品适配PaddleOCR-VL-1.5模型

    PaddleOCR-VL 系列的全新迭代版本PaddleOCR-VL-1.5今天正式上线,C
    的头像 发表于 01-30 10:19 1543次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b><b class='flag-5'>云</b><b class='flag-5'>C</b>500/<b class='flag-5'>C</b>550 GPU<b class='flag-5'>产品</b>适配PaddleOCR-VL-1.5模型

    股份正式推出索X系列全新GPU品牌与产品线

    1月27日,股份(股票代码:688802.SH)正式推出索X系列全新GPU品牌与产品线。该系列产品
    的头像 发表于 01-28 17:14 921次阅读

    股份C系列GPU Day 0适配智谱GLM-4.6V多模态大模型

    12月8日智谱AI发布并开源 GLM-4.6V 系列多模态大模型,股份C
    的头像 发表于 12-17 14:28 901次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b>股份<b class='flag-5'>曦</b><b class='flag-5'>云</b><b class='flag-5'>C</b><b class='flag-5'>系列</b>GPU Day 0适配智谱GLM-4.6V多模态大模型

    首款全国产通用GPU芯片发布 集成推出C600

    集成电路(南京)有限公司近日正式发布了首款全国产通用GPU——C600,这标志着国产高性能GPU实现历史性突破。 据新华日报报道显示
    的头像 发表于 10-19 20:04 4.7w次阅读

    硅基流动携手首发基于的Kimi K2推理服务

    今天,硅基流动联合集成电路(上海)股份有限公司(简称“”),全球首发基于
    的头像 发表于 07-23 17:33 2232次阅读