0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

沐曦曦云C系列产品已支持TileLang

沐曦MetaX 来源:沐曦MetaX 2025-10-14 09:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一门由TileLang社区主导开发的编程语言,正悄然改变国产GPU的生态格局。

近日,DeepSeek宣布在其新版本中拥抱国产GPU语言TileLang,引发业界广泛关注。作为国产高性能GPU的代表,沐曦曦云C系列产品已率先在这一新兴开源社区获得支持。TileLang项目是由TileLang社区主导开发,旨在简化高性能GPU/CPU内核的开发。它采用Python式语法,让开发者能够专注于提高生产力,而无需牺牲实现最佳性能所需的底层优化。

1生态破局:国产算力的协同前行

TileLang作为一种专门用来开发GPU内核的领域专用语言,性能上可以对标国际主流生态。DeepSeek官方推荐开发者使用该版本进行实验性开发,因其在调试便捷性与迭代速度上具备明显优势。这一特性对正在积极构建软件生态的国产GPU厂商来说,无疑是重要机遇。

沐曦率先跟进这一机遇。沐曦AI编译器团队和TileLang社区合作已提前参与该项目,探讨沐曦GPU与TileLang的适配。 这种与开源社区的紧密合作,显著加快了沐曦曦云C系列产品融入主流开发生态的速度。

2生态适配:从追赶者到参与者

在算力领域,硬件性能只是基础,软件生态才是决定成败的关键。沐曦MXMACA软件栈作为连接硬件与应用的桥梁,其兼容性与性能直接关系到用户体验。目前沐曦MXMACA软件栈已实现对主流国际主流生态的兼容,原生支持PyTorch、TensorFlow及国产框架。这种兼容性设计让开发者能够几乎无成本地将现有项目迁移到MXMACA软件栈。

如今,MXMACA对TileLang社区的快速支持更进一步,体现了沐曦在开源生态建设上的敏锐度。TileLang作为重要的AI计算编译器项目,其对MXMACA的支持不仅减少了开发者适配工作量,更打通了沐曦硬件与现代化AI编译工具链的通道。

在WAIC 2025期间,沐曦联合创始人、CTO兼首席软件架构师杨建曾明确表示,“GPU芯片的价值发挥离不开软件驱动,从底层驱动、中间框架到上层应用,形成完整链条”。 这一理念正在通过实际的开源贡献得以践行。

3开发效率:TileLang的革命性突破

TileLang最显著的优势在于大幅提升GPU内核的开发效率。TileLang实现FlashAttention算子开发,代码量从500+行减少至80行,并保持了与官方版本持平的性能。这种代码量的大幅减少不仅降低了开发门槛,也提高了维护性和可读性。

有开发者感叹TileLang是一种非常优雅的语言,只需不到100行代码就能写出比Flash Attention 2原版快30%。这种开发效率与性能兼得的特点,正是TileLang引发关注的重要原因。

TileLang提供了三个不同层次的编程接口,满足从初学者到专家不同水平开发者的需求。 这种分层设计使曦云C系列的开发者能够根据自身熟练程度,选择合适的切入点进行算子开发与优化。

4实战验证:从原型到产品的性能表现

DeepSeek选择TileLang并非偶然,而是基于实际性能验证。具体的性能数据来自TileLang以DeepSeek发布的FlashMLA内核作为评测基准的实验:在英伟达H100上的MLA解码速度,TileLang编写的内核做到与FlashMLA相当。这一结果证明了TileLang在性能上具备与国际先进产品竞争的实力。DeepSeek v3.2也验证了TileLang确实可以用来训练模型。 这一实践意义重大,表明了TileLang已从实验阶段走向实际生产应用。

沐曦开源的TileLang已发布在gitee仓库【mcTileLang】,基于TileLang已有的优化效果详细性能如下:

70ef6956-9e0e-11f0-8c8f-92fbcf53809c.png

表1 测试数据及性能

可以预期在常用核心算子上将有与国际领先产品竞争甚至超越的表现,期待开源社区一起共建和持续更新。

4在线体验:模力方舟曦云C系列体验

为了让开发者更便捷地体验TileLang在曦云C系列上的性能表现,沐曦已在模力方舟平台提供在线体验环境。这一平台将提供预配置的开发环境,让开发者无需自行搭建硬件平台,即可体验TileLang在曦云C系列上的算子开发和优化过程。

从芯片到编译器,从硬件到生态,沐曦曦云C系列产品与TileLang的快速适配展现了中国算力产业的新思路:不再单点突破,而是携手开源生态共进。

沐曦曦云C系列产品在TileLang社区的支持只是国产GPU漫长征程中的一小步,却是生态建设上质变的一大步。当开发者们在模力方舟平台上轻点鼠标,就能在曦云系列上运行优化后的TileLang代码,那种生态隔阂的坚冰正悄然消融。

未来的算力格局,注定是多元共存、开源生态共荣的图景。

关于沐曦

沐曦致力于自主研发全栈高性能GPU芯片及计算平台,为智算、通用计算、云渲染等前沿领域提供高能效、高通用性的算力支撑,助力数字经济发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5099

    浏览量

    134462
  • 开源
    +关注

    关注

    3

    文章

    4032

    浏览量

    45569
  • 沐曦
    +关注

    关注

    0

    文章

    54

    浏览量

    1654
  • DeepSeek
    +关注

    关注

    2

    文章

    824

    浏览量

    2812

原文标题:沐曦已支持TileLang,性能比肩国际主流

文章出处:【微信号:沐曦MetaX,微信公众号:沐曦MetaX】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华科技车规级MCU CVM011x系列荣获ISO 26262 ASIL-B认证

    近日,华科技旗下32位通用车规级MCU产品CVM011x系列正式通过国创中心ISO 26262 ASIL-B功能安全产品认证,标志着华科
    的头像 发表于 11-07 14:37 1593次阅读

    股份与上海电信完成首期GPU生态专家认证培训

    近期,集成电路(上海)股份有限公司(以下简称“股份”)携手上海电信天翼能力运营中心(以下简称“
    的头像 发表于 10-31 10:33 254次阅读

    强强联合:之江实验室与股份共建智算集群联合实验室

    2025年10月22日, 之江实验室与集成电路(上海)股份有限公司(以下简称“股份”)正式签署合作协议,共同组建“智算集群联合实验室”,携手推进人工智能算力基础设施创新发展 。
    的头像 发表于 10-23 10:50 1024次阅读

    首款全国产通用GPU芯片发布 集成推出C600

    集成电路(南京)有限公司近日正式发布了首款全国产通用GPU——C600,这标志着国产高性能GPU实现历史性突破。 据新华日报报道显示
    的头像 发表于 10-19 20:04 4.5w次阅读

    GPU与龙蜥操作系统完成适配

    集成电路(上海)股份有限公司(以下简称"")于 2020 年 9 月成立于上海,其拥有技术完备、设计和产业化经验丰富的团队,曾主导过十多款世界主流高性能 GPU
    的头像 发表于 10-17 15:06 811次阅读

    书生大模型实战营魔乐专场MeetUP精彩回顾

    近日,由书生大模型社区、、魔乐社区、算丰和 DaoCloud 道客等联合打造的「书生大模型实战营魔乐专场 MeetUP 暨颁奖仪式」在上海漕河泾国际孵化中心圆满落幕。
    的头像 发表于 08-20 11:33 904次阅读

    全链路算力方案亮相WAIC 2025

    以“智能时代 同球共济”为主题的2025世界人工智能大会(WAIC)于7月26日在上海开幕,全球人工智能领域的技术创新与产业实践成为焦点。集成电路(上海)股份有限公司(以下简称“
    的头像 发表于 08-01 11:58 7843次阅读

    亮相2025世界人工智能大会

    子技术标准化研究院、上海市算力网络协会等权威机构,汇聚院士、政府领导、头部企业CTO及学术领袖共话AI算力未来。论坛现场重磅发布基于国产供应链的旗舰GPUC600,首发训推一体技术全栈方案,聚焦“开源生态”与“训推能力”两大
    的头像 发表于 07-28 18:08 4468次阅读

    硅基流动携手首发基于的Kimi K2推理服务

    今天,硅基流动联合集成电路(上海)股份有限公司(简称“”),全球首发基于
    的头像 发表于 07-23 17:33 1561次阅读

    PaddleScience完成与AI芯片适配

    当前,PaddleScience已与展开深度合作,涵盖智能仿真、高性能计算、科学建模等多个方向。这一趋势正加速形成面向"Al for Science"的国产智算生态新格局。
    的头像 发表于 05-06 14:49 1342次阅读

    C500通用计算GPU与百度飞桨完成Ⅱ级兼容性测试

    近日,C500通用计算GPU与百度飞桨已完成Ⅱ级兼容性测试。测试结果显示,双方兼容性表现良好,整体运行稳定。这是
    的头像 发表于 03-31 14:22 1481次阅读

    加速DeepSeek满血版单卡C500异构推理

    近日,基于开源KTransformers架构的 CPU/GPU 异构推理能力,C500单卡GPU上成功实现DeepSeek-R1-
    的头像 发表于 03-20 15:52 1890次阅读

    Gitee AI 联合首发全套 DeepSeek R1 千问蒸馏模型,全免费体验!

    、DeepSeek-R1-Distill-Qwen-14B、DeepSeek-R1-Distill-Qwen-32B四个较小尺寸的 DeepSeek 模型。值得关注的是, 本次上线的四个模型均部署在国产
    的头像 发表于 02-10 09:56 1099次阅读
    Gitee AI 联合<b class='flag-5'>沐</b><b class='flag-5'>曦</b>首发全套 DeepSeek R1 千问蒸馏模型,全免费体验!

    澎峰科技与完成联合测试,实现全面兼容

    近日,澎峰科技与科技宣布,双方已完成对PerfXLM推理引擎、PerfXCloud大模型服务平台与
    的头像 发表于 01-21 15:20 968次阅读

    澎峰科技计算软件栈与GPU完成适配和互认证

    ‍近期,澎峰科技与完成了对PerfXLM(推理引擎)、PerfXCloud(大模型服务平台)与
    的头像 发表于 01-21 09:51 1187次阅读