0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

拥抱DeepSeek开源生态| 算能TPU接入TileLang,集结北大复旦山大顶尖团队!

算能开发者社区 2025-10-03 19:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,DeepSeek V3.2-Exp 上线,官宣支持国产AI算子编程语言TileLang 并发布了针对 V3.2 的算子示例,这意味着支持“同一语义、跨多后端”的TileLang得到了权威认可,基于算能TPU的TileLang-TPU项目也于近日完成工程验证。

TileLang 发布之初,算能联合北京大学、复旦大学、山东大学等高校的科研团队,共同开展TileLang接入算能TPU的工作,目前已在BM1684X 、SC11等智算平台上完成了主流大模型算子的工程验证。

算能SC11 FP300单卡集成256GB LPDDR5X高带宽内存,内置原生FP8算力单元,板载高达1.1TB/s的内存带宽,配合PCIe Gen5主机接口及256GB/s的卡间高速互联,有效应对大模型参数存储与计算需求,DeepSeek V3满血版在4卡SC11上吞吐超过600tokens/s。


Tile Language (TileLang) 是一种简洁的领域专用语言,也是一款开源的 AI 算子编程语言,TileLang 对接算能TPU扩展的工作由北大硕士生解文浩、博士生任天行作为主要负责人牵头开发,山大、复旦的研发团队也参与了算子开发、大模型接入TPU的工作,一并表示感谢。4e96f3dc-a049-11f0-8ce9-92fbcf53809c.png

全栈贯通|从可行性到工程闭环

TileLang能够将高级别的数据流描述,自动转换并优化为高效的底层代码(如CUDA或TPU kernel)。通过独特的Tile级抽象和自动调度能力,开发者可以用更简洁的代码表达复杂计算,快速为自己的算法开发一个接近峰值性能的算子,显著提升算子开发效率。

TileLang-TPU适配路径以“少惊扰、强约束”为原则:前端仅描述 tile 级计算逻辑与数据流,不引入设备细节;中间以稳定的 Tile-IR 承接形状推断、布局决定与算子融合;后端生成面向算能 TPU 的 device 侧 C 代码与指令序列,并与 PPL 的内核注册、调度与运行时贯通。

4ea1d662-a049-11f0-8ce9-92fbcf53809c.png

该路径已在典型大模型算子上跑通,涵盖常见的 GEMM、归一化与位置相关变换等,完成从算子表达、代码生成、到 hostdevice 数据搬运和执行的全链路打通。由此,TileLang 的一次建模、多后端复用能力在国产 TPU 场景获得验证,为后续开源与规模化交付奠定了基础。

极致简洁|三步实现 TPU后端支持

TileLang-TPU的核心工作聚焦三点:前端原语扩展。于 TileLang/language/customize.py 增补自定义 tile op 接口,使 GEMM、RMSNorm、RoPE、SwiGLU 等算子可以以更贴近数学定义的方式表达,并在 Tile-IR 层明确迭代空间、数据复用与流水线切分,减少手写索引与 bank 冲突的偶然性。

4eb2f988-a049-11f0-8ce9-92fbcf53809c.png

代码生成映射。于 src/target/codegen_ppl.cc 完成原语到算能 TPU 专用执行单元的映射,将GEMM 一类算子对齐到 BDC 的矩阵乘路径(如 tpu_bdc_fp_mm.v 等),同时根据设备层级内存模型生成指令序列与局部缓存策略,确保计算与搬运(GDMA)管线化协同。以matmul在BM1684x上的计算为例,使用TileLang撰写的算子跟PPL手写算子性能持平,代码更加简洁。

4ebe3be0-a049-11f0-8ce9-92fbcf53809c.png

运行栈整合。生成的 device 侧 C 代码与元信息并入 PPL 体系,完成 kernel 注册、调度入口与形参绑定,保证 host 侧装载、形状检查、dtype/stride 处理与 device 侧执行一致;必要时补充 tiling 规则与长短轴对齐策略,以兼顾大shape与批处理场景。当前已实现TileLang 前端 → PPL/TPU 设备端 C → PPL 运行期可执行的完整链路,关键算子具备可对齐的性能基线与可定位的优化,便于后续按模型族进行系统化补全与压测。

持续开源 | 一次改写多处复用

TileLang开源的价值不止于“又多了一个后端”,更在于“少了成倍的重复移植”。在国产芯片生态日益多样化的现实下,统一的 tile 级前端抽象能把算子资产沉淀在可组合、可验证的语义层;迁移到新后端时,仅需围绕 CodeGen 与 runtime 这条窄口补齐映射与 ABI,可继承既有的表达、调度与测试体系。

这种“前端统一、后端定制”的方式,有机会在工程维度缓解国产芯片的碎片化,让差异化架构以最小成本共享同一套高质量算子实现与基准。后续开发团队将优先确保DeepSeek等主流模型链路的端到端可用,再面向长尾算子逐步补全,并在流水线深度、访存回填、缓存复用等细节上持续优化最佳实践。

TileLang-TPU 正在做开源前的代码清理与文档化的工作,它的意义并不在于“多了一个后端”,而在于“少了很多重复”,当同一套算子前端可以映射到更多芯片时,碎片化就不再是阻力,而会成为竞争力,让不同架构以各自所长服务更大的模型与更广的场景,而不是把资源消耗在移植与改写上。

再次感谢来自北大、复旦、山大等高校的研发团队在TileLang-TPU上所做的前瞻性工作,后续的开源仓库将附带清晰的示例与文档,支持以标准化方式扩展原语、以严谨的工程标准实现“一次改写、多平台复用”的目标。TileLang-TPU的成功验证,将进一步加深算能与高校、开源社区的合作深度,为完善国产芯片软件栈打造一个经典范式。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    89

    文章

    38085

    浏览量

    296316
  • TPU
    TPU
    +关注

    关注

    0

    文章

    164

    浏览量

    21530
  • DeepSeek
    +关注

    关注

    2

    文章

    824

    浏览量

    2799
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    DeepSeek V3.1发布!拥抱国产力芯片

    架构到Agent能力突破,从API价格调整到国产芯片生态共建,DeepSeek V3.1的发布标志着中国AI产业进入技术突破与产业落地协同发展的新阶段。   图:DeepSeek正式发布
    的头像 发表于 08-23 07:55 1.6w次阅读
    <b class='flag-5'>DeepSeek</b> V3.1发布!<b class='flag-5'>拥抱</b>国产<b class='flag-5'>算</b>力芯片

    北大开源鸿蒙技术俱乐部正式揭牌成立

    ”在东北大学浑南校区成功举办。 嘉宾合影 东北大学党委常委、副校长王辉出席活动并致辞。王辉表示,立足国家战略布局,发展开源生态、锻造自主可控核心技术人才队伍,是推动科技自立自强的关键一
    的头像 发表于 10-31 10:43 399次阅读
    东<b class='flag-5'>北大</b>学<b class='flag-5'>开源</b>鸿蒙技术俱乐部正式揭牌成立

    探秘安全生产预警预测系统的五大顶尖平台

    探秘安全生产预警预测系统的五大顶尖平台
    的头像 发表于 10-16 09:56 957次阅读
    探秘安全生产预警预测系统的五<b class='flag-5'>大顶尖</b>平台

    沐曦曦云C系列产品已支持TileLang

    近日,DeepSeek宣布在其新版本中拥抱国产GPU语言TileLang,引发业界广泛关注。作为国产高性能GPU的代表,沐曦曦云C系列产品已率先在这一新兴开源社区获得支持。
    的头像 发表于 10-14 09:25 616次阅读
    沐曦曦云C系列产品已支持<b class='flag-5'>TileLang</b>

    TPU编程竞赛|第二十届研电赛杯赛启动 -- 智,创见未来!

    第二十届中国研究生电子设计竞赛(以下简称“研电赛”)正式启动,作为命题企业聚焦人工智能与边缘计算前沿技术,围绕TPU硬件平台与轻量化AIoT系统发布两大创新赛题,涵盖大模型边缘部署、智能交互系统
    的头像 发表于 04-01 17:33 1702次阅读
    <b class='flag-5'>TPU</b>编程竞赛|第二十届研电赛<b class='flag-5'>算</b><b class='flag-5'>能</b>杯赛启动 -- 智<b class='flag-5'>算</b>赋<b class='flag-5'>能</b>,创见未来!

    北京大学两部 DeepSeek 秘籍新出炉!(附全集下载)

    北大的肖睿团队出品了两份 DeepSeek “内部秘籍”, 赶紧拿来给大家分享。 可能有的家友对什么是 DeepSeek?它有什么用?仍感到一头雾水。 就让我们回归基础,从大语言模型的
    发表于 02-27 17:57

    诚迈科技HongZOS接入DeepSeek

    近日,诚迈科技基于开源鸿蒙研发的物联网操作系统「鸿诚志远HongZOS」成功接入DeepSeek,并在鸿志工业三防平板上实现在线部署和本地化部署。这标志着诚迈科技正式开启「HongZOS+AI大模型」的深度融合,将为行业客户带来
    的头像 发表于 02-25 17:30 1143次阅读

    开源大模型DeepSeek的开放内容详析

    当大家讨论为什么 DeepSeek 能够形成全球刷屏之势,让所有厂商、平台都集成之时,「开源」成为了最大的关键词之一,图灵奖得主 Yann LeCun 称其是「开源的胜利」。模型开源
    的头像 发表于 02-19 09:48 2414次阅读
    <b class='flag-5'>开源</b>大模型<b class='flag-5'>DeepSeek</b>的开放内容详析

    DeepSeek访问量飙升,应用生态迅速扩展

    扩展。 目前,三家基础电信企业已全面接入国产开源大模型DeepSeek,为其提供了广泛的网络覆盖和通信支持。同时,手机、PC等终端厂商也在积极拥抱D
    的头像 发表于 02-14 10:00 754次阅读

    荣耀手机正式接入DeepSeek

    荣耀正式宣布接入DeepSeek,并致力于将荣耀手机打造成为DeepSeek的第一手机。对于系统版本为MagicOS8.0及以上的荣耀手机用户,只需将YOYO助理升级到80.0.1.503版本及以上,即可与
    的头像 发表于 02-10 16:33 1478次阅读

    软通动力天元智接入DeepSeek系列模型

    近日,软通动力天元智大模型网关迎来重磅升级,正式接入DeepSeek系列模型,为企业生产力提升带来全新助力。
    的头像 发表于 02-10 09:44 873次阅读

    “兆瀚”力产品强力支持DeepSeek,共筑国产AI新生态

    全球人工智能竞赛进入白热化之际,中国AI领域迎来里程碑式突破——诞生于本土的开源大模型DeepSeek,凭借媲美全球顶尖水平的算法精度和极致开放的生态策略,迅速获得全球瞩目。作为昇腾战
    的头像 发表于 02-07 19:37 1225次阅读
    “兆瀚”<b class='flag-5'>算</b>力产品强力支持<b class='flag-5'>DeepSeek</b>,共筑国产AI新<b class='flag-5'>生态</b>!

    TPU编程竞赛系列|第九届集创赛“杯”火热报名中!

    第九届全国大学生集成电路创新创业大赛(以下简称“集创赛”)正式开始报名。能在处理器应用方向特别设立了“TPU的边缘计算架构优化与创新应用设计”赛题,诚邀各校参赛队伍充分发挥TPU
    的头像 发表于 02-06 13:41 1587次阅读
    <b class='flag-5'>TPU</b>编程竞赛系列|第九届集创赛“<b class='flag-5'>算</b><b class='flag-5'>能</b>杯”火热报名中!

    深度解析deepseek开源是什么意思

    Deepseek开源是指Deepseek项目的源代码被公开,允许任何人免费查看、使用、修改和分发。
    的头像 发表于 02-06 09:29 4171次阅读

    TPU编程竞赛|2024 CCF BDCI大赛圆满结束!赛道“常务副SOTA”团队荣获最佳算法能力奖

    团队脱颖而出,荣获大赛最佳算法能力奖。本届CCFBDCI大赛中,赛道推出了“基于TPU平台的OCR模型性能优化”的赛题,旨在探索如何通过高效的
    的头像 发表于 01-08 08:33 955次阅读
    <b class='flag-5'>TPU</b>编程竞赛|2024 CCF BDCI大赛圆满结束!<b class='flag-5'>算</b><b class='flag-5'>能</b>赛道“常务副SOTA”<b class='flag-5'>团队</b>荣获最佳算法能力奖