0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

拥抱DeepSeek开源生态| 算能TPU接入TileLang,集结北大复旦山大顶尖团队!

算能开发者社区 2025-10-03 19:08 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,DeepSeek V3.2-Exp 上线,官宣支持国产AI算子编程语言TileLang 并发布了针对 V3.2 的算子示例,这意味着支持“同一语义、跨多后端”的TileLang得到了权威认可,基于算能TPU的TileLang-TPU项目也于近日完成工程验证。

TileLang 发布之初,算能联合北京大学、复旦大学、山东大学等高校的科研团队,共同开展TileLang接入算能TPU的工作,目前已在BM1684X 、SC11等智算平台上完成了主流大模型算子的工程验证。

算能SC11 FP300单卡集成256GB LPDDR5X高带宽内存,内置原生FP8算力单元,板载高达1.1TB/s的内存带宽,配合PCIe Gen5主机接口及256GB/s的卡间高速互联,有效应对大模型参数存储与计算需求,DeepSeek V3满血版在4卡SC11上吞吐超过600tokens/s。


Tile Language (TileLang) 是一种简洁的领域专用语言,也是一款开源的 AI 算子编程语言,TileLang 对接算能TPU扩展的工作由北大硕士生解文浩、博士生任天行作为主要负责人牵头开发,山大、复旦的研发团队也参与了算子开发、大模型接入TPU的工作,一并表示感谢。4e96f3dc-a049-11f0-8ce9-92fbcf53809c.png

全栈贯通|从可行性到工程闭环

TileLang能够将高级别的数据流描述,自动转换并优化为高效的底层代码(如CUDA或TPU kernel)。通过独特的Tile级抽象和自动调度能力,开发者可以用更简洁的代码表达复杂计算,快速为自己的算法开发一个接近峰值性能的算子,显著提升算子开发效率。

TileLang-TPU适配路径以“少惊扰、强约束”为原则:前端仅描述 tile 级计算逻辑与数据流,不引入设备细节;中间以稳定的 Tile-IR 承接形状推断、布局决定与算子融合;后端生成面向算能 TPU 的 device 侧 C 代码与指令序列,并与 PPL 的内核注册、调度与运行时贯通。

4ea1d662-a049-11f0-8ce9-92fbcf53809c.png

该路径已在典型大模型算子上跑通,涵盖常见的 GEMM、归一化与位置相关变换等,完成从算子表达、代码生成、到 hostdevice 数据搬运和执行的全链路打通。由此,TileLang 的一次建模、多后端复用能力在国产 TPU 场景获得验证,为后续开源与规模化交付奠定了基础。

极致简洁|三步实现 TPU后端支持

TileLang-TPU的核心工作聚焦三点:前端原语扩展。于 TileLang/language/customize.py 增补自定义 tile op 接口,使 GEMM、RMSNorm、RoPE、SwiGLU 等算子可以以更贴近数学定义的方式表达,并在 Tile-IR 层明确迭代空间、数据复用与流水线切分,减少手写索引与 bank 冲突的偶然性。

4eb2f988-a049-11f0-8ce9-92fbcf53809c.png

代码生成映射。于 src/target/codegen_ppl.cc 完成原语到算能 TPU 专用执行单元的映射,将GEMM 一类算子对齐到 BDC 的矩阵乘路径(如 tpu_bdc_fp_mm.v 等),同时根据设备层级内存模型生成指令序列与局部缓存策略,确保计算与搬运(GDMA)管线化协同。以matmul在BM1684x上的计算为例,使用TileLang撰写的算子跟PPL手写算子性能持平,代码更加简洁。

4ebe3be0-a049-11f0-8ce9-92fbcf53809c.png

运行栈整合。生成的 device 侧 C 代码与元信息并入 PPL 体系,完成 kernel 注册、调度入口与形参绑定,保证 host 侧装载、形状检查、dtype/stride 处理与 device 侧执行一致;必要时补充 tiling 规则与长短轴对齐策略,以兼顾大shape与批处理场景。当前已实现TileLang 前端 → PPL/TPU 设备端 C → PPL 运行期可执行的完整链路,关键算子具备可对齐的性能基线与可定位的优化,便于后续按模型族进行系统化补全与压测。

持续开源 | 一次改写多处复用

TileLang开源的价值不止于“又多了一个后端”,更在于“少了成倍的重复移植”。在国产芯片生态日益多样化的现实下,统一的 tile 级前端抽象能把算子资产沉淀在可组合、可验证的语义层;迁移到新后端时,仅需围绕 CodeGen 与 runtime 这条窄口补齐映射与 ABI,可继承既有的表达、调度与测试体系。

这种“前端统一、后端定制”的方式,有机会在工程维度缓解国产芯片的碎片化,让差异化架构以最小成本共享同一套高质量算子实现与基准。后续开发团队将优先确保DeepSeek等主流模型链路的端到端可用,再面向长尾算子逐步补全,并在流水线深度、访存回填、缓存复用等细节上持续优化最佳实践。

TileLang-TPU 正在做开源前的代码清理与文档化的工作,它的意义并不在于“多了一个后端”,而在于“少了很多重复”,当同一套算子前端可以映射到更多芯片时,碎片化就不再是阻力,而会成为竞争力,让不同架构以各自所长服务更大的模型与更广的场景,而不是把资源消耗在移植与改写上。

再次感谢来自北大、复旦、山大等高校的研发团队在TileLang-TPU上所做的前瞻性工作,后续的开源仓库将附带清晰的示例与文档,支持以标准化方式扩展原语、以严谨的工程标准实现“一次改写、多平台复用”的目标。TileLang-TPU的成功验证,将进一步加深算能与高校、开源社区的合作深度,为完善国产芯片软件栈打造一个经典范式。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41060

    浏览量

    302568
  • TPU
    TPU
    +关注

    关注

    0

    文章

    172

    浏览量

    21716
  • DeepSeek
    +关注

    关注

    2

    文章

    837

    浏览量

    3396
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    DeepSeek V3.1发布!拥抱国产力芯片

    架构到Agent能力突破,从API价格调整到国产芯片生态共建,DeepSeek V3.1的发布标志着中国AI产业进入技术突破与产业落地协同发展的新阶段。   图:DeepSeek正式发布
    的头像 发表于 08-23 07:55 1.7w次阅读
    <b class='flag-5'>DeepSeek</b> V3.1发布!<b class='flag-5'>拥抱</b>国产<b class='flag-5'>算</b>力芯片

    沐曦股份GPU产品正式接入华佗开源生态

    沐曦股份坚持“自主创新与开放兼容”双轨战略,以自研MXMACA软件栈为核心,构建硬件与应用的桥梁,并承载开源核心使命。该栈于2025年2月正式开源,致力于打造开放的GPU编程接口标准,大幅降低开发门槛,有效破解跨平台兼容难题,驱动AI
    的头像 发表于 03-16 14:40 1357次阅读
    沐曦股份GPU产品正式<b class='flag-5'>接入</b>华佗<b class='flag-5'>开源</b><b class='flag-5'>生态</b>

    国产生态拥抱开源AI智能体:光合组织全国OpenClaw体验“龙虾局”正式启动

    服务,更同步首发业内首款端云协同国产工作站,标志着国内首个全面拥抱 OpenClaw 的国产生态,正式迈出技术落地与全民普及的关键一步,也为国产力打破
    的头像 发表于 03-11 09:39 9665次阅读
    国产<b class='flag-5'>算</b>力<b class='flag-5'>生态</b><b class='flag-5'>拥抱</b><b class='flag-5'>开源</b>AI智能体:光合组织全国OpenClaw体验“龙虾局”正式启动

    摩尔线程正式开源TileLang-MUSA项目

    近日,摩尔线程正式开源TileLang-MUSA项目,实现对TileLang编程语言的完整支持。该项目已成功在摩尔线程多代全功能GPU上完成功能验证与特性开发,旨在通过高层抽象与编译器优化,大幅降低开发门槛,为国产
    的头像 发表于 02-11 16:57 1683次阅读

    北大团队最新研究:AI芯片力提升数倍,效提升超90倍

    电子发烧友网综合报道 2026年1月,国际顶级学术期刊《自然·电子》刊发的一项研究成果,让全球半导体与力领域为之瞩目——北京大学人工智能研究院陶耀宇研究员、集成电路学院杨玉超教授团队,在国际上
    的头像 发表于 01-15 09:31 2222次阅读

    北大学以开源技术铺就人才与产业共赢之路

    开源浪潮席卷全球科技领域,成为技术创新与产业升级的核心引擎,一所地方高校如何凭借前瞻布局与务实行动,在开源生态中占据重要席位,既培育出顶尖创新人才,又产出服务产业的硬核成果?中
    的头像 发表于 01-07 10:30 541次阅读

    北大开源鸿蒙技术俱乐部正式揭牌成立

    ”在东北大学浑南校区成功举办。 嘉宾合影 东北大学党委常委、副校长王辉出席活动并致辞。王辉表示,立足国家战略布局,发展开源生态、锻造自主可控核心技术人才队伍,是推动科技自立自强的关键一
    的头像 发表于 10-31 10:43 986次阅读
    东<b class='flag-5'>北大</b>学<b class='flag-5'>开源</b>鸿蒙技术俱乐部正式揭牌成立

    复旦大学探索开源人才发展新模式

    复旦大学作为一所与国家命运紧密相连的百年学府,始终将服务国家战略需求、培养拔尖创新人才作为核心使命。在科研领域,以敢为人先、开放协作的姿态,探索着高校与产业、社区联动的创新路径。近年来,复旦大学围绕开源
    的头像 发表于 10-17 11:05 808次阅读

    探秘安全生产预警预测系统的五大顶尖平台

    探秘安全生产预警预测系统的五大顶尖平台
    的头像 发表于 10-16 09:56 1444次阅读
    探秘安全生产预警预测系统的五<b class='flag-5'>大顶尖</b>平台

    沐曦曦云C系列产品已支持TileLang

    近日,DeepSeek宣布在其新版本中拥抱国产GPU语言TileLang,引发业界广泛关注。作为国产高性能GPU的代表,沐曦曦云C系列产品已率先在这一新兴开源社区获得支持。
    的头像 发表于 10-14 09:25 1298次阅读
    沐曦曦云C系列产品已支持<b class='flag-5'>TileLang</b>

    边缘计算AI硬件如何接入DeepSeek吗?需要具备哪些条件?

    2025年伊始,一款来自中国初创公司“深度求索”的AI大模型DeepSeek横空出世,惊艳全球。DeepSeek厉害之处在于,在中国被外国芯片封锁的背景下,在性能上接近美国顶尖AI模型,但研发
    的头像 发表于 08-21 10:30 2032次阅读
    边缘计算AI硬件如何<b class='flag-5'>接入</b><b class='flag-5'>DeepSeek</b>吗?需要具备哪些条件?

    开源金融创新论坛成功举办

    日前,2025开放原子开源生态大会——开源金融创新论坛在北京成功举办。论坛致力于推动金融行业拥抱开源
    的头像 发表于 08-05 11:00 1396次阅读

    【「DeepSeek 核心技术揭秘」阅读体验】--全书概览

    DeepSeek对人工智能技术格局的一个影响 第六章 DeepSeek开源技术剖析 第七章 大模型发展未来展望 全书图文并茂,对专业技术属于进行了讲解,也有对流程、框架、参数的展示,结合案例与应用方面的代入,是非常好的对
    发表于 07-21 00:04

    【「DeepSeek 核心技术揭秘」阅读体验】书籍介绍+第一章读后心得

    可能大家耳熟详的是DeepSeek-R1,这是在网页端开启了“深度思考”模式后调用的模型,如果不开,则是用的V3模型。但是,DeepSeek模型家族不止有V3和R1,它还开源有多模
    发表于 07-17 11:59

    TPU编程竞赛系列|2025中国国际大学生创新大赛产业命题赛道,11项命题入选!

    中国国际大学生创新大赛(原“互联网+”大赛)产业命题正式公布,十一项命题成功入选。本次赛题主要聚焦于国产TPU处理器的边缘系统开发和
    的头像 发表于 06-05 17:03 1596次阅读
    <b class='flag-5'>TPU</b>编程竞赛系列|2025中国国际大学生创新大赛产业命题赛道,<b class='flag-5'>算</b><b class='flag-5'>能</b>11项命题入选!