算力已成为 AI 时代的“石油”,但如何高效挖掘异构算力的潜能,打破单一硬件架构的软件壁垒,是全行业面临的共同考题。
过去二十年,CUDA 几乎定义了 GPU 编程的主流路径。但在 2026 年,随着更多国内AI芯片算力崛起与异构计算的普及,Triton 正从一个学术界的编程语言,演变为工业界打破 CUDA 垄断、连接上层算法与底层芯片的关键“通用语”。然而,语言的繁荣也带来了新的挑战:算子开发如何平衡易用性与极致性能?如何解决碎片化的硬件适配难题?
1 月 9 日,由众智 FlagOS 开源社区、北京智源人工智能研究院与 CSDN 联合主办的「2026 TritonNext 技术大会」在北京海淀区中关村国家自主创新示范区展示中心盛大开幕。
作为国内首个聚焦 Triton 生态、下一代算子编程和编译器的硬核技术盛会,本次大会以“聚焦下一代算子编程语言与真实落地实践”为核心,汇聚了来自北京智源人工智能研究院、中科院计算所、华为、蚂蚁集团、字节跳动、百度、摩尔线程等顶尖机构与企业的 AI 系统专家。从 FlagOS 的统一生态构建到大厂的落地实战,从 AI 辅助编程到 RISC-V 的前沿探索,与会专家共同探讨了 AI 编译器、高性能算子开发及异构硬件适配的最新解法,吹响了 AI 系统软件栈向“好用”、“通用”进军的号角。澎峰科技作为 FlagOS 生态伙伴参加会议并作了《基于 FlagGems Triton 的运行时调优与算子优化》分享。
张先轶:基于 FlagGems Triton 的运行时调优与算子优化
作为 OpenBLAS 的发起人,北京澎峰科技创始人兼 CEO 张先轶以 FlagGems C++ Wrapper 的底层依赖——轻量级 C++ 运行时库 libtriton_jit 为例,分享了团队在高性能算子库上的核心优化实践。他表示,重构 libtriton_jit 有两个核心目标:一是降低开销,消除纯 Python 运行时中不可避免的解释器开销和调度延迟;二是实现多后端统一,提供统一 C++ 接口,支持多硬件后端,并屏蔽底层 API 差异。
在技术实现上,他选择了 Policy-Based Design(编译时多态),利用 C++ 模板在编译期静态确定行为,从而消除抽象层开销,同时兼顾灵活性。虽然这种做法会增加二进制体积,但经过优化,wrapper 延迟显著下降,整体性能提升 2.5~4 倍;在小算子场景下,平均延迟仅为 11.69 μs,比重构前快 43%。此外,他进一步分享了算子层面的优化实践,包括在 mm 算子加入 TMA 优化,同时提升 TensorDescriptor 稳定性,并扩大 Triton Autotuning 搜索空间;对 Kron、argmin、resolve_conj、gelu_backward、glu_backward 等算子,则通过针对算法特性的 Block_size 调整,实现了更高加速比。整体而言,这些优化不仅大幅降低了延迟,也实现了算子层面的极致解耦,为构建高性能算子库提供了一套高效、灵活且可维护的解决方案。
一场技术盛会的价值,不仅在于前沿思想的碰撞,更在于生态力量的凝聚。大会举行了 “众智 FlagOS v1.6 研发致谢单位授予仪式”。澎峰科技代表与北京智源研究院、中科院计算所、中科加禾、安谋科技、北京大学、北京师范大学、百度飞桨、硅基流动、寒武纪、海光信息、华为、基流科技、摩尔线程、沐曦科技、清微智能、天数智芯、先进编译实验室、移动研究院、中国矿业大学(北京)等多家在 FlagOS v1.6 版本研发中做出卓越贡献的单位代表上台,接受了这份代表社区认可的荣誉。
这一环节不仅是对过去一年多来所有贡献者辛勤付出的肯定,更展现了 FlagOS 社区“众智”的力量——正是这些来自产学研各界的核心力量,共同推动着国产 AI 系统软件栈从愿景走向现实。
TritonNext:始于一行代码,成于众人之智
从上午场深度的技术趋势及架构剖析,到下午场热烈的技术实践与代码实战操练,2026 TritonNext 技术大会不仅呈现了一场关于 Triton 与 AI 系统软件的技术盛宴,更生动诠释了“众智”的力量。
当“一次编写,处处运行”不再是遥远的理想,当 AI 开始自动生成并验证算子,当开发者们能够通过统一的开源社区协同攻克异构硬件的壁垒——我们看到的,是一个正在加速繁荣的、由开发者驱动的开源新生态。这场大会是起点,更是集结号,真正的变革将在每一行被贡献的代码、每一次社区的讨论中发生。
对于奋战在一线的开发者而言,“异构适配”与“性能优化”或许是过去几年中最令人头疼的工程难题。而贯穿 2026 TritonNext 技术大会始终的,正是对这些难题的正面回应。
从 KernelGen 将算子开发门槛降至“分钟级”,到 FlagTree 让跨芯迁移成本缩短至“天级”,再到 Triton-Distributed 将分布式编程化繁为简——大会传递出一个明确的信号:工具的进化,正在将开发者从繁琐的底层适配工作中解放出来,能够重新聚焦于最具创造力的算法与应用创新。AI 系统软件的未来,正由每一位被赋能的开发者亲手构建。澎峰科技将持续深度参与 FlagOS 生态构建,与产业伙伴共同推动 Triton 在技术攻坚、应用落地与社区生态的协同发展与繁荣。
-
AI
+关注
关注
91文章
40941浏览量
302523 -
RISC-V
+关注
关注
49文章
2941浏览量
53520 -
澎峰科技
+关注
关注
0文章
83浏览量
3756
原文标题:TritonNext技术大会圆满落幕,澎峰科技受邀参会
文章出处:【微信号:perfxlab,微信公众号:perfxlab】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
海康威视亮相2026边坡与滑坡工程技术创新大会
TE Connectivity亮相2026商用航空发动机技术大会
云英谷科技亮相ICDT 2026国际显示技术大会
华大九天亮相ICDT 2026国际显示技术大会
西门子EDA亮相2026玄铁RISC-V生态大会
大咖集结·即刻报名 | 2026 玄铁 RISC-V 生态大会主论坛议程正式发布!
华阳多媒体亮相2026德国纽伦堡国际电子显示大会
光峰科技亮相2026美国西部光电展
光峰科技亮相CES 2026国际消费电子展
澎峰科技完成OpenAI最新开源推理模型适配
澎峰科技亮相第六届中国科学院大学校友创新论坛
Imagination与澎峰科技携手推动GPU+AI解决方案,共拓计算生态
Imagination与澎峰科技携手推动GPU+AI解决方案,共拓计算生态
澎峰科技亮相2026 TritonNext技术大会
评论