沐曦股份联合上海人工智能实验室发布高性能GPU算子生成系统Kernel-Smith-电子发烧友网

近日，上海人工智能实验室和沐曦股份联合发布了高性能GPU算子生成系统—— Kernel-Smith。

Kernel-Smith创新性地将“稳定评估驱动的进化智能体”与“面向进化的后训练范式”深度融合，依托上海人工智能实验室书生大模型Intern-S1-Pro的基座能力进行深度定制化训练，让大模型真正化身为“算子优化大师”。

在双方的合作中，沐曦团队全程深度参与。联合创始人、CTO兼首席软件架构师杨建、研发副总裁黄向军、AI部门的武亚光、董华楠、谢佳形均参与了该项目并做出贡献。

沐曦自研软件栈MXMACA展现出了深度兼容能力。在MXMACA后端测试中，Kernel-Smith 表现出色。研究团队在四类常用算子上对比了不同模型生成高性能 MXMACA 算子的能力，结果显示，Kernel-Smith-MACA-30B 的平均加速比超过了 DeepSeek-v3.2 和 Qwen3-235B-2507 等大参数量的开源模型，而 Kernel-Smith-MACA-235B 取得了进一步性能提升，验证了 Kernel-Smith 框架支持异构平台的能力。

沐曦MXMACA 平台算子性能优化任务评测结果

目前，Kernel-Smith 自动生成的高性能算子已在实际场景中得到应用：不仅加速了 DeepSeek 新架构 Engram，并合入 DLBlas；还落地主流生产级推理引擎 SGLang 和 LMDeploy，实现了大模型自动生成算子从实验室受控评估，到前沿模型研发与生产级部署的双重跨越。

技术报告链接：

https://arxiv.org/pdf/2603.28342

在线体验链接：

https://chat.intern-ai.org.cn/kernel-smith

算子开发的两大挑战

在当今的大模型时代，高性能 GPU 算子（Kernel）是将硬件算力转化为实际吞吐量的核心引擎。无论是支撑 Megatron、vLLM、LMDeploy 等底层系统，还是驱动 AI for Science (AI4S) 的复杂科学计算，高效的算子实现都是释放硬件潜能的重中之重。

然而，尽管大模型的编程能力日益强大，但让其自主生成高性能算子并稳定应用于真实生产环境，仍是一个未被全面攻克的行业难题。

当前的算子开发高度依赖工程师的经验。一个高效的算子往往需要在众多融合模式、Tiling 策略等实现方案中反复搜索与调试，而现有基于 LLM 的算子生成系统，多依赖多轮对话或基于历史的 Agent 循环，这带来了两大挑战：

路径依赖与试错成本高：传统的 Debug 过程容易让模型“锚定”在早期的错误决策上，限制了探索的多样性。

“写对”不等于“跑得快”：功能上的正确性与极致的性能是两种完全不同的能力。模型不仅需要一次性生成正确的代码，更需要具备在测试阶段通过持续迭代，不断提升算子性能的能力。

两大创新设计

为了解决这些问题，研究团队创新地提出一个统一的进化智能体与强化训练框架。

核心设计一：构建稳定评估驱动的进化智能体。

进化搜索天然适合算子优化，因为它可以通过维护一个候选程序池，在多轮迭代中不断累积性能增益。然而，这一过程对“评测方差”极其敏感：如果 GPU 运行时间测量存在噪声，智能体可能会误删极具潜力的算子，或者保留次优解，这种错误会在代际之间不断放大。

为此，Kernel-Smith 在智能体设计上将“评测稳定性”放在首位。通过固定计算图、重复测量以及异常值剔除等机制，大幅抑制了计时噪声，确保了进化搜索动态的可靠性。同时，研究团队还为 NVIDIA Triton 和 MetaX Maca GPU 构建了专属的后端评估服务，提供编译、正确性和加速比的结构化执行反馈。

核心设计二：化长为短，面向进化的后训练策略。在模型训练层面，Kernel-Smith 将训练定义为进化循环中的“局部优化器（Local Improver）”。

具体而言，研究团队将长周期的进化轨迹转化为以“步骤”为中心的监督与强化学习信号。算法只保留那些“在保证正确性的前提下，带来了高收益性能提升”的修改步骤。通过这一设计，Kernel-Smith 不仅提升了单步修改的代码质量，更大幅提高了进化搜索中性能增益的复合增长率。

显著性能优势，超越顶尖闭源模型

得益于上述两大核心设计，Kernel-Smith 在实战中展现出了显著的性能优势。在统一的进化智能体协议下，Kernel-Smith-235B-RL 在 KernelBench（Nvidia Triton 后端）上实现了整体性能的 SOTA。在严格保证功能正确性的前提下，其平均加速比不仅优于所有开源基线模型，还超越了 Gemini-3.0-pro 和 Claude-4.6-opus 等顶尖闭源大模型。

KernelBench-Triton 评测结果

更重要的是，评测曲线显示，Kernel-Smith-235B-RL 的平均得分增长曲线在整个搜索过程中始终处于领先地位（如下图所示），这充分证明了该模型能够最有效地利用测试时算力（Test-time Compute）实现性能跃升。

不同模型使用同样的 KernelSmith Agent Framework，在 KernelBench-Triton 上的迭代增长曲线图

走出实验室，赋能前沿创新与生产级应用

Kernel-Smith 生成的高性能优化算子不仅成功赋能前沿架构创新，加速了 DeepSeek 新架构 Engram 并合入 DLBlas 开源算子库；更重要的是，它已顺利落地主流生产级推理引擎，分别为 SGLang 优化了 FlashAttention 后端的 normal_decode_set_metadata 算子，并为 LMDeploy 优化了 DeepSeek MoE Routing 算子，真正实现了大模型自动生成算子从实验室受控评估，到前沿模型研发与生产级部署的双重跨越。

搜索历史

沐曦股份联合上海人工智能实验室发布高性能GPU算子生成系统Kernel-Smith

评论