0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

沐曦股份联合上海人工智能实验室发布高性能GPU算子生成系统Kernel-Smith

沐曦MetaX 来源:沐曦MetaX 2026-04-08 15:39 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,上海人工智能实验室和沐曦股份联合发布了高性能GPU算子生成系统—— Kernel-Smith。

Kernel-Smith创新性地将“稳定评估驱动的进化智能体”与“面向进化的后训练范式”深度融合,依托上海人工智能实验室书生大模型Intern-S1-Pro的基座能力进行深度定制化训练,让大模型真正化身为“算子优化大师”。

在双方的合作中,沐曦团队全程深度参与。联合创始人、CTO兼首席软件架构师杨建、研发副总裁黄向军、AI部门的武亚光、董华楠、谢佳形均参与了该项目并做出贡献。

沐曦自研软件栈MXMACA展现出了深度兼容能力。在MXMACA后端测试中,Kernel-Smith 表现出色。研究团队在四类常用算子上对比了不同模型生成高性能 MXMACA 算子的能力,结果显示,Kernel-Smith-MACA-30B 的平均加速比超过了 DeepSeek-v3.2 和 Qwen3-235B-2507 等大参数量的开源模型,而 Kernel-Smith-MACA-235B 取得了进一步性能提升,验证了 Kernel-Smith 框架支持异构平台的能力。

f2aaa46c-2f43-11f1-90a1-92fbcf53809c.png

沐曦MXMACA 平台算子性能优化任务评测结果

目前,Kernel-Smith 自动生成的高性能算子已在实际场景中得到应用:不仅加速了 DeepSeek 新架构 Engram,并合入 DLBlas;还落地主流生产级推理引擎 SGLang 和 LMDeploy,实现了大模型自动生成算子从实验室受控评估,到前沿模型研发与生产级部署的双重跨越。

技术报告链接:

https://arxiv.org/pdf/2603.28342

在线体验链接:

https://chat.intern-ai.org.cn/kernel-smith

算子开发的两大挑战

在当今的大模型时代,高性能 GPU 算子(Kernel)是将硬件算力转化为实际吞吐量的核心引擎。无论是支撑 Megatron、vLLM、LMDeploy 等底层系统,还是驱动 AI for Science (AI4S) 的复杂科学计算,高效的算子实现都是释放硬件潜能的重中之重。

然而,尽管大模型的编程能力日益强大,但让其自主生成高性能算子并稳定应用于真实生产环境,仍是一个未被全面攻克的行业难题。

当前的算子开发高度依赖工程师的经验。一个高效的算子往往需要在众多融合模式、Tiling 策略等实现方案中反复搜索与调试,而现有基于 LLM 的算子生成系统,多依赖多轮对话或基于历史的 Agent 循环,这带来了两大挑战:

路径依赖与试错成本高: 传统的 Debug 过程容易让模型“锚定”在早期的错误决策上,限制了探索的多样性。

“写对”不等于“跑得快”: 功能上的正确性与极致的性能是两种完全不同的能力。模型不仅需要一次性生成正确的代码,更需要具备在测试阶段通过持续迭代,不断提升算子性能的能力。

两大创新设计

为了解决这些问题,研究团队创新地提出一个统一的进化智能体与强化训练框架。

核心设计一:构建稳定评估驱动的进化智能体。

进化搜索天然适合算子优化,因为它可以通过维护一个候选程序池,在多轮迭代中不断累积性能增益。然而,这一过程对“评测方差”极其敏感:如果 GPU 运行时间测量存在噪声,智能体可能会误删极具潜力的算子,或者保留次优解,这种错误会在代际之间不断放大。

为此,Kernel-Smith 在智能体设计上将“评测稳定性”放在首位。通过固定计算图、重复测量以及异常值剔除等机制,大幅抑制了计时噪声,确保了进化搜索动态的可靠性。同时,研究团队还为 NVIDIA Triton 和 MetaX Maca GPU 构建了专属的后端评估服务,提供编译、正确性和加速比的结构化执行反馈。

核心设计二:化长为短,面向进化的后训练策略。在模型训练层面,Kernel-Smith 将训练定义为进化循环中的“局部优化器(Local Improver)”。

具体而言,研究团队将长周期的进化轨迹转化为以“步骤”为中心的监督与强化学习信号算法只保留那些“在保证正确性的前提下,带来了高收益性能提升”的修改步骤。通过这一设计,Kernel-Smith 不仅提升了单步修改的代码质量,更大幅提高了进化搜索中性能增益的复合增长率。

显著性能优势,超越顶尖闭源模型

得益于上述两大核心设计,Kernel-Smith 在实战中展现出了显著的性能优势。在统一的进化智能体协议下,Kernel-Smith-235B-RL 在 KernelBench(Nvidia Triton 后端)上实现了整体性能的 SOTA。在严格保证功能正确性的前提下,其平均加速比不仅优于所有开源基线模型,还超越了 Gemini-3.0-pro 和 Claude-4.6-opus 等顶尖闭源大模型。

f4861ce4-2f43-11f1-90a1-92fbcf53809c.png

KernelBench-Triton 评测结果

更重要的是,评测曲线显示,Kernel-Smith-235B-RL 的平均得分增长曲线在整个搜索过程中始终处于领先地位(如下图所示),这充分证明了该模型能够最有效地利用测试时算力(Test-time Compute)实现性能跃升。

f4e419fc-2f43-11f1-90a1-92fbcf53809c.png

不同模型使用同样的 KernelSmith Agent Framework,在 KernelBench-Triton 上的迭代增长曲线图

走出实验室,赋能前沿创新与生产级应用

Kernel-Smith 生成的高性能优化算子不仅成功赋能前沿架构创新,加速了 DeepSeek 新架构 Engram 并合入 DLBlas 开源算子库 ;更重要的是,它已顺利落地主流生产级推理引擎,分别为 SGLang 优化了 FlashAttention 后端的 normal_decode_set_metadata 算子,并为 LMDeploy 优化了 DeepSeek MoE Routing 算子,真正实现了大模型自动生成算子从实验室受控评估,到前沿模型研发与生产级部署的双重跨越。

相关 Pull Request 链接:

https://github.com/DeepLink-org/DLBlas/pull/102

https://github.com/sgl-project/sglang/pull/20778

https://github.com/InternLM/lmdeploy/pull/4345

在 NV-H200 硬件环境下的算子隔离评测中,Kernel-Smith 展现出显著的 Test-Time Scaling 效应:随着演化迭代的深入,算子性能实现持续增长。

f5a77280-2f43-11f1-90a1-92fbcf53809c.png

算子进化迭代曲线图

在主流推理引擎的实际落地中,Kernel-Smith 自动生成的算子为 SGLang 和 LMDeploy 分别带来了 4.78x 和 1.36x 的真实加速收益。在 DeepSeek Engram 复杂场景的深度探索中,模型成功跨越局部最优解,触发了从 5 倍到 12 倍以上的突破性性能跃升,最终达到 14.59x 加速。

f5fe9768-2f43-11f1-90a1-92fbcf53809c.png

算子隔离评测结果

同时,研究团队在社区率先将自动化算子评测扩展至端到端模型吞吐。Kernel-Smith 生成的算子不仅稳定提升了 LMDeploy 的端到端吞吐(最高约3%),还可靠地降低了 SGLang 的真实服务延迟。这验证了生成代码在复杂系统中的鲁棒性,也为自动化算子在生产级引擎中的端到端集成提供了可行的实践参考。

f658c58a-2f43-11f1-90a1-92fbcf53809c.png

LMDeploy 端到端模型吞吐评测

结语

沐曦股份坚持“自主创新+开放兼容”的双轨并行路线,在底层硬件完成突破的同时,致力于围绕MXMACA软件栈, 打造一个开放、自主、全栈兼容的智能计算生态,公司的目标是将建成人工智能时代的“Android”。

目前,MXMACA软件栈不仅深度兼容主流GPU生态,还支持40多种AI框架,覆盖训练、推理、科学计算全场景,可大福降低开发者的生态迁移成本。同时可支持500多款AI模型、4500多个开源项目软件兼容测试,覆盖95%的主流AI场景。此前已支持国内多款AI模型的“Day0适配”、实现即插即用。MXMACA开源社区也于去年开放,截至2026年3月13日,软件栈注册用户已超过30万人。

此次合作,既是MXMACA软件栈生态的价值体现,也为公司持续深耕AI算力基础设施、推动高性能计算技术产业化升级奠定了坚实基础,未来双方将继续深化协同,依托Kernel-Smith与MXMACA的技术合力,为AI大模型、科学计算等领域提供更高效、更可靠的算力解决方案。

关于沐曦股份

沐曦股份致力于自主研发全栈高性能GPU芯片及计算平台,为智算、通用计算、云渲染等前沿领域提供高能效、高通用性的算力支撑,助力数字经济发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5258

    浏览量

    136039
  • 人工智能
    +关注

    关注

    1819

    文章

    50290

    浏览量

    266826
  • 沐曦
    +关注

    关注

    1

    文章

    97

    浏览量

    1875

原文标题:沐曦股份联合上海人工智能实验室发布高性能GPU算子生成系统Kernel-Smith

文章出处:【微信号:沐曦MetaX,微信公众号:沐曦MetaX】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    股份参与编撰的超节点技术体系白皮书正式发布

    第二届浦江AI学术年会于近日举行。会上,由上海人工智能实验室DeepLink团队牵头,股份作为核心产业伙伴深度参与编撰的《超节点技术体系
    的头像 发表于 04-03 15:18 478次阅读

    壁仞科技与上海人工智能实验室合作推出全新DeepLink混推方案

    近日,上海人工智能实验室推出DeepLink多元算力混合推理加速方案(以下简称“DeepLink混推方案”),首次实现对壁仞科技等四家国产算力厂商多款芯片的混合调度与协同推理。
    的头像 发表于 03-10 16:38 1237次阅读
    壁仞科技与<b class='flag-5'>上海人工智能</b><b class='flag-5'>实验室</b>合作推出全新DeepLink混推方案

    股份CXO预科班2026冬令营圆满收官

    2月6日,由集成电路(上海股份有限公司(股票代码:688802,简称“
    的头像 发表于 02-25 16:29 1266次阅读

    壁仞科技与阶跃星辰及上海仪电智算服务成立人工智能联合实验室

    2月2日,壁仞科技(06082.HK)与上海仪电旗下智算服务、阶跃星辰携手打造的人工智能联合实验室正式揭牌。人工智能
    的头像 发表于 02-04 10:14 418次阅读

    股份正式推出索X系列全新GPU品牌与产品线

    1月27日,股份(股票代码:688802.SH)正式推出索X系列全新GPU品牌与产品线。该系列产品是面向科学
    的头像 发表于 01-28 17:14 818次阅读

    股份与江南大学建立联合研究中心

    近日,教育部哲学社会科学实验室“食品安全与国家战略治理实验室”揭牌暨合作签约仪式、学术委员会会议在无锡隆重举行。活动现场,集成电路(上海
    的头像 发表于 01-21 17:25 1564次阅读

    DLInfer联手股份实现数据生成场景的实际落地

    近期,上海 AI 实验室 DeepLink 团队推出的 DLInfer 通过支持 LMDeploy 主流模型推理,助力股份
    的头像 发表于 12-09 14:55 845次阅读
    DLInfer联手<b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b>实现数据<b class='flag-5'>生成</b>场景的实际落地

    瀚海量子与股份达成战略合作 量子计算软件领军者+高性能GPU芯片领军者

    当量子计算软件领军者遇上高性能GPU芯片领军者,国产算力领域迎来一项重磅合作。 近日, 合肥瀚海量子科技有限公司(简称“瀚海量子”)与集成电路(
    的头像 发表于 11-24 19:02 3363次阅读

    股份上海电信完成首期GPU生态专家认证培训

    近期,集成电路(上海股份有限公司(以下简称“股份
    的头像 发表于 10-31 10:33 638次阅读

    强强联合:之江实验室股份共建智算集群联合实验室

    2025年10月22日, 之江实验室集成电路(上海股份有限公司(以下简称“
    的头像 发表于 10-23 10:50 1527次阅读

    首款全国产通用GPU芯片发布 集成推出云C600

    集成电路(南京)有限公司近日正式发布了首款全国产通用GPU——云C600,这标志着国产高性能
    的头像 发表于 10-19 20:04 4.7w次阅读

    GPU与龙蜥操作系统完成适配

    集成电路(上海股份有限公司(以下简称"")于 2020 年 9 月成立于
    的头像 发表于 10-17 15:06 1369次阅读

    液冷算力新标杆!科华数据联合股份在世界人工智能大会首发高密度液冷算力POD

    ,科华数据与股份联合推出的高密度液冷算力POD首次亮相,吸引了大量参会者驻足交流。该产品是科华数据专为
    的头像 发表于 07-29 15:57 1193次阅读
    液冷算力新标杆!科华数据<b class='flag-5'>联合</b><b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b>在世界<b class='flag-5'>人工智能</b>大会首发高密度液冷算力POD

    上海仪电联合智科技、壁仞科技、中兴通讯发布国内首个光互连光交换GPU超节点——光跃LightSphere X

    【2025年7月28日,上海】在2025世界人工智能大会(WAIC)“智算云启,共绘生态”论坛上,上海仪电(集团)有限公司(以下简称“上海仪电”)
    发表于 07-28 21:26 1783次阅读
    <b class='flag-5'>上海</b>仪电<b class='flag-5'>联合</b><b class='flag-5'>曦</b>智科技、壁仞科技、中兴通讯<b class='flag-5'>发布</b>国内首个光互连光交换<b class='flag-5'>GPU</b>超节点——光跃LightSphere X

    亮相2025世界人工智能大会

    近日,2025世界人工智能大会(WAIC)核心分论坛在上海世博中心盛大启幕。集成电路(上海股份
    的头像 发表于 07-28 18:08 4800次阅读