0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

摩尔线程携手上海AI实验室Day-0适配DeepSeek-V4核心算子

摩尔线程 来源:摩尔线程 2026-04-30 16:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今日,DeepSeek-V4预览版正式发布并开源。摩尔线程携手上海 AI 实验室 DeepLink 团队,通过大模型驱动的智能算子迁移系统 KernelSwift,率先在旗舰级AI训推一体智算卡 MTT S5000 上完成了核心算子的Day-0适配。目前算子通过率已超80%,真正实现了模型发布与国产算力适配的同步落地。这一成果不仅为开发者提供了无缝部署体验,更彰显了 KernelSwift 与 MUSA 软件栈在生态协同中的强大支撑作用。

支撑多元国产芯片Day-0适配,KernelSwift极致提升开发效率

KernelSwift作为支持多元算力的智能算子迁移系统,可提供指定芯片的Triton算子定制优化服务。以高级抽象与自动算子生成,KernelSwift将适配周期从数月压缩至小时级,为多元国产AI芯片提供“开箱即用”的高性能算子支持,助力Day0适配计划的真正落地。在公开数据集 Kernelbench 上,KernelSwift 实现 SOTA 级别的表现,可自动生成的高性能算子覆盖语言大模型和科学大模型;并基于深度学习编译器(DLCompiler)实现编译器到算子生成全链路支撑,摆脱单一生态绑定。

国产算力底座标杆:

MTT S5000硬核支撑前沿模型

摩尔线程旗舰级全功能AI训推一体智算卡MTT S5000专为大模型训练与推理设计,其核心亮点在于原生支持FP8精度,并配备硬件级FP8 Tensor Core加速单元。相比国内主流芯片普遍依赖的BF16/FP16,FP8可将数据位宽减半,使显存带宽压力降低50%、理论计算吞吐量翻倍,从而更高效地承载DeepSeek-V4等前沿模型所需的“FP4+FP8”混合精度策略,为模型部署与推理提供坚实的算力底座。

深度协同优化,释放极致性能

在DeepSeek-V4模型发布后,KernelSwift基于摩尔线程MTT S5000启动全自动流程生成核心算子,全程无需人工干预。得益于摩尔线程对Triton的全面支持以及MUSA软件生态的高兼容性与开放架构,KernelSwift得以快速完成与MTT S5000的对接验证。在此基础上,DeepSeek-V4模型共计21个核心算子均实现明显加速,算子通过率超过80%;自动生成的算子经少量人工修改后在MTT S5000上实现100%正确性。

算子筑基,共筑国产AI生态新范式

KernelSwift 与 MTT S5000 在 DeepSeek-V4 上的Day-0协同落地,充分展示了国产 AI 生态的高效协作,为国产算力生态从技术研发走向大规模应用积累了重要经验。摩尔线程 MUSA 软件栈与 KernelSwift 的深度融合,证明了国产全功能 GPU 能够即时响应最前沿的大模型需求,为构建自主可控、高效敏捷的 AI 基础设施树立了标杆。未来,摩尔线程将持续联合生态伙伴,推动更多前沿模型在国产算力平台高效部署,加速 AI 生态向“好用”和“领先”跨越。

KernelSwift 在线体验链接:

https://deeplink.org.cn/kernelswift

DeepSeek-v4算子代码仓:

https://github.com/DeepLink-org/DLBlas/tree/add-dsv4-kernels/dlblas/kernels/kernelswift_triton/level3

关于摩尔线程

摩尔线程以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。

我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41295

    浏览量

    302665
  • 摩尔线程
    +关注

    关注

    2

    文章

    289

    浏览量

    6667
  • DeepSeek
    +关注

    关注

    2

    文章

    855

    浏览量

    3410

原文标题:摩尔线程 × 上海AI实验室|基于S5000和KernelSwift实现DeepSeek-V4核心算子Day-0适配

文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    摩尔线程携手智源人工智能研究院Day-0适配DeepSeek-V4 Pro和Flash双模型

    4月24日,摩尔线程联合北京智源人工智能研究院,基于旗舰级AI训推一体智算卡MTT S5000与FlagOS全栈软件体系,完成DeepSeek-V4
    的头像 发表于 04-30 16:30 340次阅读

    摩尔线程TileLang-MUSA率先支持DeepSeek-V4全新TileKernels

    4月24日,摩尔线程宣布,其基于TileLang 0.1.8版本深度优化并已成为TileLang官方主线版本的TileLang-MUSA,已率先在国产全功能GPU上,实现对DeepSeek-V
    的头像 发表于 04-30 16:17 205次阅读

    模力方舟上线DeepSeek-V4系列大模型

    围绕这一方向,DeepSeek 在今天上推出了DeepSeek-V4,现已在模力方舟正式上线。
    的头像 发表于 04-30 10:35 229次阅读
    模力方舟上线<b class='flag-5'>DeepSeek-V4</b>系列大模型

    开放原子AtomGit平台首发适配DeepSeek-V4系列模型

    2026年4月24日,DeepSeek-V4系列模型正式发布并同步开源。AtomGit平台为DeepSeek-V4昇腾适配版本首发平台,为开发者提供从模型获取、算力
    的头像 发表于 04-29 16:12 626次阅读

    登临科技GPU+架构深度适配DeepSeek-V4大模型

    有限公司(以下简称“登临科技”)一直紧密跟进开源社区的前沿进展,在DeepSeek-V4发布后,第一时间启动并完成了对其核心算子的深度适
    的头像 发表于 04-29 16:07 956次阅读

    寒武纪Day 0适配DeepSeek-V4模型

    2026年4月24日,寒武纪已基于 vLLM 推理框架完成对深度求索公司最新开源模型285B DeepSeek-V4-flash 和1.6T DeepSeek-V4-pro的 Day
    的头像 发表于 04-29 10:14 267次阅读

    华为云首发适配DeepSeek-V4模型

    4月24日,DeepSeek-V4模型正式发布并开源,华为云首发适配DeepSeek-V4拥有百万Token超长上下文,在Agent能力、世界知识和推理性能上均实现国内与开源领域的领
    的头像 发表于 04-28 17:01 453次阅读

    沐曦股份Day 0适配DeepSeek-V4-Flash模型

    4月24日,沐曦股份携手FlagOS,已完对DeepSeek最新开源的DeepSeek-V4-Flash模型的Day
    的头像 发表于 04-28 15:53 280次阅读

    壁仞科技壁砺166系列GPU产品率先支持DeepSeek-V4模型

    完成DeepSeek-V4在旗舰通用GPU壁砺166系列产品的适配验证与优化,充分释放产品算力密度与带宽优势,全面赋能GenAI推理加速。
    的头像 发表于 04-28 14:04 488次阅读
    壁仞科技壁砺166系列GPU产品率先支持<b class='flag-5'>DeepSeek-V4</b>模型

    荣耀YOYO首搭DeepSeek-V4大模型 重塑安卓端侧AI新标杆

    近日,荣耀YOYO接入DeepSeek-V4大模型,标志着安卓阵营在AI智能助理领域实现重大突破
    的头像 发表于 04-28 09:17 639次阅读

    摩尔线程S5000 + 智源FlagOS:基于原生FP8引擎,Day-0适配DeepSeek-V4

    4月24日,摩尔线程携手智源众智FlagOS社区,在旗舰级AI训推一体全功能GPU MTT S5000上,率先实现对新一代大模型
    发表于 04-24 16:30 1109次阅读
    <b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>S5000 + 智源FlagOS:基于原生FP8引擎,<b class='flag-5'>Day-0</b><b class='flag-5'>适配</b><b class='flag-5'>DeepSeek-V4</b>

    Day-0支持|摩尔线程率先完成MiniMax M2.7大模型适配

    4月12日,摩尔线程旗舰级AI训推一体全功能GPU MTT S5000已完成对新一代大模型MiniMax M2.7的Day-0极速
    发表于 04-13 07:57 1373次阅读
    <b class='flag-5'>Day-0</b>支持|<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>率先完成MiniMax M2.7大模型<b class='flag-5'>适配</b>

    Day-0支持|摩尔线程完成智谱GLM-5.1极速适配,高效支撑长程任务与代码生成

      今日,摩尔线程在其旗舰级AI训推一体全功能GPU MTT S5000上,成功实现了对智谱新一代旗舰模型GLM-5.1的Day-0极速适配
    的头像 发表于 04-08 14:47 1099次阅读
    <b class='flag-5'>Day-0</b>支持|<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>完成智谱GLM-5.1极速<b class='flag-5'>适配</b>,高效支撑长程任务与代码生成

    Day-0支持|摩尔线程完成MiniMax M2.5模型极速适配

    2月14日,摩尔线程在其旗舰级AI训推一体全功能GPU MTT S5000上,成功实现了对MiniMax新一代大模型MiniMax M2.5的Day-0极速
    发表于 02-15 08:01 1590次阅读

    Day-0支持|摩尔线程MTT S5000率先完成对GLM-5的适配

    2月11日,智谱正式发布新一代大模型GLM-5。摩尔线程基于SGLang推理框架,在旗舰级AI训推一体全功能GPU MTT S5000上,Day-0完成了全流程
    发表于 02-12 09:15 1638次阅读
    <b class='flag-5'>Day-0</b>支持|<b class='flag-5'>摩尔</b><b class='flag-5'>线程</b>MTT S5000率先完成对GLM-5的<b class='flag-5'>适配</b>