今日,DeepSeek-V4预览版正式发布并开源。摩尔线程携手上海 AI 实验室 DeepLink 团队,通过大模型驱动的智能算子迁移系统 KernelSwift,率先在旗舰级AI训推一体智算卡 MTT S5000 上完成了核心算子的Day-0适配。目前算子通过率已超80%,真正实现了模型发布与国产算力适配的同步落地。这一成果不仅为开发者提供了无缝部署体验,更彰显了 KernelSwift 与 MUSA 软件栈在生态协同中的强大支撑作用。
支撑多元国产芯片Day-0适配,KernelSwift极致提升开发效率
KernelSwift作为支持多元算力的智能算子迁移系统,可提供指定芯片的Triton算子定制优化服务。以高级抽象与自动算子生成,KernelSwift将适配周期从数月压缩至小时级,为多元国产AI芯片提供“开箱即用”的高性能算子支持,助力Day0适配计划的真正落地。在公开数据集 Kernelbench 上,KernelSwift 实现 SOTA 级别的表现,可自动生成的高性能算子覆盖语言大模型和科学大模型;并基于深度学习编译器(DLCompiler)实现编译器到算子生成全链路支撑,摆脱单一生态绑定。
国产算力底座标杆:
MTT S5000硬核支撑前沿模型
摩尔线程旗舰级全功能AI训推一体智算卡MTT S5000专为大模型训练与推理设计,其核心亮点在于原生支持FP8精度,并配备硬件级FP8 Tensor Core加速单元。相比国内主流芯片普遍依赖的BF16/FP16,FP8可将数据位宽减半,使显存带宽压力降低50%、理论计算吞吐量翻倍,从而更高效地承载DeepSeek-V4等前沿模型所需的“FP4+FP8”混合精度策略,为模型部署与推理提供坚实的算力底座。
深度协同优化,释放极致性能
在DeepSeek-V4模型发布后,KernelSwift基于摩尔线程MTT S5000启动全自动流程生成核心算子,全程无需人工干预。得益于摩尔线程对Triton的全面支持以及MUSA软件生态的高兼容性与开放架构,KernelSwift得以快速完成与MTT S5000的对接验证。在此基础上,DeepSeek-V4模型共计21个核心算子均实现明显加速,算子通过率超过80%;自动生成的算子经少量人工修改后在MTT S5000上实现100%正确性。
算子筑基,共筑国产AI生态新范式
KernelSwift 与 MTT S5000 在 DeepSeek-V4 上的Day-0协同落地,充分展示了国产 AI 生态的高效协作,为国产算力生态从技术研发走向大规模应用积累了重要经验。摩尔线程 MUSA 软件栈与 KernelSwift 的深度融合,证明了国产全功能 GPU 能够即时响应最前沿的大模型需求,为构建自主可控、高效敏捷的 AI 基础设施树立了标杆。未来,摩尔线程将持续联合生态伙伴,推动更多前沿模型在国产算力平台高效部署,加速 AI 生态向“好用”和“领先”跨越。
KernelSwift 在线体验链接:
https://deeplink.org.cn/kernelswift
DeepSeek-v4算子代码仓:
https://github.com/DeepLink-org/DLBlas/tree/add-dsv4-kernels/dlblas/kernels/kernelswift_triton/level3
关于摩尔线程
摩尔线程以全功能GPU为核心,致力于向全球提供加速计算的基础设施和一站式解决方案,为各行各业的数智化转型提供强大的AI计算支持。
我们的目标是成为具备国际竞争力的GPU领军企业,为融合人工智能和数字孪生的数智世界打造先进的加速计算平台。我们的愿景是为美好世界加速。
-
AI
+关注
关注
91文章
41295浏览量
302665 -
摩尔线程
+关注
关注
2文章
289浏览量
6667 -
DeepSeek
+关注
关注
2文章
855浏览量
3410
原文标题:摩尔线程 × 上海AI实验室|基于S5000和KernelSwift实现DeepSeek-V4核心算子Day-0适配
文章出处:【微信号:moorethreads,微信公众号:摩尔线程】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
摩尔线程携手智源人工智能研究院Day-0适配DeepSeek-V4 Pro和Flash双模型
摩尔线程TileLang-MUSA率先支持DeepSeek-V4全新TileKernels
开放原子AtomGit平台首发适配DeepSeek-V4系列模型
登临科技GPU+架构深度适配DeepSeek-V4大模型
寒武纪Day 0适配DeepSeek-V4模型
华为云首发适配DeepSeek-V4模型
沐曦股份Day 0适配DeepSeek-V4-Flash模型
壁仞科技壁砺166系列GPU产品率先支持DeepSeek-V4模型
荣耀YOYO首搭DeepSeek-V4大模型 重塑安卓端侧AI新标杆
摩尔线程S5000 + 智源FlagOS:基于原生FP8引擎,Day-0适配DeepSeek-V4
Day-0支持|摩尔线程率先完成MiniMax M2.7大模型适配
Day-0支持|摩尔线程完成智谱GLM-5.1极速适配,高效支撑长程任务与代码生成
Day-0支持|摩尔线程完成MiniMax M2.5模型极速适配
Day-0支持|摩尔线程MTT S5000率先完成对GLM-5的适配
摩尔线程携手上海AI实验室Day-0适配DeepSeek-V4核心算子
评论