2026年4月24日,寒武纪已基于vLLM推理框架完成对深度求索公司最新开源模型285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro的Day 0适配,适配代码已开源到GitHub社区(点击文末“阅读原文”可直接跳转)。这一成果得益于寒武纪长期积累的自研NeuWare软件生态与芯片设计技术,也是寒武纪对芯片与算法联合创新持续投入的延续。此前,寒武纪已对DeepSeek系列模型开展深入的软硬件协同性能优化,达成业界领先的算力利用率水平。
本次适配从“快速模型迁移”与”极致性能优化*“两个维度,充分展现了寒武纪的核心技术实力。
快速完成DeepSeek-V4新模型适配,实现Day 0首发
在软件生态层面,寒武纪NeuWare软件栈全面拥抱开源社区,原生支持 PyTorch、vLLM、Diffusers等主流AI框架,新模型可快速迁移至寒武纪平台;在国产软件生态层面,寒武纪与众智FlagOS生态持续深度合作,解耦模型与不同架构芯片之间的生态壁垒,进一步降低模型适配迁移成本;在算子开发层面,寒武纪充分利用Triton良好的社区兼容性和易用性进行快速算子开发适配,进一步缩短功能适配周期;在AI协同层面,寒武纪研发了代码生成智能体CNAgent,实现算子生成、模型迁移的全流程加速;在硬件层面,寒武纪芯片原生支持主流低精度数据格式,无需额外转换即可快速完成功能适配与精度验证。通过软硬件协同,寒武纪在模型发布当日即可实现稳定运行,真正做到Day 0适配。
极致性能优化,释放DeepSeek-V4推理潜能
针对DeepSeek-V4的新结构,寒武纪通过自研高性能融合算子库Torch-MLU-Ops,对Compressor、mHC等模块进行专项加速;利用BangC高性能编程语言,编写稀疏/压缩Attention、GroupGemm等热点算子的极致优化Kernel,充分释放硬件底层性能。
在推理框架优化层面,寒武纪在vLLM中全面支持TP/PP/SP/DP/EP5D混合并行、通信计算并行、低精度量化以及PD分离部署等优化技术,通过策略优化,在满足延时约束下达到最佳的词元吞吐能力,显著提升端到端推理效率。
硬件特性同样被深度挖掘:利用MLU离散访存与排序加速能力,有效加速稀疏Attention、Indexer等结构;高互联带宽与低通信延时,将Prefill和Decode两种不同工作负载场景下的通信占比降至最低,最大化分布式推理的利用率。
正是这种软硬件一体化的设计思路,使得寒武纪能够在大模型部署中持续降低算力成本,提升性能上限。寒武纪将继续深耕大模型软硬件协同生态,为开发者与客户提供更快、更省、更高效的大模型部署方案。
-
模型
+关注
关注
1文章
3831浏览量
52281 -
寒武纪
+关注
关注
13文章
220浏览量
75072 -
DeepSeek
+关注
关注
2文章
855浏览量
3410
原文标题:寒武纪 Day 0 适配 DeepSeek-V4,共赴国产模芯协作新里程碑
文章出处:【微信号:Cambricon_Developer,微信公众号:寒武纪开发者】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
云天励飞完成DeepSeek-V4系列模型关键机制适配验证
摩尔线程携手智源人工智能研究院Day-0适配DeepSeek-V4 Pro和Flash双模型
摩尔线程携手上海AI实验室Day-0适配DeepSeek-V4核心算子
摩尔线程TileLang-MUSA率先支持DeepSeek-V4全新TileKernels
开放原子AtomGit平台首发适配DeepSeek-V4系列模型
登临科技GPU+架构深度适配DeepSeek-V4大模型
华为云首发适配DeepSeek-V4模型
沐曦股份Day 0适配DeepSeek-V4-Flash模型
壁仞科技壁砺166系列GPU产品率先支持DeepSeek-V4模型
寒武纪Day 0适配DeepSeek-V4模型
评论