寒武纪Day 0适配DeepSeek-V4模型-电子发烧友网

2026年4月24日，寒武纪已基于vLLM推理框架完成对深度求索公司最新开源模型285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro的Day 0适配，适配代码已开源到GitHub社区（点击文末“阅读原文”可直接跳转）。这一成果得益于寒武纪长期积累的自研NeuWare软件生态与芯片设计技术，也是寒武纪对芯片与算法联合创新持续投入的延续。此前，寒武纪已对DeepSeek系列模型开展深入的软硬件协同性能优化，达成业界领先的算力利用率水平。

本次适配从“快速模型迁移”与”极致性能优化*“两个维度，充分展现了寒武纪的核心技术实力。

快速完成DeepSeek-V4新模型适配，实现Day 0首发

在软件生态层面，寒武纪NeuWare软件栈全面拥抱开源社区，原生支持 PyTorch、vLLM、Diffusers等主流AI框架，新模型可快速迁移至寒武纪平台；在国产软件生态层面，寒武纪与众智FlagOS生态持续深度合作，解耦模型与不同架构芯片之间的生态壁垒，进一步降低模型适配迁移成本；在算子开发层面，寒武纪充分利用Triton良好的社区兼容性和易用性进行快速算子开发适配，进一步缩短功能适配周期；在AI协同层面，寒武纪研发了代码生成智能体CNAgent，实现算子生成、模型迁移的全流程加速；在硬件层面，寒武纪芯片原生支持主流低精度数据格式，无需额外转换即可快速完成功能适配与精度验证。通过软硬件协同，寒武纪在模型发布当日即可实现稳定运行，真正做到Day 0适配。

极致性能优化，释放DeepSeek-V4推理潜能

针对DeepSeek-V4的新结构，寒武纪通过自研高性能融合算子库Torch-MLU-Ops，对Compressor、mHC等模块进行专项加速；利用BangC高性能编程语言，编写稀疏/压缩Attention、GroupGemm等热点算子的极致优化Kernel，充分释放硬件底层性能。

在推理框架优化层面，寒武纪在vLLM中全面支持TP/PP/SP/DP/EP5D混合并行、通信计算并行、低精度量化以及PD分离部署等优化技术，通过策略优化，在满足延时约束下达到最佳的词元吞吐能力，显著提升端到端推理效率。

硬件特性同样被深度挖掘：利用MLU离散访存与排序加速能力，有效加速稀疏Attention、Indexer等结构；高互联带宽与低通信延时，将Prefill和Decode两种不同工作负载场景下的通信占比降至最低，最大化分布式推理的利用率。

正是这种软硬件一体化的设计思路，使得寒武纪能够在大模型部署中持续降低算力成本，提升性能上限。寒武纪将继续深耕大模型软硬件协同生态，为开发者与客户提供更快、更省、更高效的大模型部署方案。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

模型

模型

+关注

关注
1

文章
3831

浏览量
52281
寒武纪

寒武纪

+关注

关注
13

文章
220

浏览量
75072
DeepSeek

DeepSeek

+关注

关注
2

文章
855

浏览量
3410

原文标题：寒武纪 Day 0 适配 DeepSeek-V4，共赴国产模芯协作新里程碑

文章出处：【微信号：Cambricon_Developer，微信公众号：寒武纪开发者】欢迎添加关注！文章转载请注明出处。

搜索历史

寒武纪Day 0适配DeepSeek-V4模型

评论