0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

寒武纪Day 0适配DeepSeek-V4模型

寒武纪开发者 来源:寒武纪开发者 2026-04-29 10:14 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2026年4月24日,寒武纪已基于vLLM推理框架完成对深度求索公司最新开源模型285B DeepSeek-V4-flash和1.6T DeepSeek-V4-pro的Day 0适配,适配代码已开源到GitHub社区(点击文末“阅读原文”可直接跳转)。这一成果得益于寒武纪长期积累的自研NeuWare软件生态与芯片设计技术,也是寒武纪对芯片与算法联合创新持续投入的延续。此前,寒武纪已对DeepSeek系列模型开展深入的软硬件协同性能优化,达成业界领先的算力利用率水平。

本次适配从“快速模型迁移”与”极致性能优化*“两个维度,充分展现了寒武纪的核心技术实力。

快速完成DeepSeek-V4新模型适配,实现Day 0首发

在软件生态层面,寒武纪NeuWare软件栈全面拥抱开源社区,原生支持 PyTorch、vLLM、Diffusers等主流AI框架,新模型可快速迁移至寒武纪平台;在国产软件生态层面,寒武纪与众智FlagOS生态持续深度合作,解耦模型与不同架构芯片之间的生态壁垒,进一步降低模型适配迁移成本;在算子开发层面,寒武纪充分利用Triton良好的社区兼容性和易用性进行快速算子开发适配,进一步缩短功能适配周期;在AI协同层面,寒武纪研发了代码生成智能体CNAgent,实现算子生成、模型迁移的全流程加速;在硬件层面,寒武纪芯片原生支持主流低精度数据格式,无需额外转换即可快速完成功能适配与精度验证。通过软硬件协同,寒武纪在模型发布当日即可实现稳定运行,真正做到Day 0适配。

极致性能优化,释放DeepSeek-V4推理潜能

针对DeepSeek-V4的新结构,寒武纪通过自研高性能融合算子库Torch-MLU-Ops,对Compressor、mHC等模块进行专项加速;利用BangC高性能编程语言,编写稀疏/压缩Attention、GroupGemm等热点算子的极致优化Kernel,充分释放硬件底层性能。

在推理框架优化层面,寒武纪在vLLM中全面支持TP/PP/SP/DP/EP5D混合并行、通信计算并行、低精度量化以及PD分离部署等优化技术,通过策略优化,在满足延时约束下达到最佳的词元吞吐能力,显著提升端到端推理效率。

硬件特性同样被深度挖掘:利用MLU离散访存与排序加速能力,有效加速稀疏Attention、Indexer等结构;高互联带宽与低通信延时,将Prefill和Decode两种不同工作负载场景下的通信占比降至最低,最大化分布式推理的利用率。

正是这种软硬件一体化的设计思路,使得寒武纪能够在大模型部署中持续降低算力成本,提升性能上限。寒武纪将继续深耕大模型软硬件协同生态,为开发者与客户提供更快、更省、更高效的大模型部署方案。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    3831

    浏览量

    52281
  • 寒武纪
    +关注

    关注

    13

    文章

    220

    浏览量

    75072
  • DeepSeek
    +关注

    关注

    2

    文章

    855

    浏览量

    3410

原文标题:寒武纪 Day 0 适配 DeepSeek-V4,共赴国产模芯协作新里程碑

文章出处:【微信号:Cambricon_Developer,微信公众号:寒武纪开发者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    云天励飞完成DeepSeek-V4系列模型关键机制适配验证

    4月24日,DeepSeek-V4 系列模型发布。围绕该模型 CSA/HCA 混合注意力机制带来的新型计算需求,云天励飞依托自研 GPNPU 架构及 IFWA 智能融合软件栈,通过 P
    的头像 发表于 04-30 17:09 459次阅读

    摩尔线程携手智源人工智能研究院Day-0适配DeepSeek-V4 Pro和Flash双模型

    4月24日,摩尔线程联合北京智源人工智能研究院,基于旗舰级AI训推一体智算卡MTT S5000与FlagOS全栈软件体系,完成DeepSeek-V4系列两款模型推理“Day-0
    的头像 发表于 04-30 16:30 255次阅读

    摩尔线程携手上海AI实验室Day-0适配DeepSeek-V4核心算子

    今日,DeepSeek-V4预览版正式发布并开源。摩尔线程携手上海 AI 实验室 DeepLink 团队,通过大模型驱动的智能算子迁移系统 KernelSwift,率先在旗舰级AI训推一体智算卡
    的头像 发表于 04-30 16:24 292次阅读

    摩尔线程TileLang-MUSA率先支持DeepSeek-V4全新TileKernels

    4月24日,摩尔线程宣布,其基于TileLang 0.1.8版本深度优化并已成为TileLang官方主线版本的TileLang-MUSA,已率先在国产全功能GPU上,实现对DeepSeek-V4
    的头像 发表于 04-30 16:17 158次阅读

    模力方舟上线DeepSeek-V4系列大模型

    围绕这一方向,DeepSeek 在今天上推出了DeepSeek-V4,现已在模力方舟正式上线。
    的头像 发表于 04-30 10:35 213次阅读
    模力方舟上线<b class='flag-5'>DeepSeek-V4</b>系列大<b class='flag-5'>模型</b>

    开放原子AtomGit平台首发适配DeepSeek-V4系列模型

    2026年4月24日,DeepSeek-V4系列模型正式发布并同步开源。AtomGit平台为DeepSeek-V4昇腾适配版本首发平台,为开
    的头像 发表于 04-29 16:12 604次阅读

    登临科技GPU+架构深度适配DeepSeek-V4模型

    DeepSeek-V4-Flash,全系标配百万token长上下文能力,开启大模型长文本普惠新时代。同日,开源社区已提交适配DeepSeek-V4的代码。 作为国产高性能通用GPU的
    的头像 发表于 04-29 16:07 883次阅读

    华为云首发适配DeepSeek-V4模型

    4月24日,DeepSeek-V4模型正式发布并开源,华为云首发适配DeepSeek-V4拥有百万Token超长上下文,在Agent能力、
    的头像 发表于 04-28 17:01 441次阅读

    沐曦股份Day 0适配DeepSeek-V4-Flash模型

    4月24日,沐曦股份携手FlagOS,已完对DeepSeek最新开源的DeepSeek-V4-Flash模型Day
    的头像 发表于 04-28 15:53 248次阅读

    壁仞科技壁砺166系列GPU产品率先支持DeepSeek-V4模型

    4月24日,深度求索团队宣布全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。依托成熟的BIRENSUPA软件栈与自研GPU全栈智能体“AIModelMaster”,壁仞科技快速
    的头像 发表于 04-28 14:04 451次阅读
    壁仞科技壁砺166系列GPU产品率先支持<b class='flag-5'>DeepSeek-V4</b><b class='flag-5'>模型</b>

    荣耀YOYO首搭DeepSeek-V4模型 重塑安卓端侧AI新标杆

    近日,荣耀YOYO接入DeepSeek-V4模型,标志着安卓阵营在AI智能助理领域实现重大突破
    的头像 发表于 04-28 09:17 581次阅读

    海光信息DCU平台完成对DeepSeek V4模型极速适配

      4月24日,深度求索正式发布并开源DeepSeek V4。海光DCU同步完成对DeepSeek V4
    的头像 发表于 04-24 17:32 1607次阅读

    寒武纪实现对GLM-5的Day 0适配

    的技术积累,寒武纪得以快速实现对 GLM-5 的 Day 0 适配。  寒武纪一直重视芯片和算法的联合创新,致力于以软硬件协同的方式,优化大
    的头像 发表于 02-12 15:07 918次阅读

    寒武纪成功适配DeepSeek-V3.2-Exp模型

    2025年9月29日,寒武纪已同步实现对深度求索公司最新模型DeepSeek-V3.2-Exp的适配,并开源大模型推理引擎vLLM-MLU源
    的头像 发表于 10-11 17:14 1915次阅读
    <b class='flag-5'>寒武纪</b>成功<b class='flag-5'>适配</b><b class='flag-5'>DeepSeek-V</b>3.2-Exp<b class='flag-5'>模型</b>

    寒武纪85后创始人陈天石身价超1500亿

    芯片生产和DeepSeek适配国产芯片的利好刺激下,加之还有国外投行高盛宣布将寒武纪-U目标价上调50%至1835元,AI芯片龙头寒武纪股价持续大涨。目前
    的头像 发表于 08-26 10:37 7138次阅读