沐曦股份Day 0适配DeepSeek-V4-Flash模型-电子发烧友网

4月24日，沐曦股份携手FlagOS,已完对DeepSeek最新开源的DeepSeek-V4-Flash模型的Day 0适配。同日，沐曦股份还联合上海人工智能实验室KernelSwift智能算子迁移系统，率先完成DeepSeek-V4核心算子的Day0适配。

截至目前，沐曦股份已完成针对国内19款主流开源模型的极速适配，全面覆盖DeepSeek、MiniMax、智谱、阿里巴巴、腾讯、阶跃星辰、百度等头部厂商最新旗舰模型，种类涵盖语言、多模态、OCR、3D生成等全领域，效率领跑行业。

能够取得这一成果，既得益于沐曦股份在GPU硬件设计与自研软件栈MXMACA上的长期技术积累，也与上海人工智能实验室、FlagOS合作伙伴的深度协同密不可分。

FlagOS三大核心技术支持，沐曦芯片完成全量适配

在沐曦股份与FlagOS的合作中，背后有三大关键技术提供支持：

高性能通用大模型算子库FlagGems。据FlagOS介绍，FlagGems 提供支持8种以上芯片的全算子替代。此次DeepSeek V4在注意力机制和量化策略上引入了5个新算子，FlagGems针对全部5个算子进行了重新实现，以支持国产多芯片适配。

FlagOS采用独立并行策略，解除张量并行最多单机8卡限制，将可运行芯片范围从“仅限单机80GB以上显存的个别高端卡”扩展到“多机64GB/32GB的更多主流国产芯片”。

FlagOS支持从“FP4+FP8混合精度” 到 BF16的精度转换。此次 DeepSeek-V4-Flash模型发布时首次采用 FP4+FP8混合精度，FlagOS 完成了从 FP4 到 BF16 的完整精度转换，使得模型可部署在 FP8 及 BF16 生态的主流国产芯片上。

目前，FlagOS已经完成针对DeepSeek-V4开源模型的多芯全量适配与推理部署，开发者可直接获取对应芯片的开箱即用方案。

沐曦适配版本链接

魔搭：

https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-metax-FlagOS

HuggingFace：

https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-metax-FlagOS

KernelSwift加速，沐曦芯片实现核心算子高效迁移

算子迁移效率与性能优化是解锁国产算力的关键。

沐曦股份在与上海人工智能实验室的合作中，借助实验室研发的智能算子迁移系统KernelSwift，沐曦芯片率先完成了DeepSeek-V4核心算子的Day0适配, 算子平均通过率约80%。

在DeepSeek-V4模型发布后，KernelSwift启动全自动流程生成核心算子并适配多元国产芯片，全程无人工干预。DeepSeek-V4模型共计21个核心算子中，KernelSwift采用融合策略,核心算子相比‌TileLang‌达到1.2倍以上性能加速，国产芯片平均实现75%+正确性，平均加速比达3.4倍。自动生成的算子经人工修改后,国产芯片平均实现100%正确性，大大提高了算子开发和迁移效率。

依托“自研GPU硬件+MXMACA软件栈”软硬一体计算平台的核心优势，沐曦股份快速响应大模型迭代节奏，高效完成了多款主流模型的适配工作，以全栈技术实力为大模型快速落地筑牢算力支撑。

未来，沐曦股份将继续与上海人工智能实验室、FlagOS深度合作，以Day 0适配为标准，实现大模型“发布即落地”，共同打造从底层算力到上层应用的无缝衔接生态，加速AI技术在千行百业的规模化部署，共建自主可控的智能计算新底座。

关于沐曦股份

沐曦股份致力于自主研发全栈高性能GPU芯片及计算平台，为智算、通用计算、云渲染等前沿领域提供高能效、高通用性的算力支撑，助力数字经济发展。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉