0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

沐曦股份Day 0适配DeepSeek-V4-Flash模型

沐曦MetaX 来源:沐曦metaX 2026-04-28 15:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

4月24日,沐曦股份携手FlagOS,已完对DeepSeek最新开源的DeepSeek-V4-Flash模型的Day 0适配。同日,沐曦股份还联合上海人工智能实验室KernelSwift智能算子迁移系统,率先完成DeepSeek-V4核心算子的Day0适配。

截至目前,沐曦股份已完成针对国内19款主流开源模型的极速适配,全面覆盖DeepSeek、MiniMax、智谱、阿里巴巴、腾讯、阶跃星辰、百度等头部厂商最新旗舰模型,种类涵盖语言、多模态、OCR、3D生成等全领域,效率领跑行业。

能够取得这一成果,既得益于沐曦股份在GPU硬件设计与自研软件栈MXMACA上的长期技术积累,也与上海人工智能实验室、FlagOS合作伙伴的深度协同密不可分。

FlagOS三大核心技术支持,沐曦芯片完成全量适配

在沐曦股份与FlagOS的合作中,背后有三大关键技术提供支持:

高性能通用大模型算子库FlagGems。据FlagOS介绍,FlagGems 提供支持8种以上芯片的全算子替代。此次DeepSeek V4在注意力机制和量化策略上引入了5个新算子,FlagGems针对全部5个算子进行了重新实现,以支持国产多芯片适配。

FlagOS采用独立并行策略,解除张量并行最多单机8卡限制,将可运行芯片范围从“仅限单机80GB以上显存的个别高端卡”扩展到“多机64GB/32GB的更多主流国产芯片”。

FlagOS支持从“FP4+FP8混合精度” 到 BF16的精度转换。此次 DeepSeek-V4-Flash模型发布时首次采用 FP4+FP8混合精度,FlagOS 完成了从 FP4 到 BF16 的完整精度转换,使得模型可部署在 FP8 及 BF16 生态的主流国产芯片上。

目前,FlagOS已经完成针对DeepSeek-V4开源模型的多芯全量适配与推理部署,开发者可直接获取对应芯片的开箱即用方案。

沐曦适配版本链接

魔搭:

https://modelscope.cn/models/FlagRelease/DeepSeek-V4-Flash-metax-FlagOS

HuggingFace:

https://huggingface.co/FlagRelease/DeepSeek-V4-Flash-metax-FlagOS

KernelSwift加速,沐曦芯片实现核心算子高效迁移

算子迁移效率与性能优化是解锁国产算力的关键。

沐曦股份在与上海人工智能实验室的合作中,借助实验室研发的智能算子迁移系统KernelSwift,沐曦芯片率先完成了DeepSeek-V4核心算子的Day0适配, 算子平均通过率约80%。

在DeepSeek-V4模型发布后,KernelSwift启动全自动流程生成核心算子并适配多元国产芯片,全程无人工干预。DeepSeek-V4模型共计21个核心算子中,KernelSwift采用融合策略,核心算子相比‌TileLang‌达到1.2倍以上性能加速,国产芯片平均实现75%+正确性,平均加速比达3.4倍。自动生成的算子经人工修改后,国产芯片平均实现100%正确性,大大提高了算子开发和迁移效率。

依托“自研GPU硬件+MXMACA软件栈”软硬一体计算平台的核心优势,沐曦股份快速响应大模型迭代节奏,高效完成了多款主流模型的适配工作,以全栈技术实力为大模型快速落地筑牢算力支撑。

未来,沐曦股份将继续与上海人工智能实验室、FlagOS深度合作,以Day 0适配为标准,实现大模型“发布即落地”,共同打造从底层算力到上层应用的无缝衔接生态,加速AI技术在千行百业的规模化部署,共建自主可控的智能计算新底座。

关于沐曦股份

沐曦股份致力于自主研发全栈高性能GPU芯片及计算平台,为智算、通用计算、云渲染等前沿领域提供高能效、高通用性的算力支撑,助力数字经济发展。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1820

    文章

    50354

    浏览量

    267011
  • 沐曦
    +关注

    关注

    1

    文章

    103

    浏览量

    1882
  • DeepSeek
    +关注

    关注

    2

    文章

    851

    浏览量

    3408

原文标题:沐曦股份携手FlagOS、上海人工智能实验室,完成DeepSeek-V4 Day 0适配

文章出处:【微信号:沐曦MetaX,微信公众号:沐曦MetaX】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    寒武纪Day 0适配DeepSeek-V4模型

    2026年4月24日,寒武纪已基于 vLLM 推理框架完成对深度求索公司最新开源模型285B DeepSeek-V4-flash 和1.6T DeepSeek-V4-pro的
    的头像 发表于 04-29 10:14 216次阅读

    华为云首发适配DeepSeek-V4模型

    DeepSeek-V4-Flash模型参数下降至284B,推理成本进一步降低,模型参数和激活更小,V4-Flash能够提供更加快捷、经济的API服务,实现百万上下文普惠。当前,华为云
    的头像 发表于 04-28 17:01 402次阅读

    股份云C系列GPU产品Day 0适配小米MiMo-V2.5-Pro模型

    4月23日,小米开启 MiMo-V2.5系列模型的公测,并于4月28日正式发布及开源。
    的头像 发表于 04-28 15:59 141次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b><b class='flag-5'>曦</b>云C系列GPU产品<b class='flag-5'>Day</b> <b class='flag-5'>0</b><b class='flag-5'>适配</b>小米MiMo-<b class='flag-5'>V</b>2.5-Pro<b class='flag-5'>模型</b>

    股份云C系列GPU产品Day 0适配腾讯混元Hy3 preview语言模型

    4月23日,腾讯混元团队正式发布并开源Hy3 preview语言模型股份旗下云 C 系列
    的头像 发表于 04-28 15:51 357次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b><b class='flag-5'>曦</b>云C系列GPU产品<b class='flag-5'>Day</b> <b class='flag-5'>0</b><b class='flag-5'>适配</b>腾讯混元Hy3 preview语言<b class='flag-5'>模型</b>

    摩尔线程S5000 + 智源FlagOS:基于原生FP8引擎,Day-0适配DeepSeek-V4

    4月24日,摩尔线程携手智源众智FlagOS社区,在旗舰级AI训推一体全功能GPU MTT S5000上,率先实现对新一代大模型DeepSeek-V4-FlashDay-0极速
    发表于 04-24 16:30 1059次阅读
    摩尔线程S5000 + 智源FlagOS:基于原生FP8引擎,<b class='flag-5'>Day-0</b><b class='flag-5'>适配</b><b class='flag-5'>DeepSeek-V4</b>

    股份Day 0适配阿里千问Qwen3.6-35B-A3B大模型

    阿里巴巴千问模型团队最新宣布,开源旗下多模态“智能体小钢炮” Qwen3.6-35B-A3B模型股份与FlagOS合作,完成了该
    的头像 发表于 04-22 11:13 612次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b><b class='flag-5'>Day</b> <b class='flag-5'>0</b><b class='flag-5'>适配</b>阿里千问Qwen3.6-35B-A3B大<b class='flag-5'>模型</b>

    股份云C系列GPU产品Day 0适配百度文心ERNIE-Image文生图模型

    4月15日,百度文心大模型团队重磅推出ERNIE‑Image文生图模型股份
    的头像 发表于 04-15 17:39 478次阅读

    MiniMax M2.7全球开源,摩尔线程、等完成Day0适配

    电子发烧友网综合报道 4月12日,MiniMax M2.7在全球正式开源。华为昇腾、摩尔线程、股份、昆仑芯、NVIDIA,以及TogetherAI、Fireworks、Ollama
    的头像 发表于 04-14 11:05 1780次阅读

    股份云C系列GPU产品Day 0适配MiniMax M2.7模型

    4月12日,MiniMax新一代Agent旗舰大模型M2.7开源。股份云C系列GPU已完成
    的头像 发表于 04-13 17:08 831次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b><b class='flag-5'>曦</b>云C系列GPU产品<b class='flag-5'>Day</b> <b class='flag-5'>0</b><b class='flag-5'>适配</b>MiniMax M2.7<b class='flag-5'>模型</b>

    股份云C系列GPU产品Day 0适配智谱GLM-5.1旗舰模型

    4月8日,智谱新一代旗舰模型GLM-5.1实现开源。目前,股份云 C 系列 GPU已完成该
    的头像 发表于 04-09 11:25 398次阅读

    股份云C系列GPU全面适配通义千问Qwen3.5三款新模型

    今日,通义千问团队正式开源发布Qwen3.5系列中等规模模型,推出包括Qwen3.5-35B-A3B、Qwen3.5-122B-A10B、Qwen3.5-27B三个版本。股份旗下
    的头像 发表于 02-28 10:05 736次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b><b class='flag-5'>曦</b>云C系列GPU全面<b class='flag-5'>适配</b>通义千问Qwen3.5三款新<b class='flag-5'>模型</b>

    股份云C系列GPU深度适配通义千问Qwen3.5模型

    今天,通义千问今天正式发布 Qwen3.5,并推出Qwen3.5系列的第一款模型 Qwen3.5-397B-A17B 的开放权重版本。股份
    的头像 发表于 02-26 14:26 808次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b><b class='flag-5'>曦</b>云C系列GPU深度<b class='flag-5'>适配</b>通义千问Qwen3.5<b class='flag-5'>模型</b>

    云C系列GPU Day 0 适配智谱全新一代大模型GLM-5

    智谱AI正式上线并开源全新一代大模型 GLM-5,股份实现 Day 0 深度
    的头像 发表于 02-12 10:53 1108次阅读
    <b class='flag-5'>曦</b>云C系列GPU <b class='flag-5'>Day</b> <b class='flag-5'>0</b> <b class='flag-5'>适配</b>智谱全新一代大<b class='flag-5'>模型</b>GLM-5

    云C600 GPU产品适配阶跃星辰基座模型Step 3.5 Flash

    今天,阶跃星辰技术团队发布并开源最新旗舰基座模型 Step 3.5 Flash股份已实现
    的头像 发表于 02-02 14:44 550次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>曦</b>云C600 GPU产品<b class='flag-5'>适配</b>阶跃星辰基座<b class='flag-5'>模型</b>Step 3.5 <b class='flag-5'>Flash</b>

    股份云C系列GPU Day 0适配智谱GLM-4.6V多模态大模型

    12月8日智谱AI发布并开源 GLM-4.6V 系列多模态大模型股份云C系列GPU完成
    的头像 发表于 12-17 14:28 841次阅读
    <b class='flag-5'>沐</b><b class='flag-5'>曦</b><b class='flag-5'>股份</b><b class='flag-5'>曦</b>云C系列GPU <b class='flag-5'>Day</b> <b class='flag-5'>0</b><b class='flag-5'>适配</b>智谱GLM-4.6<b class='flag-5'>V</b>多模态大<b class='flag-5'>模型</b>