2026年4月24日,深度求索(DeepSeek)正式发布并开源新一代旗舰大模型DeepSeek‑V4,同步推出1.6T DeepSeek‑V4‑Pro与284B DeepSeek‑V4‑Flash两大版本,全系标配百万token长上下文能力,燧原L600已完成对上述两个模型在FP8精度上的极速适配。
FP8原生支持
此次成功以FP8完成DeepSeek-V4的适配,标志着燧原科技在低精度大模型适配领域的关键技术突破。依托燧原L600原生FP8计算能力、Triton算子与全链路混合精度优化,大幅降低了显存占用、提升推理吞吐,有效适配了V4的MoE架构与超长上下文特性。相较于常规FP16方案,FP8适配面临数值稳定性控制、稀疏结构算子重构、跨栈精度对齐等多重技术难题,综合优化门槛更高。Day 1适配验证了燧原AI芯片低精度加速的硬实力,更能显著降低超大模型的部署成本,为行业高并发推理、规模化落地及下一代更低精度算力演进筑牢技术基础。
自研算子Agent
同时采用自研的算子生成智能体,凭借自动化算子编译、融合优化与跨架构迁移能力,快速完成MoE架构、稀疏注意力等新型算子的批量生成,实现了高效适配与性能调优,并通过智能调度与策略优化,缩短模型迁移周期,保障推理性能与运行精度双向达标。
vLLM和Triton算子深度优化
此外通过vLLM推理框架定制调度逻辑,Triton 算子的深度优化与性能调优,大幅压缩了模型迁移适配周期,充分释放了硬件算力潜能,为超大模型高效推理、应用落地与规模化服务构筑关键支撑。
燧原科技始终坚持全栈自研、生态开放的技术路线,已完成国内多款主流开源模型的极速适配,覆盖语言、多模态等全领域。未来,燧原将紧跟大模型迭代节奏,深化与产业链上下游协同,打造自主可控、高效易用的 AI 算力底座,赋能国产大模型在千行百业规模化落地,为中国 AI 产业高质量发展注入强劲算力动能。
-
燧原科技
+关注
关注
0文章
158浏览量
10608 -
大模型
+关注
关注
2文章
3786浏览量
5273 -
DeepSeek
+关注
关注
2文章
847浏览量
3406
原文标题:Day 1适配 | 燧原 L600 FP8原生适配DeepSeek‑V4-Pro/Flash
文章出处:【微信号:gh_1222367b8780,微信公众号:燧原科技Enflame】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
华为云首发适配DeepSeek-V4模型
华为昇腾超节点系列产品全面支持DeepSeek V4模型
软通华方超节点服务器产品全面适配DeepSeek V4模型
沐曦股份Day 0适配DeepSeek-V4-Flash模型
燧原科技L600极速适配小米MiMo-V2.5-Pro系列模型
燧原科技L600适配腾讯混元Hy3 preview语言模型
国产AI换芯提速!DeepSeek V4和小米MiMo-2.5上线,主流国产芯片适配
OpenClaw 全面接入DeepSeek-V4系列模型
长江计算G940K V2超节点服务器完成对DeepSeek V4模型极速适配
海光信息DCU平台完成对DeepSeek V4模型极速适配
摩尔线程S5000 + 智源FlagOS:基于原生FP8引擎,Day-0适配DeepSeek-V4
海光DCU完成阶跃星辰基座模型Step 3.5 Flash推理适配
燧原科技训推一体芯片L600适配阶跃星辰基座模型Step 3.5 Flash
今日看点丨两家国产头部厂商发布新一代AI芯片 ;台积电在美先进封装布局启动
燧原科技L600 FP8原生适配DeepSeek-V4-Pro/Flash模型
评论