0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

燧原科技L600 FP8原生适配DeepSeek-V4-Pro/Flash模型

燧原科技Enflame 来源:燧原科技Enflame 2026-04-28 15:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

2026年4月24日,深度求索(DeepSeek)正式发布并开源新一代旗舰大模型DeepSeek‑V4,同步推出1.6T DeepSeek‑V4‑Pro与284B DeepSeek‑V4‑Flash两大版本,全系标配百万token长上下文能力,燧原L600已完成对上述两个模型在FP8精度上的极速适配。

FP8原生支持

此次成功以FP8完成DeepSeek-V4的适配,标志着燧原科技在低精度大模型适配领域的关键技术突破。依托燧原L600原生FP8计算能力、Triton算子与全链路混合精度优化,大幅降低了显存占用、提升推理吞吐,有效适配了V4的MoE架构与超长上下文特性。相较于常规FP16方案,FP8适配面临数值稳定性控制、稀疏结构算子重构、跨栈精度对齐等多重技术难题,综合优化门槛更高。Day 1适配验证了燧原AI芯片低精度加速的硬实力,更能显著降低超大模型的部署成本,为行业高并发推理、规模化落地及下一代更低精度算力演进筑牢技术基础。

自研算子Agent

同时采用自研的算子生成智能体,凭借自动化算子编译、融合优化与跨架构迁移能力,快速完成MoE架构、稀疏注意力等新型算子的批量生成,实现了高效适配与性能调优,并通过智能调度与策略优化,缩短模型迁移周期,保障推理性能与运行精度双向达标。

vLLM和Triton算子深度优化

此外通过vLLM推理框架定制调度逻辑,Triton 算子的深度优化与性能调优,大幅压缩了模型迁移适配周期,充分释放了硬件算力潜能,为超大模型高效推理、应用落地与规模化服务构筑关键支撑。

燧原科技始终坚持全栈自研、生态开放的技术路线,已完成国内多款主流开源模型的极速适配,覆盖语言、多模态等全领域。未来,燧原将紧跟大模型迭代节奏,深化与产业链上下游协同,打造自主可控、高效易用的 AI 算力底座,赋能国产大模型在千行百业规模化落地,为中国 AI 产业高质量发展注入强劲算力动能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 燧原科技
    +关注

    关注

    0

    文章

    158

    浏览量

    10608
  • 大模型
    +关注

    关注

    2

    文章

    3786

    浏览量

    5273
  • DeepSeek
    +关注

    关注

    2

    文章

    847

    浏览量

    3406

原文标题:Day 1适配 | 燧原 L600 FP8原生适配DeepSeek‑V4-Pro/Flash

文章出处:【微信号:gh_1222367b8780,微信公众号:燧原科技Enflame】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为云首发适配DeepSeek-V4模型

    4月24日,DeepSeek-V4模型正式发布并开源,华为云首发适配DeepSeek-V4拥有百万Token超长上下文,在Agent能力、
    的头像 发表于 04-28 17:01 12次阅读

    华为昇腾超节点系列产品全面支持DeepSeek V4模型

    2026年4月24日,DeepSeek V4-ProDeepSeek V4-Flash正式发布并开源,
    的头像 发表于 04-28 17:00 16次阅读

    软通华方超节点服务器产品全面适配DeepSeek V4模型

    4月24日,随着DeepSeek V4模型的正式开源与发布,国产算力生态迎来关键拼图。软通动力旗下软通华方迅速响应,依托“鲲鹏+昇腾”双引擎架构,基于核心产品A800T A3/超强A
    的头像 发表于 04-28 16:34 39次阅读

    沐曦股份Day 0适配DeepSeek-V4-Flash模型

    4月24日,沐曦股份携手FlagOS,已完对DeepSeek最新开源的DeepSeek-V4-Flash模型的Day 0适配。同日,沐曦股份
    的头像 发表于 04-28 15:53 39次阅读

    原科技L600极速适配小米MiMo-V2.5-Pro系列模型

    2026年4月28日,小米正式发布 MiMo-V2.5-Pro 系列模型,并于同日正式开源。原科技已同步完成对 MiMo-V2.5-Pro
    的头像 发表于 04-28 15:21 66次阅读
    <b class='flag-5'>燧</b>原科技<b class='flag-5'>L600</b>极速<b class='flag-5'>适配</b>小米MiMo-<b class='flag-5'>V2.5-Pro</b>系列<b class='flag-5'>模型</b>

    原科技L600适配腾讯混元Hy3 preview语言模型

    2026年4月23日,腾讯混元 Hy3 preview 语言模型发布并开源,L600已同步完成对 Hy3 preview极速全面适配
    的头像 发表于 04-28 15:13 45次阅读
    <b class='flag-5'>燧</b>原科技<b class='flag-5'>L600</b><b class='flag-5'>适配</b>腾讯混元Hy3 preview语言<b class='flag-5'>模型</b>

    国产AI换芯提速!DeepSeek V4和小米MiMo-2.5上线,主流国产芯片适配

    正式发布全新系列 AI 大模型 DeepSeek-V4 的预览版本并同步开源,凭借百万字超长上下文及领先的 Agent 能力引发业界高度关注。 4月25日,梁文锋出手了,DeepSeek-V4
    的头像 发表于 04-28 15:13 836次阅读
    国产AI换芯提速!<b class='flag-5'>DeepSeek</b> <b class='flag-5'>V4</b>和小米MiMo-2.5上线,主流国产芯片<b class='flag-5'>适配</b>

    OpenClaw 全面接入DeepSeek-V4系列模型

    近期,OpenClaw 2026.4.24版本全面接入DeepSeek-V4系列模型,以V4-Flash为默认大脑,V4-Pro同步上线,构建百万级Token上下文处理能力。
    的头像 发表于 04-28 09:29 405次阅读

    长江计算G940K V2超节点服务器完成对DeepSeek V4模型极速适配

      4月24日,备受行业关注的大模型产品DeepSeek V4正式发布。烽火通信旗下长江计算凭借深厚的技术积累与前瞻布局,以G940K V2
    的头像 发表于 04-24 17:40 1674次阅读

    海光信息DCU平台完成对DeepSeek V4模型极速适配

      4月24日,深度求索正式发布并开源DeepSeek V4。海光DCU同步完成对DeepSeek V4的Day0
    的头像 发表于 04-24 17:32 1552次阅读

    摩尔线程S5000 + 智源FlagOS:基于原生FP8引擎,Day-0适配DeepSeek-V4

    推理力度模式(Flash-Max)下推理能力逼近Pro版本。值得关注的是,V4模型首次采用“FP4+FP8”混合精度策略,而当前国内主流 A
    发表于 04-24 16:30 1005次阅读
    摩尔线程S5000 + 智源FlagOS:基于<b class='flag-5'>原生</b><b class='flag-5'>FP8</b>引擎,Day-0<b class='flag-5'>适配</b><b class='flag-5'>DeepSeek-V4</b>

    海光DCU完成阶跃星辰基座模型Step 3.5 Flash推理适配

    近日,海光DCU正式完成对阶跃星辰旗舰开源基座模型Step 3.5 Flash的全流程适配与深度调优。得益于新一代海光DCU原生支持FP8
    的头像 发表于 03-26 09:48 663次阅读

    原科技训推一体芯片L600适配阶跃星辰基座模型Step 3.5 Flash

    ”的 Agent 底层模型选项,从而真正融入日常开发。原科技的新一代训推一体芯片L600已率先完成适配,成为国内首批适配
    的头像 发表于 02-02 17:50 1560次阅读
    <b class='flag-5'>燧</b>原科技训推一体芯片<b class='flag-5'>L600</b><b class='flag-5'>适配</b>阶跃星辰基座<b class='flag-5'>模型</b>Step 3.5 <b class='flag-5'>Flash</b>

    今日看点丨两家国产头部厂商发布新一代AI芯片 ;台积电在美先进封装布局启动

    一体的架构,亦即可用于大模型训练和推理。L600配备144GB的存储容量,存储带宽为3.6TB/s,支持DeepSeek模型在训练过程中使用的FP8
    发表于 07-28 10:41 2621次阅读
    今日看点丨两家国产头部厂商发布新一代AI芯片 ;台积电在美先进封装布局启动

    摩尔线程发布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    , 支持原生FP8数据类型,支持PyTorch 2.5.0 ,并通过多项针对MUSA计算平台的性能优化,进一步提升了对AI模型和大规模数据处理的支持能力。 FP8
    的头像 发表于 05-11 16:41 1877次阅读