0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

瀚博半导体载天VA16加速卡成功适配DeepSeek-V4大模型

瀚博半导体VastaiTech 来源:瀚博半导体VastaiTech 2026-05-06 15:54 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,深度求索正式开源全新系列模型DeepSeek-V4。瀚博半导体第一时间完成载天VA16加速卡的FP4+FP8 混合精度适配,加速大模型高并发、低成本落地。

DeepSeek-V4:百万上下文时代的开源标杆

深度求索官方宣告,“从1M上下文开始将是DeepSeek所有官方服务的标配”,大模型正式迈入百万长文本普惠时代。DeepSeek-V4 全系标配百万token上下文窗口,采用混合注意力机制,相比 DeepSeek-V3.2 大幅降低单 token 推理 FLOPs 和 KV 缓存需求。结合压缩稀疏注意力(CSA)与重度压缩注意力(HCA),显著提升长上下文处理效率,在 Agent 能力、世界知识和推理性能上均领先国内与开源模型。

在模型能力上,DeepSeek-V4-Pro性能比肩世界顶尖闭源模型。在 Agentic Coding 评测中已达到当前开源模型最佳水平;在数学、STEM、竞赛型代码的测评中,超越当前所有已公开评测的开源模型。DeepSeek-V4-Flash则由于模型参数和激活更小,提供更加快捷、经济的 API 服务,简单任务上与 Pro版 旗鼓相当。

瀚博VA16全栈支撑:

大显存+FP4/FP8混合精度

要在部署端充分释放DeepSeek-V4的上述能力,需要硬件侧的原生支持。

瀚博载天VA16配备128GB超大显存,为百万token超长上下文的KV缓存提供充裕驻留空间。同时,VA16 支持FP4和FP8数据精度格式,显著降低显存占用、提升推理吞吐。配合兼容vLLM等主流框架的全栈软件生态,以及最高2TB总显存的一体机私有化部署方案,开发者可快速实现从模型验证到业务上线。

低精度革命的开篇

此次FP4+FP8 混合精度成功适配DeepSeek-V4,是瀚博半导体在低精度大模型适配领域的里程碑。面向百万上下文普惠新时代,瀚博将持续携手产业伙伴,加速大模型应用的高效、安全、规模化落地。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 开源
    +关注

    关注

    3

    文章

    4375

    浏览量

    46477
  • 模型
    +关注

    关注

    1

    文章

    3834

    浏览量

    52289
  • DeepSeek
    +关注

    关注

    2

    文章

    857

    浏览量

    3417

原文标题:瀚博VA16 FP4+FP8适配DeepSeek-V4,单机2TB显存支持百万上下文推理

文章出处:【微信号:瀚博半导体VastaiTech,微信公众号:瀚博半导体VastaiTech】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    燧弘华创HonMaaS平台深度适配DeepSeek-V4模型

    第一时间完成DeepSeek-V4全系列模型深度适配与无缝集成。目前,基于DeepSeek-V4的高性能Token服务已正式面向企业客户开放,让百万级超长上下文能力落地普及,真正变身千
    的头像 发表于 05-06 14:55 227次阅读
    燧弘华创HonMaaS平台深度<b class='flag-5'>适配</b><b class='flag-5'>DeepSeek-V4</b>大<b class='flag-5'>模型</b>

    摩尔线程完成DeepSeek-V4全链路工程化适配:S5000基于MUSA+SGLang实现复杂MoE模型快速落地

    近日,摩尔线程依托旗舰级AI训推一体智算MTT S5000与自研MUSA软件栈,基于SGLang 开源推理框架,成功完成DeepSeek-V4的完整运行验证。该成果表明,面向新一代MoE大
    发表于 05-02 09:01 700次阅读

    云天励飞完成DeepSeek-V4系列模型关键机制适配验证

    4月24日,DeepSeek-V4 系列模型发布。围绕该模型 CSA/HCA 混合注意力机制带来的新型计算需求,云天励飞依托自研 GPNPU 架构及 IFWA 智能融合软件栈,通过 P
    的头像 发表于 04-30 17:09 5132次阅读

    摩尔线程携手智源人工智能研究院Day-0适配DeepSeek-V4 Pro和Flash双模型

    4月24日,摩尔线程联合北京智源人工智能研究院,基于旗舰级AI训推一体智算MTT S5000与FlagOS全栈软件体系,完成DeepSeek-V4系列两款模型推理“Day-0”
    的头像 发表于 04-30 16:30 1029次阅读

    摩尔线程携手上海AI实验室Day-0适配DeepSeek-V4核心算子

    今日,DeepSeek-V4预览版正式发布并开源。摩尔线程携手上海 AI 实验室 DeepLink 团队,通过大模型驱动的智能算子迁移系统 KernelSwift,率先在旗舰级AI训推一体智算
    的头像 发表于 04-30 16:24 1117次阅读

    模力方舟上线DeepSeek-V4系列大模型

    围绕这一方向,DeepSeek 在今天上推出了DeepSeek-V4,现已在模力方舟正式上线。
    的头像 发表于 04-30 10:35 319次阅读
    模力方舟上线<b class='flag-5'>DeepSeek-V4</b>系列大<b class='flag-5'>模型</b>

    开放原子AtomGit平台首发适配DeepSeek-V4系列模型

    2026年4月24日,DeepSeek-V4系列模型正式发布并同步开源。AtomGit平台为DeepSeek-V4昇腾适配版本首发平台,为开
    的头像 发表于 04-29 16:12 760次阅读

    登临科技GPU+架构深度适配DeepSeek-V4模型

    DeepSeek-V4-Flash,全系标配百万token长上下文能力,开启大模型长文本普惠新时代。同日,开源社区已提交适配DeepSeek-V4的代码。 作为国产高性能通用GPU的
    的头像 发表于 04-29 16:07 1323次阅读

    寒武纪Day 0适配DeepSeek-V4模型

    2026年4月24日,寒武纪已基于 vLLM 推理框架完成对深度求索公司最新开源模型285B DeepSeek-V4-flash 和1.6T DeepSeek-V4-pro的 Day
    的头像 发表于 04-29 10:14 320次阅读

    华为云首发适配DeepSeek-V4模型

    4月24日,DeepSeek-V4模型正式发布并开源,华为云首发适配DeepSeek-V4拥有百万Token超长上下文,在Agent能力、
    的头像 发表于 04-28 17:01 562次阅读

    沐曦股份Day 0适配DeepSeek-V4-Flash模型

    4月24日,沐曦股份携手FlagOS,已完对DeepSeek最新开源的DeepSeek-V4-Flash模型的Day 0适配。同日,沐曦股份
    的头像 发表于 04-28 15:53 522次阅读

    壁仞科技壁砺166系列GPU产品率先支持DeepSeek-V4模型

    完成DeepSeek-V4在旗舰通用GPU壁砺166系列产品的适配验证与优化,充分释放产品算力密度与带宽优势,全面赋能GenAI推理加速
    的头像 发表于 04-28 14:04 768次阅读
    壁仞科技壁砺166系列GPU产品率先支持<b class='flag-5'>DeepSeek-V4</b><b class='flag-5'>模型</b>

    荣耀YOYO首搭DeepSeek-V4模型 重塑安卓端侧AI新标杆

    近日,荣耀YOYO接入DeepSeek-V4模型,标志着安卓阵营在AI智能助理领域实现重大突破
    的头像 发表于 04-28 09:17 946次阅读

    半导体宣布深度参与百度飞桨黑客松生态活动

    近日,半导体正式宣布深度参与百度飞桨主办的黑客松生态活动。面向全球开发者开放旗下载系列加速卡开发环境,支持部署百度文心ERNIE-4.
    的头像 发表于 04-11 09:41 718次阅读

    半导体与新灵犀科技签署医疗产品互认证书

    近日,经过双方严格的技术验证和产品测试,半导体VGX VA16模型一体机与新灵犀科技LingxiNova通用人工智能平台顺利完成互认授
    的头像 发表于 08-27 14:26 1308次阅读