0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

使用NVIDIA Blackwell和GPU加速端点构建DeepSeek V4大模型

丽台科技 来源:丽台科技 2026-05-16 09:16 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DeepSeek 刚刚发布了第四代旗舰模型,推出DeepSeek-V4-Pro和DeepSeek-V4-Flash两款产品,均致力于实现高效的百万词元上下文推理。

DeepSeek-V4-Pro 是该系列中最大的型号,拥有 1.6 T 的总参数和 49B 的活动参数。DeepSeek-V4-Flash 是一款包含 304B 参数的小型模型,具有 130 亿个活动参数,专为高速、高效的工作负载而设计。这两种模型最高支持 1M- 词元上下文窗口,为长上下文编码、文档分析、检索和代理式 AI 工作流开辟了新的可能性。

dfd5c690-4e70-11f1-90a1-92fbcf53809c.png

表 1. DeepSeek V4 系列的规格。

用于长上下文推理的架构创新

V4 系列基于 DeepSeek MoE 架构构建,重点优化了 Transformer 架构中的注意力组件。相比DeepSeek-V3.2,这些创新可将每个词元推理所需的 FLOPs 减少 73%,并将 KV 缓存的内存负载降低 90%。

这一点很重要,因为长上下文正在成为代理式应用的核心要求。智能体可以存储多个提示和响应。它们在整个工作流程中携带系统指令、工具输出、检索到的上下文、代码、日志、内存和多步骤推理痕迹。随着上下文窗口的增长,注意力和 KV 缓存成为主要瓶颈。

e02a5b42-4e70-11f1-90a1-92fbcf53809c.jpg

图 1. DeepSeek-V4 混合注意力架构概述。通过结合 CSA、DSA 和 HCA,该模型显著减少了标准 Transformer 块内的 KV 缓存内存占用和计算开销。

应对这一挑战的核心架构解决方案是混合注意力,它融合了:

压缩稀疏注意力(CSA):通过动态序列压缩来减少 KV 条目的数量,从而降低 KV 缓存的内存占用,再结合 DeepSeek 稀疏注意力(DSA)对注意力矩阵进行稀疏化,以降低计算开销。

严重压缩注意力(HCA):通过将多个词元集合中的键值(KV)条目合并为单个压缩条目,实现更激进的压缩,从而显著减小 KV 缓存的大小。

DeepSeek-V4 的架构创新标志着从基本聊天系统向多回合、长上下文推理和代理式系统的转变。这种新范式强调了整个堆栈 (软件、内存、计算和网络) 从根本上改变了推理经济学的动态。随着开放模型达到智能的前沿,企业的工作重点从模型选择转向基础设施策略。在这种情况下,最终的竞争优势是能够以最低的词元成本部署和扩展这些高性能模型。

开箱即用的 NVIDIA Blackwell 性能见解

无论是开发者部署用于高级推理的 1.6 T Pro 模型,还是用于实现高速效率的 284B Flash 模型,Blackwell 都能提供 100 万长上下文推理和万亿参数智能新时代所需的规模和低延迟性能。

NVIDIA Blackwell 平台专为此类工作负载而构建。在基于 NVIDIA GB200 NVL72 的 DeepSeek-V4-Pro 上进行的开箱即用测试表明,词元/ 秒/ 用户数超过 150。除了这些初步测试之外,NVIDIA 团队还利用 vLLM 的 Day 0 NVIDIA Blackwell B300 recipe 生成了开箱即用的性能快照 (图 2) 。

e083ffbc-4e70-11f1-90a1-92fbcf53809c.jpg

图 2. DeepSeek-V4-Pro 在 NVIDIA Blackwell B300 上的开箱即用性能。结果基于使用该模型的原生 MXFP4 格式的 1K/ 1K ISL/ OSL 配置。

随着我们优化整个极致协同设计堆栈 (包括 Dynamo、NVFP4、经过优化的 CUDA 内核、高级并行技术等) ,这一性能有望进一步提升。

使用 NVIDIA GPU 加速端点进行构建

作为 NVIDIA 开发者计划的一部分,开发者可通过 nvidia.com 上由 NVIDIA GPU 加速的端点(https://build.nvidia.com/)(复制链接至浏览器打开,下同),开始使用 DeepSeek V4 进行开发。在转向自托管部署之前,托管端点为使用最新模型进行原型设计提供了快速便捷的方式。

借助 NVIDIA NIM,DeepSeek V4 也可在首发日下载,因此可以部署它,使用熟悉的 API 模式构建长上下文编码、文档分析和智能体工作流。

使用 SGLang 进行部署

SGLang 为基于 NVIDIA Blackwell 和 Hopper 架构的 DeepSeek V4 提供三种主要服务方案,分别针对不同的延迟与吞吐量需求(低延迟、均衡性能和最大吞吐量)进行优化,同时还提供专为长上下文工作负载以及预填充与解码分解设计的定制化方案。

使用 vLLM 进行部署

vLLM 为 NVIDIA Blackwell 和 Hopper 提供 DeepSeekV4 的单节点与多节点服务方案,支持扩展至 100 多个 GPU 的多节点预填充与解码分离架构,并具备工具调用、推理及预测解码能力。

助力智能体工作流

DeepSeek V4 特别适合智能体,因为它在长上下文编排、推理和工具调用方面表现出色。首先,开发者可以将 DeepSeek V4 配置为 LLM:

NVIDIA NemoClaw:在安全的 OpenShell 环境中运行 OpenClaw,利用 DeepSeek V4 构建可长期运行的个人助手,适用于代码生成、个人事务处理、自主支持等任务。运行nemoclaw onboard,在第 3 步中输入您的 DeepSeek V4 提供商 URL 及其 DeepSeek V4 模型名称。

NVIDIA AI-Q blueprint:为您提供或您的代理一个强大的深度研究助手。该蓝图基于 LangChain 深度代理,具备良好的可扩展性,可轻松将 DeepSeek V4 集成到您的工作流程中,实现高效的编排与规划.

NVIDIA Data Explorer 智能体:在 DABstep 基准测试中排名第一,擅长数据分析、数据科学和表格研究。该智能体基于 NeMo Agent Toolkit 构建,可轻松切换至 DeepSeek V4。

使用开放智能体工具和开放模型的最佳方式是,您始终能够尝试新的模型来获取前沿技术。

开始使用 DeepSeek

从 NVIDIA Blackwell 上的数据中心部署到托管 NIM 微服务和微调工作流,NVIDIA 提供了一系列选项,用于在不同的开发和部署阶段集成 DeepSeek 和其他开放模型。NVIDIA 是开源生态系统的积极贡献者,已根据开源许可证发布了数百个项目。NVIDIA 致力于优化社区软件和开放模型,让用户广泛分享在 AI 安全性和弹性方面的工作。

如需开始使用,请前往 Hugging Face 查看 DeepSeek-V4(https://huggingface.co/collections/deepseek-ai/deepseek-v4),或在 build.nvidia.com(https://build.nvidia.com/deepseek-ai/deepseek-v4-pro)上体验专业版。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5721

    浏览量

    110218
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5313

    浏览量

    136169
  • 大模型
    +关注

    关注

    2

    文章

    3854

    浏览量

    5289
  • DeepSeek
    +关注

    关注

    2

    文章

    861

    浏览量

    3449

原文标题:使用 NVIDIA Blackwell 和 GPU 加速端点构建 DeepSeek V4

文章出处:【微信号:Leadtek,微信公众号:丽台科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA Blackwell GPU优化DeepSeek-R1性能 打破DeepSeek-R1在最小延迟场景中的性能纪录

    本文将探讨 NVIDIA TensorRT-LLM 如何基于 8 个 NVIDIA Blackwell GPU 的配置,打破 DeepSeek
    的头像 发表于 07-02 19:31 3715次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Blackwell</b> <b class='flag-5'>GPU</b>优化<b class='flag-5'>DeepSeek</b>-R1性能 打破<b class='flag-5'>DeepSeek</b>-R1在最小延迟场景中的性能纪录

    NVIDIA RTX PRO 2000 Blackwell GPU性能测试

    越来越多的应用正在使用 AI 加速,而无论工作站的大小或形态如何,都有越来越多的用户需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的头像 发表于 11-28 09:39 7246次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 <b class='flag-5'>Blackwell</b> <b class='flag-5'>GPU</b>性能测试

    国产AI算力:从DeepSeek V4与华为昇腾协同看全栈自主之路

    电子发烧友网报道(文/李弯弯)2026年4月24日,DeepSeek V4 - Pro和DeepSeek V4 - Flash正式发布并开源
    的头像 发表于 04-25 07:02 1.3w次阅读

    进一步解读英伟达 Blackwell 架构、NVlink及GB200 超级芯片

    计算工作负载、释放百亿亿次计算能力和万亿参数人工智能模型的全部潜力提供关键基础。 NVLink释放数万亿参数AI模型加速性能,显著提升大型多GPU系统的可扩展性。每个英伟达
    发表于 05-13 17:16

    在Ubuntu上使用Nvidia GPU训练模型

    问题最近在Ubuntu上使用Nvidia GPU训练模型的时候,没有问题,过一会再训练出现非常卡顿,使用nvidia-smi查看发现,显示GPU
    发表于 01-03 08:24

    介绍yolo v4版的安装与测试

    nvidia公司出品的低成本jetson nano,利用CUDA实现GPU加速。文章目录1. 准备工作2. 安装YOLO3. 测试参考文献1. 准备工作jetson nano 4G内存
    发表于 02-17 07:06

    NVIDIA RTX PRO 4500 Blackwell GPU测试分析

    今天我们带来全新 NVIDIA Blackwell 架构 GPU —— NVIDIA RTX PRO 4500 Blackwell 的测试,
    的头像 发表于 08-28 11:02 4569次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 <b class='flag-5'>Blackwell</b> <b class='flag-5'>GPU</b>测试分析

    NVIDIA RTX PRO 4000 Blackwell GPU性能测试

    Generation 的全面超越。那么,这款划时代的专业 GPU 在真实应用场景中的表现究竟如何?今天,我们将通过深度实测,为您揭晓 NVIDIA RTX PRO 4000 Blackwell 相较于前代产品的性能跃迁。
    的头像 发表于 12-29 15:30 2074次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 4000 <b class='flag-5'>Blackwell</b> <b class='flag-5'>GPU</b>性能测试

    NVIDIA RTX PRO 5000 Blackwell GPU的深度评测

    NVIDIA RTX PRO 5000 BlackwellNVIDIA RTX 5000 Ada Generation 的升级迭代产品,其各项核心指标均针对 GPU
    的头像 发表于 01-06 09:51 4756次阅读
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 <b class='flag-5'>Blackwell</b> <b class='flag-5'>GPU</b>的深度评测

    海光信息DCU平台完成对DeepSeek V4模型极速适配

      4月24日,深度求索正式发布并开源DeepSeek V4。海光DCU同步完成对DeepSeek V4的Day0适配,以“
    的头像 发表于 04-24 17:32 1892次阅读

    长江计算G940K V2超节点服务器完成对DeepSeek V4模型极速适配

      4月24日,备受行业关注的大模型产品DeepSeek V4正式发布。烽火通信旗下长江计算凭借深厚的技术积累与前瞻布局,以G940K V2
    的头像 发表于 04-24 17:40 2028次阅读

    壁仞科技壁砺166系列GPU产品率先支持DeepSeek-V4模型

    4月24日,深度求索团队宣布全新系列模型 DeepSeek-V4 的预览版本正式上线并同步开源。依托成熟的BIRENSUPA软件栈与自研GPU全栈智能体“AIModelMaster”,
    的头像 发表于 04-28 14:04 1582次阅读
    壁仞科技壁砺166系列<b class='flag-5'>GPU</b>产品率先支持<b class='flag-5'>DeepSeek-V4</b><b class='flag-5'>模型</b>

    燧原科技L600 FP8原生适配DeepSeek-V4-Pro/Flash模型

    2026年4月24日,深度求索(DeepSeek)正式发布并开源新一代旗舰大模型DeepSeekV4,同步推出1.6T
    的头像 发表于 04-28 15:19 643次阅读

    软通华方超节点服务器产品全面适配DeepSeek V4模型

    4月24日,随着DeepSeek V4模型的正式开源与发布,国产算力生态迎来关键拼图。软通动力旗下软通华方迅速响应,依托“鲲鹏+昇腾”双引擎架构,基于核心产品A800T A3/超强A
    的头像 发表于 04-28 16:34 431次阅读

    登临科技GPU+架构深度适配DeepSeek-V4模型

    DeepSeek-V4-Flash,全系标配百万token长上下文能力,开启大模型长文本普惠新时代。同日,开源社区已提交适配DeepSeek-V4的代码。 作为国产高性能通用GPU
    的头像 发表于 04-29 16:07 2263次阅读