深入解析NVIDIA Nemotron 3系列开放模型-电子发烧友网

这一全新开放模型系列引入了开放的混合 Mamba-Transformer MoE 架构，使多智能体系统能够进行快速长上下文推理。

代理式AI系统日益依赖协同运行的智能体集合，包含检索器、规划器、工具执行器、验证器等，它们需在大规模上下文上长时间协同工作。这类系统需要能够提供快速吞吐、高推理精度及大规模输入持续一致性的模型。它们也需要一定的开放性，使开发者能够在任意运行环境定制、扩展和部署模型。

NVIDIANemotron3系列开放模型(Nano、Super、Ultra)、数据集和技术专为在新时代构建专业代理式AI而设计。

该系列引入了异构Mamba-Transformer混合专家(mixture-of-experts,MoE)架构、交互式环境强化学习(reinforcement learning,RL)，以及原生100万token上下文窗口，可为多智能体应用提供高吞吐量、长时推理能力。

Nemotron3的新特性

Nemotron3引入了多项创新技术，可精准满足代理式系统需求：

混合Mamba-TransformerMoE主干提供出色的测试时效率与长程推理能力。

围绕真实世界代理式任务设计的多环境强化学习。

100万token上下文长度支持深度多文档推理与长时间智能体记忆。

开放透明的训练管道，包含数据、权重及方案。

Nemotron3 Nano现已推出并附带现成使用指南。Super与Ultra将于稍晚发布。

简单提示示例

Nemotron3模型的核心技术

混合Mamba-TransformerMoE架构

Nemotron3将三种架构整合成一个主干：

Mamba层：实现高效序列建模

Transformer层：保障推理精度

MoE路由：实现可扩展计算效率

Mamba层擅长以极低显存开销追踪长程依赖，即使处理数十万token仍能保持稳定的性能。Transformer层通过精细注意力机制对此进行了补充，捕捉例如代码操作、数学推理或复杂规划等任务所需的结构与逻辑关联。

MoE组件在不增加密集计算开销的前提下提升了有效参数数量。每个token仅激活一部分专家，从而降低了延迟并提高了吞吐量。该架构特别适合需要同时运行大量轻量级智能体的集群场景，每个智能体都生成计划、检查上下文或执行基于工具的工作流。

图1：Nemotron3混合架构。该模型通过交错部署Mamba-2与MoE层，辅以少量自注意力层，在保持领先精度的同时实现推理吞吐量最大化。

多环境强化学习(RL)训练

为使Nemotron3契合真实代理式行为，该模型在NeMoGym（一个用于构建和扩展RL环境的开源库）中通过跨多种环境的强化学习进行后训练。这些环境评估模型执行连续动作序列的能力（不仅是单次响应），例如生成正确的工具调用、编写功能性代码，或生成满足可验证标准的多步骤计划。

这种基于轨迹的强化学习带来了在多步骤工作流中表现稳定的模型，减少推理漂移，并能处理代理式管道中常见的结构化操作。由于NeMoGym是开源的，开发者可在为特定领域任务定制模型时复用、扩展甚至创建自己的环境。

这些环境和RL数据集连同NeMoGym一起上线，供有意使用这些环境训练自己模型的用户使用。

图2：Nemotron3 Nano通过混合MoE架构实现极高的吞吐效率，并借助NeMoGym的先进强化学习技术达到领先精度

100万token上下文长度

Nemotron3的100万token上下文使其能够在大型代码库、长文档、扩展对话及聚合检索内容中进行持续推理。智能体无需依赖碎片化的分块启发式方法，就可以在单个上下文窗口中完整保留证据集、历史缓冲及多阶段计划。

这种长上下文窗口得益于Nemotron3的混合Mamba-Transformer架构，它能够高效处理超大规模的序列。MoE路由也能保持较低的单个token计算成本，使得在推理时处理这些大型序列成为可能。

对于企业级检索增强生成、合规性分析、多小时智能体会话或整体存储库理解等场景，100万token窗口可显著加固事实基础并减少上下文碎片化。

Nemotron3 Super与Ultra的核心技术

潜在MoE

Nemotron3 Super与Ultra引入了潜在MoE，其中专家先在共享潜在表示中运行，然后再将输出结果投影回token空间。该方法使模型能够在相同推理成本下调用多达4倍的专家，从而更好地围绕微妙语义结构、领域抽象或多跳推理模式实现专业化。

图3：标准MoE与潜在MoE架构对比。在潜在MoE中，token被投影至更小的潜在维度进行专家路由与计算，在降低通信成本的同时支持更多专家参与，并提高每字节精度。

多token预测(MTP)

MTP使模型能够在一次前向传播中预测多个未来token，从而显著提高长推理序列和结构化输出的吞吐量。对于规划、轨迹生成、扩展思维链或代码生成，MTP可降低延迟并提高智能体的响应速度。

图4：多token预测（源自论文《通过多token预测实现更优更快的大语言模型》）可同时预测多个未来token，在训练阶段将精度提高约2.4%，在推理阶段实现了推测性解码加速。

NVFP4训练

Super与Ultra模型采用NVFP4精度进行预训练，NVIDIA的4位浮点格式可为训练与推理提供业界领先的成本精度比。我们为Nemotron3设计了更新版NVFP4方案，确保在25万亿token预训练数据集上能够实现精准且稳定的预训练。预训练过程中的大部分浮点乘加运算均采用NVFP4格式。

持续致力于开放模型

Nemotron3彰显了NVIDIA对透明度与开发者赋能的承诺。该模型的权重已根据NVIDIA开放模型许可协议(NVIDIA Open Model License)公开发布。NVIDIA的合成预训练语料库（近10万亿token）可以被查阅或重用。开发者还可获取NemotronGitHub库中的详细训练与后训练方案，实现完全的可复现性与定制化。

Nemotron3 Nano已发布，为高吞吐量、长上下文代理式系统奠定了基础。Super与Ultra将于2026年上半年发布，将在此基础上进一步深化推理能力和提高架构效率。

Nemotron3 Nano现已发布

系列首款模型Nemotron3 Nano已于近日发布。这个总参数300亿、激活参数30亿的模型专为DGX Spark、Hopper GPU及Blackwell GPU设计，让用户能够使用Nemotron3系列中较高效的模型进行开发。

如果您想要了解更多关于Nemotron3 Nano的技术细节，可访问Hugging Face博客，或阅读技术报告。

该模型可达到极高的吞吐量效率，在Artificial Analysis Intelligence Index上成绩领先，并且在Artificial AnalysisOpenness Index上保持了与NVIDIANemotronNano V2相同的分数。这充分展现了其在多智能体任务中的高效性，同时兼具透明度与可定制性。

图5：在Artificial AnalysisIntelligence Indexv3.0上，Nemotron3 Nano的精度（52）领先于同等规模模型。

开发者现可在多种部署与开发工作流中使用Nemotron3 Nano：

通过NVIDIA使用指南启动模型

我们为多个主流推理引擎提供现成使用指南：

vLLM使用指南：通过高吞吐量连续批处理和流式输出部署Nemotron3 Nano。

SGLang使用指南：运行专为多智能体工具调用工作负载优化的快速、轻量级推理。

TRT LLM使用指南：部署专为低延迟生产级环境完全优化的TensorRTLLM引擎。

每套使用指南均包含配置模板、性能优化建议及参考脚本，助您在数分钟内启动Nemotron3 Nano。

此外，从GeForce RTX台式电脑/笔记本电脑、RTX Pro工作站到DGX Spark，您可以立即在任意NVIDIA GPU上使用Nemotron，并借助Llama.cpp、LM Studio和Unsloth等顶级框架与工具上手。

使用Nemotron开放训练数据集进行开发

NVIDIA同时发布了在整个模型开发期间使用的开放数据集，为高性能、可信模型的构建带来了空前的透明度。

新数据集的特点包括：

Nemotron预训练：新的3万亿token数据集，通过合成增强与标注管道进行增强，更加全面地覆盖代码、数学及推理场景。

Nemotron后训练3.0：1,300万样本语料库，用于监督式微调与强化学习，为Nemotron3 Nano的对齐与推理能力提供支持。

Nemotron强化学习数据集：精选的强化学习数据集与环境集合，涵盖工具使用、规划及多步骤推理。

Nemotron智能体安全数据集：近1.1万条AI智能体工作流轨迹集合，帮助研究人员评估和减轻代理式系统中的新型安全风险。

配合NVIDIANeMoGym、RL、Data Designer及Evaluator开放库，这些开放数据集使开发者能够训练、增强和评估他们自己的Nemotron模型。

探索NemotronGitHub：预训练与强化学习方案

NVIDIA维护着一个开放的NemotronGitHub库，其中包含：

预训练方案（已发布），展示Nemotron3 Nano的训练过程

用于多环境优化的强化学习对齐方案

数据处理管道、分词器配置及长上下文设置

后续更新将加入更多后训练与微调方案

如果您想训练自己的Nemotron、扩展Nano或创建特定领域的变体，GitHub库提供了文档、配置及工具，可从头至尾重现关键步骤。

这种开放性实现了完整闭环：您可以运行、部署模型，查验模型的构建方式，甚至训练您自己的模型，全程仅需使用NVIDIA开放资源。

Nemotron3 Nano现已上线。即刻开始使用NVIDIA开放模型、开放工具、开放数据及开放训练基础设施，构建长上下文、高吞吐量的代理式系统。

Nemotron模型推理挑战赛

加速开放研究是Nemotron团队的核心使命。为此，我们十分高兴地宣布一项新的社区竞赛，其内容是使用Nemotron的开放模型与数据集提高Nemotron的推理性能。

关于作者

Chris Alexiuk 是 NVIDIA 的深度学习开发者倡导者，负责创建技术资源，帮助开发者使用 NVIDIA 提供的一整套强大 AI 工具。Chris 拥有机器学习和数据科学背景，对大型语言模型的一切充满热情。

Shashank Verma 是 NVIDIA 的一名深入学习的技术营销工程师。他负责开发和展示各种深度学习框架中以开发人员为中心的内容。他从威斯康星大学麦迪逊分校获得电气工程硕士学位，在那里他专注于计算机视觉、数据科学的安全方面和 HPC 。

Chintan Patel是NVIDIA的高级产品经理，致力于将GPU加速的解决方案引入HPC社区。他负责NVIDIA GPU Cloud注册表中HPC应用程序容器的管理和提供。在加入NVIDIA之前，他曾在Micrel，Inc.担任产品管理，市场营销和工程职位。他拥有圣塔克拉拉大学的MBA学位以及UC Berkeley的电气工程和计算机科学学士学位。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉