0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深入解析NVIDIA Nemotron 3系列开放模型

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-12-24 10:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

这一全新开放模型系列引入了开放的混合 Mamba-Transformer MoE 架构,使多智能体系统能够进行快速长上下文推理。

代理式AI系统日益依赖协同运行的智能体集合,包含检索器、规划器、工具执行器、验证器等,它们需在大规模上下文上长时间协同工作。这类系统需要能够提供快速吞吐、高推理精度及大规模输入持续一致性的模型。它们也需要一定的开放性,使开发者能够在任意运行环境定制、扩展和部署模型。

NVIDIANemotron3系列开放模型(Nano、Super、Ultra)、数据集和技术专为在新时代构建专业代理式AI而设计。

该系列引入了异构Mamba-Transformer混合专家(mixture-of-experts,MoE)架构、交互式环境强化学习(reinforcement learning,RL),以及原生100万token上下文窗口,可为多智能体应用提供高吞吐量、长时推理能力。

Nemotron3的新特性

Nemotron3引入了多项创新技术,可精准满足代理式系统需求:

混合Mamba-TransformerMoE主干提供出色的测试时效率与长程推理能力。

围绕真实世界代理式任务设计的多环境强化学习。

100万token上下文长度支持深度多文档推理与长时间智能体记忆。

开放透明的训练管道,包含数据、权重及方案。

Nemotron3 Nano现已推出并附带现成使用指南。Super与Ultra将于稍晚发布。

简单提示示例

Nemotron3模型的核心技术

混合Mamba-TransformerMoE架构

Nemotron3将三种架构整合成一个主干:

Mamba层:实现高效序列建模

Transformer层:保障推理精度

MoE路由:实现可扩展计算效率

Mamba层擅长以极低显存开销追踪长程依赖,即使处理数十万token仍能保持稳定的性能。Transformer层通过精细注意力机制对此进行了补充,捕捉例如代码操作、数学推理或复杂规划等任务所需的结构与逻辑关联。

MoE组件在不增加密集计算开销的前提下提升了有效参数数量。每个token仅激活一部分专家,从而降低了延迟并提高了吞吐量。该架构特别适合需要同时运行大量轻量级智能体的集群场景,每个智能体都生成计划、检查上下文或执行基于工具的工作流。

wKgZO2lLUaGAGg0GAAEqsx62s9Q754.png

图1:Nemotron3混合架构。该模型通过交错部署Mamba-2与MoE层,辅以少量自注意力层,在保持领先精度的同时实现推理吞吐量最大化。

多环境强化学习(RL)训练

为使Nemotron3契合真实代理式行为,该模型在NeMoGym(一个用于构建和扩展RL环境的开源库)中通过跨多种环境的强化学习进行后训练。这些环境评估模型执行连续动作序列的能力(不仅是单次响应),例如生成正确的工具调用、编写功能性代码,或生成满足可验证标准的多步骤计划。

这种基于轨迹的强化学习带来了在多步骤工作流中表现稳定的模型,减少推理漂移,并能处理代理式管道中常见的结构化操作。由于NeMoGym是开源的,开发者可在为特定领域任务定制模型时复用、扩展甚至创建自己的环境。

这些环境和RL数据集连同NeMoGym一起上线,供有意使用这些环境训练自己模型的用户使用。

wKgZPGlLUa2ARNpOAAFb3DOuYLc686.png

图2:Nemotron3 Nano通过混合MoE架构实现极高的吞吐效率,并借助NeMoGym的先进强化学习技术达到领先精度

100万token上下文长度

Nemotron3的100万token上下文使其能够在大型代码库、长文档、扩展对话及聚合检索内容中进行持续推理。智能体无需依赖碎片化的分块启发式方法,就可以在单个上下文窗口中完整保留证据集、历史缓冲及多阶段计划。

这种长上下文窗口得益于Nemotron3的混合Mamba-Transformer架构,它能够高效处理超大规模的序列。MoE路由也能保持较低的单个token计算成本,使得在推理时处理这些大型序列成为可能。

对于企业级检索增强生成、合规性分析、多小时智能体会话或整体存储库理解等场景,100万token窗口可显著加固事实基础并减少上下文碎片化。

Nemotron3 Super与Ultra的核心技术

潜在MoE

Nemotron3 Super与Ultra引入了潜在MoE,其中专家先在共享潜在表示中运行,然后再将输出结果投影回token空间。该方法使模型能够在相同推理成本下调用多达4倍的专家,从而更好地围绕微妙语义结构、领域抽象或多跳推理模式实现专业化。

wKgZO2lLUbqABMswAAIZgEEMtKo829.png

图3:标准MoE与潜在MoE架构对比。在潜在MoE中,token被投影至更小的潜在维度进行专家路由与计算,在降低通信成本的同时支持更多专家参与,并提高每字节精度。

多token预测(MTP)

MTP使模型能够在一次前向传播中预测多个未来token,从而显著提高长推理序列和结构化输出的吞吐量。对于规划、轨迹生成、扩展思维链或代码生成,MTP可降低延迟并提高智能体的响应速度。

wKgZO2lLUcmAdZdsAAJQVNMSIAk996.png

图4:多token预测(源自论文《通过多token预测实现更优更快的大语言模型》)可同时预测多个未来token,在训练阶段将精度提高约2.4%,在推理阶段实现了推测性解码加速。

NVFP4训练

Super与Ultra模型采用NVFP4精度进行预训练,NVIDIA的4位浮点格式可为训练与推理提供业界领先的成本精度比。我们为Nemotron3设计了更新版NVFP4方案,确保在25万亿token预训练数据集上能够实现精准且稳定的预训练。预训练过程中的大部分浮点乘加运算均采用NVFP4格式。

持续致力于开放模型

Nemotron3彰显了NVIDIA对透明度与开发者赋能的承诺。该模型的权重已根据NVIDIA开放模型许可协议(NVIDIA Open Model License)公开发布。NVIDIA的合成预训练语料库(近10万亿token)可以被查阅或重用。开发者还可获取NemotronGitHub库中的详细训练与后训练方案,实现完全的可复现性与定制化。

Nemotron3 Nano已发布,为高吞吐量、长上下文代理式系统奠定了基础。Super与Ultra将于2026年上半年发布,将在此基础上进一步深化推理能力和提高架构效率。

Nemotron3 Nano现已发布

系列首款模型Nemotron3 Nano已于近日发布。这个总参数300亿、激活参数30亿的模型专为DGX Spark、Hopper GPU及Blackwell GPU设计,让用户能够使用Nemotron3系列中较高效的模型进行开发。

如果您想要了解更多关于Nemotron3 Nano的技术细节,可访问Hugging Face博客,或阅读技术报告。

该模型可达到极高的吞吐量效率,在Artificial Analysis Intelligence Index上成绩领先,并且在Artificial AnalysisOpenness Index上保持了与NVIDIANemotronNano V2相同的分数。这充分展现了其在多智能体任务中的高效性,同时兼具透明度与可定制性。

wKgZPGlLUdOANXm6AAEaLqy0mMs217.png

图5:在Artificial AnalysisIntelligence Indexv3.0上,Nemotron3 Nano的精度(52)领先于同等规模模型。

开发者现可在多种部署与开发工作流中使用Nemotron3 Nano:

通过NVIDIA使用指南启动模型

我们为多个主流推理引擎提供现成使用指南:

vLLM使用指南:通过高吞吐量连续批处理和流式输出部署Nemotron3 Nano。

SGLang使用指南:运行专为多智能体工具调用工作负载优化的快速、轻量级推理。

TRT LLM使用指南:部署专为低延迟生产级环境完全优化的TensorRTLLM引擎。

每套使用指南均包含配置模板、性能优化建议及参考脚本,助您在数分钟内启动Nemotron3 Nano。

此外,从GeForce RTX台式电脑/笔记本电脑、RTX Pro工作站到DGX Spark,您可以立即在任意NVIDIA GPU上使用Nemotron,并借助Llama.cpp、LM Studio和Unsloth等顶级框架与工具上手。

使用Nemotron开放训练数据集进行开发

NVIDIA同时发布了在整个模型开发期间使用的开放数据集,为高性能、可信模型的构建带来了空前的透明度。

新数据集的特点包括:

Nemotron预训练:新的3万亿token数据集,通过合成增强与标注管道进行增强,更加全面地覆盖代码、数学及推理场景。

Nemotron后训练3.0:1,300万样本语料库,用于监督式微调与强化学习,为Nemotron3 Nano的对齐与推理能力提供支持。

Nemotron强化学习数据集:精选的强化学习数据集与环境集合,涵盖工具使用、规划及多步骤推理。

Nemotron智能体安全数据集:近1.1万条AI智能体工作流轨迹集合,帮助研究人员评估和减轻代理式系统中的新型安全风险。

配合NVIDIANeMoGym、RL、Data Designer及Evaluator开放库,这些开放数据集使开发者能够训练、增强和评估他们自己的Nemotron模型。

探索NemotronGitHub:预训练与强化学习方案

NVIDIA维护着一个开放的NemotronGitHub库,其中包含:

预训练方案(已发布),展示Nemotron3 Nano的训练过程

用于多环境优化的强化学习对齐方案

数据处理管道、分词器配置及长上下文设置

后续更新将加入更多后训练与微调方案

如果您想训练自己的Nemotron、扩展Nano或创建特定领域的变体,GitHub库提供了文档、配置及工具,可从头至尾重现关键步骤。

这种开放性实现了完整闭环:您可以运行、部署模型,查验模型的构建方式,甚至训练您自己的模型,全程仅需使用NVIDIA开放资源。

Nemotron3 Nano现已上线。即刻开始使用NVIDIA开放模型、开放工具、开放数据及开放训练基础设施,构建长上下文、高吞吐量的代理式系统。

Nemotron模型推理挑战赛

加速开放研究是Nemotron团队的核心使命。为此,我们十分高兴地宣布一项新的社区竞赛,其内容是使用Nemotron的开放模型与数据集提高Nemotron的推理性能。

关于作者

Chris Alexiuk 是 NVIDIA 的深度学习开发者倡导者,负责创建技术资源,帮助开发者使用 NVIDIA 提供的一整套强大 AI 工具。Chris 拥有机器学习和数据科学背景,对大型语言模型的一切充满热情。

Shashank Verma 是 NVIDIA 的一名深入学习的技术营销工程师。他负责开发和展示各种深度学习框架中以开发人员为中心的内容。他从威斯康星大学麦迪逊分校获得电气工程硕士学位,在那里他专注于计算机视觉、数据科学的安全方面和 HPC 。

Chintan Patel是NVIDIA的高级产品经理,致力于将GPU加速的解决方案引入HPC社区。 他负责NVIDIA GPU Cloud注册表中HPC应用程序容器的管理和提供。 在加入NVIDIA之前,他曾在Micrel,Inc.担任产品管理,市场营销和工程职位。他拥有圣塔克拉拉大学的MBA学位以及UC Berkeley的电气工程和计算机科学学士学位。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • NVIDIA
    +关注

    关注

    14

    文章

    5725

    浏览量

    110288
  • AI
    AI
    +关注

    关注

    91

    文章

    41976

    浏览量

    303068
  • 模型
    +关注

    关注

    1

    文章

    3873

    浏览量

    52339

原文标题:深入解析 NVIDIA Nemotron 3:使其高效精准的技术、工具与数据

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    面向科学仿真的开放模型系列NVIDIA Apollo正式发布

    用于加速工业和计算工程的开放模型系列 NVIDIA Apollo 于近日举行的 SC25 大会上正式发布。
    的头像 发表于 11-25 11:15 7.4w次阅读

    NVIDIA Nemotron-4 340B模型帮助开发者生成合成训练数据

    Nemotron-4 340B 是针对 NVIDIA NeMo 和 NVIDIA TensorRT-LLM 优化的模型系列,该
    的头像 发表于 09-06 14:59 1536次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Nemotron</b>-4 340B<b class='flag-5'>模型</b>帮助开发者生成合成训练数据

    NVIDIA推出开放式Llama Nemotron系列模型

    作为 NVIDIA NIM 微服务,开放式 Llama Nemotron 大语言模型和 Cosmos Nemotron 视觉语言
    的头像 发表于 01-09 11:11 1776次阅读

    NVIDIA 推出开放推理 AI 模型系列,助力开发者和企业构建代理式 AI 平台

    月 18 日 ——  NVIDIA 今日发布具有推理功能的开源 Llama Nemotron 模型系列,旨在为开发者和企业提供业务就绪型基础,助力构建能够独立工作或以团队形式完成复杂
    发表于 03-19 09:31 469次阅读
    <b class='flag-5'>NVIDIA</b> 推出<b class='flag-5'>开放</b>推理 AI <b class='flag-5'>模型</b><b class='flag-5'>系列</b>,助力开发者和企业构建代理式 AI 平台

    NVIDIA Nemotron Nano 2推理模型发布

    NVIDIA 正式推出准确、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的头像 发表于 08-27 12:45 2137次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Nemotron</b> Nano 2推理<b class='flag-5'>模型</b>发布

    NVIDIA Nemotron模型如何推动AI发展

    Nemotron 开源技术能够帮助开发者与企业构建强大的通用和专用智能系统。
    的头像 发表于 10-13 11:12 1309次阅读

    NVIDIA推动面向数字与物理AI的开源模型发展

    NVIDIA 发布一系列涵盖语音、安全与辅助驾驶领域的全新 AI 工具,其中包括面向移动出行领域的行业级开源视觉-语言-动作推理模型(Reasoning VLA) NVIDIA DRI
    的头像 发表于 12-13 09:50 1661次阅读

    NVIDIA 推出 Nemotron 3 系列开放模型

    新闻摘要: ● Nemotron 3 系列开放模型包含 Nano、Super 和 Ultra 三种规模,具有极高的效率和领先的精度,适用于代
    的头像 发表于 12-16 09:27 920次阅读
    <b class='flag-5'>NVIDIA</b> 推出 <b class='flag-5'>Nemotron</b> <b class='flag-5'>3</b> <b class='flag-5'>系列</b><b class='flag-5'>开放</b><b class='flag-5'>模型</b>

    利用NVIDIA Nemotron开放模型构建智能文档处理系统

    基于 NVIDIA Nemotron 开放模型的 AI 驱动文档智能,增强科学研究、金融和法律等领域工作流。
    的头像 发表于 02-25 11:21 786次阅读

    NVIDIA Jetson模型赋能AI在边缘端落地

    开源生成式 AI 模型不再局限于数据中心,而是开始深入到现实世界的各种机器中。从 Orin 到 Thor,NVIDIA Jetson 系列正在成为运行
    的头像 发表于 03-16 16:27 786次阅读
    <b class='flag-5'>NVIDIA</b> Jetson<b class='flag-5'>模型</b>赋能AI在边缘端落地

    NVIDIA 扩展开放模型系列,推动代理式、物理和医疗 AI 下一阶段发展

    新闻摘要: ●NVIDIA Nemotron 3 全模态理解模型 (Omni-understanding Models) 为 AI 智能体提供动力 ,使其能够实现自然对话、复杂推理和高
    的头像 发表于 03-17 09:18 629次阅读
    <b class='flag-5'>NVIDIA</b> 扩展<b class='flag-5'>开放</b><b class='flag-5'>模型</b><b class='flag-5'>系列</b>,推动代理式、物理和医疗 AI 下一阶段发展

    NVIDIA 成立由全球领先 AI 实验室组成的 Nemotron Coalition,推动开放前沿模型发展

    新闻摘要: ● NVIDIA Nemotron Coalition 是模型构建者和 AI 实验室的首个此类全球合作项目,致力于通过共享专业知识、数据和计算来推进开放前沿基础
    的头像 发表于 03-17 11:14 406次阅读
    <b class='flag-5'>NVIDIA</b> 成立由全球领先 AI 实验室组成的 <b class='flag-5'>Nemotron</b> Coalition,推动<b class='flag-5'>开放</b>前沿<b class='flag-5'>模型</b>发展

    NVIDIA与亚马逊云科技深化合作伙伴关系

    NVIDIA 和亚马逊云科技 (AWS) 扩展双方合作,增强在 AWS 平台上的由 NVIDIA 驱动的数据处理能力,并增加对 NVIDIA Nemotron
    的头像 发表于 03-23 15:17 563次阅读

    NVIDIA开放模型助力构建下一代数字健康智能体

    NVIDIA Nemotron 系列开放模型NVIDIA NeMo 库正在为临床医生、研究人
    的头像 发表于 03-25 09:46 561次阅读

    NVIDIA发布Nemotron 3 Nano Omni开放式多模态模型

    今日发布的 NVIDIA Nemotron 3 Nano Omni 是一款开放式多模态模型,它将上述功能集成至一个系统中,使智能体能够对视频
    的头像 发表于 05-08 10:06 603次阅读