NVIDIA推动面向数字与物理AI的开源模型发展-电子发烧友网

NVIDIA 发布一系列涵盖语音、安全与辅助驾驶领域的全新 AI 工具，其中包括面向移动出行领域的行业级开源视觉-语言-动作推理模型（Reasoning VLA）NVIDIA DRIVE Alpamayo-R1。此外，一项新的独立基准测试认可了 NVIDIA Nemotron 模型及数据集的开放性与透明度。

全球研究人员将开源技术作为其工作的基础。为使业界能够获取数字与物理 AI 领域的最新成果，NVIDIA 正进一步扩展其开源 AI 模型、数据集及工具库，这些资源几乎可以应用于所有研究领域。

在全球顶级 AI 会议NeurIPS上，NVIDIA 发布了支持科学研究的开放式物理 AI 模型与工具，其中包括面向辅助驾驶的行业级开源 VLA 推理模型 Alpamayo-R1。在数字 AI 领域，NVIDIA 推出了面向语音处理与 AI 安全领域的新模型及数据集。

NVIDIA 研究人员将在本次大会上带来 70 余篇论文、演讲及专题研讨会，分享涵盖 AI 推理、医学研究、智能汽车开发等多个领域的创新项目。

这些举措进一步深化了 NVIDIA 对开源生态的承诺。这一努力获得了独立 AI 基准测试机构Artificial Analysis最新“开放性指数” (Openness Index) 的认可。该指数基于模型许可的开放性、数据透明度及技术细节的可用性，将NVIDIA Nemotron系列开源技术评为 AI 生态系统中最开放的前沿 AI 开发技术之一。

NVIDIA DRIVE Alpamayo-R1 为辅助驾驶开辟了全新的研究前沿

NVIDIA DRIVE Alpamayo-R1 (AR1)作为面向辅助驾驶研究的开源 VLA 推理模型，创新性地将思维链 AI 推理与路径规划技术深度融合。该技术对于提升辅助驾驶系统在复杂路况下的安全性以及实现L4 级自动驾驶至关重要。

此前的辅助驾驶模型在复杂场景下易于出错，例如人流密集的路口、前方车道即将封闭，或者有车辆在自行车道上违规停车。推理能力赋予了辅助驾驶系统类人的“常识”，让它们像人类一样更自然地驾驶。

AR1 通过对场景进行分解并逐步推理来实现这一目标。它会考虑所有可能的轨迹后，结合上下文数据选择最优路线。

举例而言，在行人密集且紧邻自行车道的区域，搭载 AR1 的智能汽车可通过思维链进行推理：首先采集行驶路径数据，同时整合推理轨迹 (即系统对采取特定操作的解释说明)，继而利用这些信息规划后续行驶路线，例如主动避让自行车道或为潜在横穿马路的行人提前减速或停车。

AR1 基于NVIDIA Cosmos Reason构建的开放式基础架构，使研究人员能够根据自身非商业用途需求定制模型，包括用于基准测试与开发实验性辅助驾驶应用。

对于经过后训练的 AR1，强化学习表现出了显著效果，研究人员观察到，相比预训练模型，AR1 的推理能力有了大幅提升。

NVIDIA DRIVE Alpamayo-R1 将在 GitHub 和 Hugging Face 平台开放获取，以及用于训练和评估该模型的数据子集已收录于NVIDIA 物理 AI 开放数据集。NVIDIA 同时发布了用于评估 AR1 的开源框架AlpaSim。

深入了解用于辅助驾驶的 VLA 推理模型(中文字幕)。

为任意物理 AI 应用场景定制 NVIDIA Cosmos

开发者现可通过 Cosmos Cookbook 中的分步指南，快速入门推理示例和高级后训练工作流，学习如何使用和后训练基于 Cosmos 的模型。这本面向物理 AI 开发者的综合指南涵盖了 AI 开发的全流程，包括数据整理、合成数据生成及模型评估。

Cosmos 支持的应用场景极为丰富。NVIDIA 的最新案例包括：

LidarGen，为辅助驾驶仿真生成激光雷达数据的世界模型。

Omniverse NuRec Fixer，一款面向辅助驾驶与机器人仿真的模型，可依托NVIDIA CosmosPredict，近乎即时的修复神经重建数据中的瑕疵，如新视角或噪声数据导致的模糊与区域缺失问题。

Cosmos Policy，将大型预训练视频模型转化为稳健机器人策略的框架——该策略可指导机器人行为的一系列规则。

ProtoMotions3，基于 NVIDIA Newton 和 Isaac Lab 构建的开源 GPU 加速框架，用于训练物理仿真的数字人与人形机器人，其逼真场景由Cosmos 世界基础模型 (WFM)生成。

此为基于 Cosmos 构建的 LidarGen 模型输出示例。上方图片展示了叠加生成激光雷达数据的输入数据。中间图像呈现了生成与真实激光雷达距离图对比。左下角为真实激光雷达点云，右下角则展示了由 LidarGen 生成的点云。

策略模型可在 NVIDIA Isaac Lab 和 Isaac Sim 中进行训练，随后可利用策略模型生成的数据对适用于机器人的 NVIDIA GR00T N 系列模型进行后训练。

在 Isaac Sim 中使用 ProtoMotions3 训练的人形机器人策略，其 3D 背景场景由 Lyra 基于 Cosmos 世界基础模型生成。

NVIDIA 生态合作伙伴正利用 Cosmos 世界基础模型开发其最新技术。

辅助驾驶开发商Voxel51正为 Cosmos Cookbook 贡献模型实施方案。物理 AI 开发商1X、Figure AI、Foretellix、Gatik、Oxa、PlusAI 和X-Humanoid均在其最新物理 AI 应用中采用世界基础模型技术。苏黎世联邦理工学院的研究团队将在NeurIPS会议上发表论文，重点展示如何利用 Cosmos 模型创建逼真且连贯的 3D 场景。

NVIDIA Nemotron 新功能扩充数字 AI 开发工具集

NVIDIA 同步发布了全新的多说话人语音 AI模型、一款具备推理能力的新模型，以及用于 AI 安全的数据集，并推出可生成高质量合成数据集的开源工具，以支持强化学习和特定领域模型定制。这些工具包括：

MultiTalker Parakeet：一款面向流媒体音频的多说话人自动语音识别模型，即使在对话重叠或语速较快的对话中，也能准确识别不同说话人的内容。

Sortformer：一款先进的实时多说话人分割模型，能够在音频流精准识别不同说话者的语音片段 (该过程称为声纹分割)。

Nemotron 内容安全推理模型：一个基于逻辑推理的 AI 安全模型，能够跨领域动态执行定制化策略。

Nemotron 内容安全音频数据集：一个合成数据集，可用于训练模型以识别不安全音频内容，从而助力开发能同时适用于文本和音频的跨模态护栏。

NeMo Gym：一个用于加速和简化大语言模型训练中强化学习环境开发的开源库。该库还提供了不断丰富的即用型训练环境集合，以支持基于可验证奖励的强化学习 (RLVR) 训练方法。

NeMo 数据设计库：该库现已基于 Apache 2.0 协议开源，提供了一套端到端工具集，用于生成、验证并优化生成式 AI 开发所需的高质量合成数据集，还涵盖领域特定模型定制与评估功能。

采用 NVIDIA Nemotron 和 NeMo 工具构建安全、专业化的代理式 AI 的 NVIDIA 生态系统合作伙伴包括 CrowdStrike、Palantir 和 ServiceNow。

NVIDIA 研究中心推动语言 AI 创新

在 NeurIPS 大会上发布了数十篇 NVIDIA 研究论文，以下几篇是推进语言模型发展的重点研究成果：

Audio Flamingo 3：通过完全开源的大型音频语言模型推动音频智能发展：该大型音频语言模型具备跨语音、声音与音乐的推理能力，可理解并推理长达 10 分钟的音频片段，在超过 20 项基准测试中取得了业界领先的性能表现 (SOTA)。

Minitron-SSM：通过分组感知 SSM 剪枝实现高效混合语言模型压缩：该研究提出一种可压缩混合模型的新剪枝方法，通过对 Nemotron-H 8B 模型进行剪枝与蒸馏，将其参数从 80 亿压缩至 40 亿。所得模型在精度上超越同规模模型，同时实现推理吞吐量两倍提升。

Jet-Nemotron：基于后神经架构搜索 (Post Neural Architecture Search, PostNAS) 的高效语言模型：该研究提出了一种高性价比的后训练流程，用于开发新型高效语言模型架构，并介绍了通过该流程生成的混合架构模型系列。该系列模型在精度上达到或超越了目前领先的全注意力基线模型的同时，显著提升生成吞吐量。

Nemotron-Flash：面向延迟优化的混合小语言模型：该项目提出一种全新小语言模型 (SLM) 架构，其设计核心从参数数量转向真实场景的延迟优化，最终在速度与精度方面均达到业界领先水平。

ProRL：延长强化学习拓展大语言模型的推理边界：延长强化学习 (ProRL) 是一种通过延长模型训练周期提升性能的技术。在这篇NeurIPS论文中，NVIDIA 研究人员阐述了该方法如何使模型在推理能力上持续超越基础模型。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉