英伟达推出基石世界模型Cosmos,解决智驾与机器人具身智能训练数据问题-电子发烧友网

CES 2025展会上，英伟达推出了基石世界模型Cosmos，World Foundation Model基石世界模型，简称WFM。

物理 AI 模型的开发成本很高并且需要大量真实数据和测试。Cosmos 世界基础模型（WFM）使开发者能够轻松生成大量基于物理学的逼真合成数据，以用于训练和评估其现有的模型。开发者还可以通过微调 Cosmos WFM 构建自定义模型。

为加速机器人和自动驾驶汽车行业的工作，Cosmos 模型将以开放模型许可证的方式提供。开发者可以在 NVIDIA API 目录中预览首批模型，也可以从 NVIDIA NGC 目录或 Hugging Face下载整个系列的模型和微调框架。

Cosmos 的首批用户包括 1X、Agile Robots、Agility、Figure AI、Foretellix、Fourier、Galbot、Hillbot、IntBot、Neura Robotics、Skild AI、Virtual Incision、Waabi 和小鹏汽车等领先机器人和汽车公司以及共享出行巨头 Uber。

Cosmos主要功能，生成虚拟世界状态：Cosmos能根据文本、图像或视频的提示生成高度仿真的虚拟世界状态，适用于自动驾驶和机器人应用。

生成式模型：平台基于生成式模型快速生成与真实世界场景相似的数据，帮助开发者训练和评估现有的AI模型。

高级标记器和数据处理：Cosmos集成了高级标记器和加速视频处理管道，生成的数据在后续的模型训练中发挥更大的作用。

安全与合规：平台还提供了安全防护机制，确保数据的安全与合规。

开放模型许可：Cosmos将以开放模型许可的形式在Hugging Face和NVIDIA NGC目录中提供，支持开发者进行定制化应用。

Cosmos的技术原理

生成式世界基础模型（WFM）：Cosmos使用先进的生成式模型技术，模型包括扩散模型和自回归Transformer模型，能生成与真实世界高度一致的场景。

驾驶环境模拟：Cosmos能生成各种天气和路况条件下的合成数据，为自动驾驶系统的训练提供丰富的场景。

策略模型优化：通过生成大量逼真的驾驶场景，Cosmos可以帮助自动驾驶系统在模拟环境中进行强化学习，优化决策策略模型，测试在不同场景下的性能。

复杂环境适应性训练：Cosmos可以为机器人提供复杂环境的实时模拟，使其感知系统通过合成数据进行训练。

导航与任务执行：基于Cosmos生成的虚拟世界状态，机器人可以更好地理解和适应周围环境，实现更精准的导航和任务执行。

逼真场景生成：Cosmos能生成高度仿真的虚拟世界状态，适用于虚拟现实游戏和仿真训练。例如，开发者可以使用Omniverse创建三维场景，然后通过Cosmos将其转换为逼真的场景，使机器人在模拟环境中进行训练。

工业数字孪生：结合NVIDIA的Omniverse和Cosmos，可以创建工业数字孪生环境，用于工厂和仓库的模拟、测试和优化。这使得在复杂生产设施和配送中心网络中，能更好地进行手动设计、操作和优化。

Cosmos的应用案例

Uber自动驾驶开发：Uber作为首批采用Cosmos的公司之一，基于生成式AI能力，加速了安全、可扩展的自动驾驶解决方案的进程。为Uber的自动驾驶系统提供了丰富的合成数据，帮助其在不同驾驶场景下进行模型训练和优化，提升自动驾驶技术的安全性和可靠性。

小鹏汽车模拟训练：小鹏汽车也采用了Cosmos平台，通过生成各种天气和路况条件下的合成驾驶数据，对自动驾驶算法进行模拟训练。例如，在模拟雨、雪、雾、霾等恶劣天气下，以及城市道路、高速公路等不同路况的场景中，自动驾驶系统可以学习如何更好地感知环境、做出决策和执行操作，提高算法在真实街景中的表现。

1X机器人动态规划：1X公司用Cosmos的仿真引擎，为机器人提供了高保真的力学、运动学和动态交互建模能力。通过闭环模拟，1X机器人可以在虚拟环境中进行动态规划与环境适应性优化，在实际应用场景中实现更精准的导航和任务执行。

Waabi是一家从自动驾驶汽车开始致力于开发物理世界生成式 AI 的先驱。该公司正在评估 Cosmos 在自动驾驶汽车软件开发和仿真中数据整理的应用。

Wayve是一家致力于开发自动驾驶 AI 基础模型的公司。该公司正在评估使用 Cosmos 搜索用于提高安全性和验证的极端驾驶场景。

自动驾驶汽车工具链提供商Foretellix将使用 Cosmos 与 NVIDIA Omniverse Sensor RTX API大规模评估和生成高保真测试场景与训练数据。

我们来具体看一下Cosmos，英伟达搜集了2000万小时的视频，这些视频数据筛选或者说编审（curation）管线借助许多经过预训练的图像/视频理解模型，从中抽出1亿个2-60秒的片段，每个片段使用VLM视觉语言模型，每256帧提供一个视觉解说（caption），英伟达采用自回归即transformer和扩散diffusion两种模式来生成尽可能多的可用于训练的视频。英伟达使用一万张H100显卡，用时三个月，训练出了Cosmos，当然这个模型会一直升级，英伟达的运算资源自然是不成问题的。

英伟达打造了一种Ray-based orchestration的管线，用于端到端特别是强化学习训练中。

强化学习训练

图片来源：论文《Ray: A Distributed Framework for Emerging AI Applications》

Ray架构

图片来源：论文《Ray: A Distributed Framework for Emerging AI Applications》

Cosmos实例

图片来源：英伟达

预训练的Cosmos WFM生成高质量的3D视频并且包含正确的物理世界分布与反应。使用连续和分离潜在表示（latent representation）来训练视频。

图片来源：英伟达

WFM是基石，再根据下游具体应用做出对应的定制数据集，再进行训练。

华为DriveGPT4

图片来源：华为DriveGPT4论文

这和自动驾驶领域将LLM微调一样，华为使用的是META开源的LLaMA 2，使用BDD-X和ChatGPT做指令微调。这些指令实际就是prompt，它包括动作命令、轨迹规划和具体指令。这些prompt需要从现实物理世界中搜集，并做一一对应。

Cosmos构成

图片来源：英伟达

Cosmos视频筛选步骤

图片来源：英伟达

上面是Cosmos视频类型构成，驾驶类占了11%，手动作和物体操纵占16%，人类动作和活动占10%，空间认知和导航占16%，第一人称视角占8%，自然动态占20%。由此看出，Cosmos主要还是面向机器人和具身智能的。

Cosmos的Tokenizer

图片来源：英伟达

Cosmos的Tokenizer可以对应各种类型的输入。

Cosmos扩散WFM模型1.0版架构

图片来源：英伟达

Cosmos扩散WFM模型1.0版架构，tokenizer分的很细，且是3D的，国内受限于计算资源，都尽量减少token数量，这会导致准确率下降。英伟达自然是丝毫不在意计算资源的。

Cosmos生成多个视角视频

Text-conditioned samples generated by Cosmos-1.0-Diﬀusion-7B-Text2World-SampleMultiView, extended to 8 seconds by Cosmos-1.0-Diﬀusion-7B-Video2World-Sample-MultiView.

图片来源：英伟达

多视角视频目前国内已知的只有华为的MagicDriveDiT。

Trajectory-conditioned generated samples from Cosmos-1.0-Diﬀusion-7B-Text2World-SampleMultiView-TrajectoryCond.，给定轨迹，生成需要的视频，同样是多视角的，图片只显示了前摄像头视角。

图片来源：英伟达

轨迹误差即TFE的单位是厘米，与真实即groundtruth的误差小于7厘米。

图片来源：英伟达

视频生成质量指标主要是FID和FVD，FID（Fréchet Inception Distance）是一种用于评估生成模型，尤其是在图像生成任务中，生成图像的质量和多样性的指标。它通过比较生成图像与真实图像在特定空间内的分布来工作。这个特定的空间通常是通过预训练的Inception网络的某一层来定义的。对于生成图像集和真实图像集，分别通过Inception网络（通常是Inception V3模型）计算它们的特征表示。这一步骤会得到每个图像集的特征向量。计算每个集合的特征向量的均值和协方差矩阵，并做对比。FVD和FID接近，相当于把FID的图像特征提取网络换成视频特征提取网络，其他都差不多。