0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

解读NVIDIA Cosmos世界基础模型的最新功能

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-08-22 16:03 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人形机器人和智能汽车等新一代 AI 机器人依赖于高保真、物理感知的训练数据。如果没有多样化且具有代表性的数据集,这些系统将无法获得适当的训练,并且由于泛化性差、对现实世界变化的影响有限以及边缘案例中的行为不可预测,因此会面临测试风险。而收集大量真实数据集进行训练成本高昂、耗时费力,而且往往受限于各种可能性。

NVIDIA Cosmos 通过加速世界基础模型 (WFM) 开发来应对这一挑战。Cosmos WFM 是其平台的核心,可加快合成数据的生成,并作为后训练的基础,以开发下游领域或特定任务的物理 AI 模型来解决这些挑战。本文将探讨最新的 Cosmos WFM、其推进物理 AI 的关键功能,以及如何使用它们。

Cosmos Transfer 用于基于物理学的逼真视频

Cosmos Transfer WFM 根据结构化输入生成高保真世界场景,确保精确的空间对齐和场景构成。

通过采用 ControlNet 架构,Cosmos Transfer 可保留预训练知识,从而实现结构化、一致的输出。它利用时空控制图来动态对齐合成和真实世界的表示,从而实现对场景构图、物体放置和运动动态的精细控制。

输入:

结构化视觉或几何数据:分割图、深度图、边缘图、人体运动关键点、LiDAR 扫描、轨迹、HD 地图和 3D 边界框。

真值标注:用于精确对齐的高保真引用。

输出:具有受控布局、物体放置和运动的逼真视频序列。

主要功能:

生成与真实物理特性相符的可扩展、逼真的合成数据,例如使用 NVIDIA GPU 和 PyTorch 等技术。

通过结构化的多模态输入控制对象交互和场景构图。

使用 Cosmos Transfer 获取可控的合成数据

借助生成式 AI 的 APISDK, NVIDIA Omniverse 可加速物理 AI 仿真开发者使用基于 OpenUSD 构建的 NVIDIA Omniverse 创建 3D 场景,以准确模拟现实世界环境,从而训练和测试机器人和智能汽车。这些仿真可作为 Cosmos Transfer 的真值视频输入,并与标注和文本指令相结合。Cosmos Transfer 可在改变环境、照明和视觉条件的同时增强逼真度,从而生成可扩展的多样化世界状态。

此工作流可加速高质量训练数据集的创建,确保 AI 智能体从仿真有效推广到实际部署。

f367155a-7e7e-11f0-a18e-92fbcf53809c.png

图 . NVIDIA Omniverse 中的生成式 API 和 SDK 为 Cosmos Transfer 的真值模拟提供支持

Cosmos Transfer 通过在用于合成操作运动生成的 Isaac GR00T Blueprint 和用于智能汽车仿真的 Omniverse Blueprint 中实现逼真的照明、色彩和纹理来增强机器人开发,从而为训练提供不同的环境和天气条件。这种逼真的数据对于后训练的策略模型至关重要,可确保将仿真平稳地迁移到现实,并支持感知 AI 和 GR00T N1 等专用机器人模型的模型训练。

使用 Cosmos Transfer 运行推理

以下是使用 Cosmos-Transfer1-7B 模型进行推理的一些示例命令。

Cosmos Transfer 已根据 NVIDIA Open Model License 在 Hugging Face 上公开可用。生成 Hugging Face 访问令牌,使用 CLI 登录,接受 LlamaGuard-7b 条款,并按照 Cosmos-Transfer1 GitHub 说明操作。

以下命令可下载 Cosmos-Transfer1 的基础模型、tokenizer 和 guardrail 模型:

PYTHONPATH=$(pwd) python scripts/download_checkpoints.py --output_dir checkpoints/

使用以下命令运行模型。您可以使用 JSON 文件自定义设置,单独或组合启用模糊、Canny、深度或分割 ControlNets 等功能。

export CUDA_VISIBLE_DEVICES=0
PYTHONPATH=$(pwd) python cosmos_transfer1/diffusion/inference/transfer.py 
 --checkpoint_dir checkpoints 
 --input_video_path path/to/input_video.mp4 
 --video_save_name output_video 
 --sigma_max 70 
 --controlnet_specs spec.json

Cosmos WFM 可以后训练为 VLA 策略模型,其中视频输出被机器人执行的动作输出所取代。对于上下文,策略模型根据当前观察结果和给定任务生成物理 AI 系统要执行的操作。经过良好训练的 WFM 可以对世界的这种动态模式进行建模,并作为策略模型的良好初始化。

在 GitHub 上详细了解 Cosmos Transfer 示例。

Cosmos Predict 生成未来世界状态

Cosmos Predict WFM 旨在将未来世界状态建模为来自多模态输入(包括文本、视频和开始端帧序列)的视频。它使用基于 Transformer 的架构构建,可增强时间一致性和帧插值。

主要功能:

直接根据文本提示生成逼真的世界状态。

通过预测缺失帧或扩展运动,根据视频序列预测后续状态。

在开始和结束图像之间生成多帧,创建完整、流畅的序列。

Cosmos Predict WFM 为训练机器人和智能汽车的下游世界模型奠定了坚实的基础。您可以对这些模型进行后期训练 ,以生成用于策略建模的动作而不是视频,也可以对其进行调整以实现视觉语言理解,从而创建自定义感知 AI 模型。

Cosmos 以智能方式进行

感知、推理和响应的推理

Cosmos Reason 是一个完全可定制的多模态 AI 推理模型,专为理解运动、物体交互和时空关系而构建。该模型使用 chain-of-thought (CoT) 推理来解释视觉输入,根据给定的提示预测结果,并奖励最佳决策。与基于文本的 LLM 不同,它为现实世界的物理推理奠定了基础,以自然语言生成清晰的上下文感知响应。

输入:视频观察和基于文本的查询或指令。

输出:通过长视距 CoT 推理生成的文本响应。

主要功能:

了解物体如何随时间移动、交互和变化。

根据输入观察结果预测并奖励下一个最佳动作。

不断完善决策制定。

专为后期训练而构建,旨在构建感知 AI 和具身 AI 模型。

训练管线

Cosmos Reason 分为三个阶段进行训练,增强其在现实世界场景中推理、预测和响应决策的能力。

预训练:使用视觉 Transformer(ViT)将视频帧处理为结构化嵌入,并将其与文本对齐,以共享对物体、动作和空间关系的理解。

监督式微调 (SFT) :使模型在两个关键级别上专门进行物理推理。常规微调可使用多样化的视频文本数据集增强语言基础和多模态感知,而对物理 AI 数据进行更多训练可提高模型推理现实世界交互的能力。它可以学习物体的行为,例如如何在现实世界中使用物体、动作序列、确定多步骤任务的展开方式,以及空间可行性,以区分现实和不可能的放置。

fe218070-7e7e-11f0-a18e-92fbcf53809c.png

图 . 强化学习反馈回路通过正反馈和模型调整不断改进

强化学习 (RL) :该模型会评估不同的推理路径,并仅在通过试验和奖励反馈做出更好的决策时自我更新。它不依赖人工标记的数据,而是使用基于规则的奖励:

实体识别:奖励准确识别对象及其属性的行为。

空间限制:惩罚物理上不可能进行的放置,同时强化逼真的物体定位。

时间推理:鼓励根据因果关系进行正确的序列预测。

开始使用

Cosmos WFM 在Hugging Face 上提供,并在 GitHub 上为 Cosmos-Predict1 和 Cosmos-Transfer1 提供了推理脚本。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    30579

    浏览量

    219439
  • NVIDIA
    +关注

    关注

    14

    文章

    5496

    浏览量

    109050
  • AI
    AI
    +关注

    关注

    89

    文章

    38085

    浏览量

    296328

原文标题:使用 NVIDIA Cosmos 世界基础模型扩展合成数据和物理 AI 推理

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    英伟达Cosmos-Reason1 模型深度解读

    。以下从技术架构、训练策略、核心能力及行业影响四方面展开深度解读Cosmos-Reason 1:从物理 AI 常识到具体决策 物理 AI 系统需要感知、理解和执行物理世界中的复杂作。在本文中,我们提出了
    的头像 发表于 03-29 23:29 2613次阅读

    NVIDIA Cosmos世界基础模型平台发布

    NVIDIA 宣布推出NVIDIA Cosmos,该平台由先进的生成式世界基础模型、高级 tokenizer、护栏和加速视频处理管线组成,将
    的头像 发表于 01-08 10:39 1027次阅读

    NVIDIA发布Cosmos™平台,助力物理AI系统发展

    NVIDIA近日宣布推出全新的NVIDIA Cosmos™平台,该平台专为自动驾驶汽车(AV)和机器人等物理AI系统而设计,旨在推动这些领域的快速发展。 Cosmos平台融合了先进的生
    的头像 发表于 01-08 15:36 895次阅读

    英伟达发布Cosmos世界基础模型

    近日,在2025年1月6日于拉斯维加斯拉开帷幕的国际消费类电子产品展览会(CES)上,英伟达宣布了一项重大创新——Cosmos世界基础模型平台。该平台集成了先进的生成世界基础
    的头像 发表于 01-09 10:23 939次阅读

    NVIDIA发布Cosmos平台,加速物理AI开发

    NVIDIA近日宣布了一项重大创新——推出NVIDIA Cosmos™平台。该平台集成了先进的生成式世界基础模型、高级tokenizer、护
    的头像 发表于 01-13 11:06 1051次阅读

    英伟达推出基石世界模型Cosmos,解决智驾与机器人具身智能训练数据问题

    CES 2025展会上,英伟达推出了基石世界模型Cosmos,World Foundation Model基石世界模型,简称WFM。 物理
    的头像 发表于 01-14 11:04 2087次阅读
    英伟达推出基石<b class='flag-5'>世界</b><b class='flag-5'>模型</b><b class='flag-5'>Cosmos</b>,解决智驾与机器人具身智能训练数据问题

    NVIDIA Cosmos世界基础模型平台的主要功能

    随着机器人技术和自动驾驶汽车的发展,加快物理 AI 的开发工作变得至关重要。物理 AI 使自主机器能够感知、理解并执行物理世界中的复杂操作,而这些系统的核心是世界基础模型(WFM)。这种 AI
    的头像 发表于 01-15 11:03 1450次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b><b class='flag-5'>世界</b>基础<b class='flag-5'>模型</b>平台的主要<b class='flag-5'>功能</b>

    英伟达GTC2025亮点 NVIDIA推出Cosmos世界基础模型和物理AI数据工具的重大更新

    、Figure AI、Skild AI 是最早采用该技术的公司。 NVIDIA 宣布推出全新 NVIDIA Cosmos 世界基础模型 (W
    的头像 发表于 03-20 19:01 1174次阅读

    NVIDIA Cosmos加速机器人和自动驾驶汽车物理AI发展

    NVIDIA Cosmos 通过可预测未来世界状态的世界基础模型加速物理 AI 的发展。
    的头像 发表于 04-24 11:01 935次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b>加速机器人和自动驾驶汽车物理AI发展

    NVIDIA GTC巴黎亮点:全新Cosmos Predict-2世界基础模型与CARLA集成加速智能汽车训练

    。这种向使用大模型的过渡大大增加了对用于训练、测试和验证的高质量、基于物理学传感器数据的需求。 为加速下一代辅助驾驶架构的开发,NVIDIA 发布了 NVIDIA Cosmos Pre
    的头像 发表于 06-12 10:00 927次阅读

    如何本地部署NVIDIA Cosmos Reason-1-7B模型

    近日,NVIDIA 开源其物理 AI 平台 NVIDIA Cosmos 中的关键模型——NVIDIA C
    的头像 发表于 07-09 10:17 556次阅读

    通过NVIDIA Cosmos模型增强机器人学习

    扩展。基于 NVIDIA Cosmos 构建的 NVIDIA Isaac GR00T-Dreams blueprint,可以通过单张图像和语言提示生成海量的合成轨迹数据,能够有效解决这一难题。
    的头像 发表于 07-14 11:49 751次阅读
    通过<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b><b class='flag-5'>模型</b>增强机器人学习

    利用NVIDIA Cosmos模型训练通用机器人

    机器人领域的一大核心挑战在于如何让机器人掌握新任务,而无需针对每个新任务和环境耗费大量精力收集和标注数据集。NVIDIA 的最新研究方案通过生成式 AI、世界基础模型(如 NVIDIA
    的头像 发表于 08-05 16:22 1727次阅读
    利用<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b><b class='flag-5'>模型</b>训练通用机器人

    NVIDIA通过全新 Omniverse库、Cosmos物理AI模型及AI计算基础设施,为机器人领域开启新篇章

    Gaussian Splatting(3DGS)库支持大规模世界重建 · 全新 NVIDIA Cosmos 模型支持世界生成与空间推理 ·
    的头像 发表于 08-12 11:29 1356次阅读
    <b class='flag-5'>NVIDIA</b>通过全新 Omniverse库、<b class='flag-5'>Cosmos</b>物理AI<b class='flag-5'>模型</b>及AI计算基础设施,为机器人领域开启新篇章

    利用NVIDIA Cosmos开放世界基础模型加速物理AI开发

    NVIDIA 最近发布了 NVIDIA Cosmos 开放世界基础模型(WFM)的更新,旨在加速物理 AI
    的头像 发表于 12-01 09:25 466次阅读