0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何利用NVIDIA Cosmos Cookbook提升机器人操作能力

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-12-31 16:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

机器人操控系统在进入动态现实环境时,难以应对持续变化的物体、光照条件及接触动力学。此外,仿真与现实之间的差距,以及未经过优化的抓手或工具,通常限制了机器人在多样化任务中的泛化能力、长视距任务的执行能力,以及实现类人灵巧操作的可靠性。

本期 NVIDIA 机器人研发摘要 (R²D²) 探讨了提升机器人操作技能的新方法。在本博客中,我们将介绍三项研究工作:利用推理大语言模型、仿真与现实协同训练,以及视觉语言模型来设计操作工具。

ThinkAct:通过增强视觉潜在规划实现视觉语言动作推理

用于仿真与现实策略联合训练的通用域自适应方法

RobotSmith:面向复杂操作技能获取的生成式机器人工具设计

我们还将介绍如何利用 Cosmos Cookbook 中的数据增强及其他方法来提升机器人操作性能。该指南是一项开源资源,汇集了 NVIDIA Cosmos 在机器人与自动驾驶领域中的实际应用案例。

借助 ThinkAct 提升机器人推理与动作执行能力

在机器人开发中,视觉语言动作(VLA)模型能够根据视觉信息和自然语言等多模态指令生成相应的机器人动作。一个高效的 VLA 模型应具备理解并执行动态环境中复杂多步骤操作的能力。然而,当前的机器人操作方法通常采用端到端的方式训练 VLA,无需显式的推理过程。这种方式使得模型在规划长距离任务时面临挑战,也难以灵活适应多样化的任务和环境。

ThinkAct 通过在双系统框架中整合高级推理与低层动作执行,以缩小这一差距。该“先思考后行动”的框架由强化的视觉潜在规划实现。

首先,多模态大语言模型(MLLM)经过训练,能够生成供机器人遵循的推理计划。这些计划通过强化学习生成,其中视觉奖励机制促使 MLLM 制定出符合物理规律的执行路径,以实现目标任务。为此,ThinkAct 利用人类与机器人操作的视频数据,实现基于视觉观察的推理。这种训练方式确保了机器人所生成的规划不仅在理论上合理,还能根据实际视觉反馈在物理环境中切实可行。这一过程构成了“思考”部分。

现在进入“行动”部分。推理过程中的中间步骤被压缩为一条紧凑的潜在轨迹。该表征包含计划中的核心意图与上下文信息。随后,潜在轨迹引导一个独立的动作模型,使机器人能够在不同环境中执行相应动作。通过这种方式,高层推理得以指导并优化现实场景中的底层机器人行为。

wKgZO2lU2f-Ab7ZnAAo3JK05zTY533.png

图 1。ThinkAct 概述。

ThinkAct 已通过机器人操作和具身推理基准测试。在具身 AI 任务中,它成功实现了少样本部署、长视距操作以及自校正功能。

图 2。长视野操作任务的可视化展示。

wKgZO2lU2j2AK7LNAAk7KqWg64s363.png

使用 Sim-and-Real 策略进行联合训练

训练机器人执行操作任务需要在不同任务、环境和对象配置之间收集数据。一种常用的方法是行为克隆,即在现实世界中采集专家演示。理论上,这种方法具有可行性,但实际应用中成本较高,难以大规模扩展。现实世界的数据采集依赖人工操作员手动提供演示或监控机器人运行,过程耗时且受限于机器人硬件的可用性。

一种解决方案是在仿真环境中收集演示,这种方式能够实现自动化和并行化,从而高效便捷地获取大量数据。然而,在模拟数据上训练的策略往往难以有效迁移到现实场景中,其根本原因在于仿真与现实之间存在差距:仿真系统无法完全复现真实世界中物理特性、动力学行为、噪声干扰以及反馈机制的复杂性。

仿真和现实策略协同训练通过结合仿真环境与少量真实世界演示,学习通用的操作策略,从而弥合仿真与现实之间的差距。该方法构建了一个统一的仿真与现实协同训练框架,旨在学习一个共享的潜在空间,使仿真观察结果与真实世界数据实现对齐。该框架基于仿真与现实协同训练的相关研究,并采用了更具表达能力的表示空间。这种表示方式不仅提升了对齐效果,还能够捕捉与动作相关的信息。其核心思想是使观察结果与其对应的动作保持一致,从而使策略能够在仿真和真实环境中均有效运行。

这些表征是通过一种称为最优传输 (OT) 的技术来学习的。OT 能帮助策略识别仿真与真实世界数据中的相似模式,确保无论输入来自模拟还是真实环境,用于选择操作的关键信息保持一致。由于模拟数据通常远多于真实数据,因此可通过扩展至非平衡 OT (UOT) 框架来应对这种数据不均衡问题。UOT 采用特定的采样方法,即使在数据集规模差异较大的情况下,也能使训练过程更加高效。

wKgZPGlU2kuAVJy_AAjZfSLV5vA825.png

图 3。基于 OT 的仿真与现实策略协同训练概述。

使用此框架训练的策略能够成功泛化至现实场景,即使这些场景仅在训练数据的模拟部分中出现。在提升、堆叠立方体以及将箱子放入垃圾桶等机器人操作任务中,对该方法的仿真到仿真及仿真到现实的迁移能力进行了评估。

wKgZPGlU2myAWgpmAAoCeqQ8rOU985.png

图 4。通过仿真与现实协同训练,该策略仅需最多 25 次演示即可学习长视野任务,例如将物体分类到封闭的抽屉中。

使用 RobotSmith 改进机器人工具设计

多数机器人操作任务涉及使用不同的工具和物体。使用工具是机器人与环境交互并执行复杂操作的关键功能。然而,为人类设计的工具因具有多样且复杂的外形尺寸,导致机器人难以有效操作。当前的机器人工具设计方法通常依赖不可定制的预定义模板,或采用未针对此目的优化的3D生成技术。

RobotSmith 通过提供一种利用视觉语言模型(VLM)的自动工具设计框架来应对这一挑战。VLM 擅长推理 3D 空间与物理交互,同时能够理解在包含不同对象的环境中机器人可执行的动作。这些关键能力使其在高效的工具设计中发挥重要作用。

RobotSmith 将视觉语言模型(VLM)中的先验知识与仿真环境中的联合优化过程相结合,以生成面向特定任务的工具。其三大核心组件为:

Critic Tool Designer:两个 VLM 智能体协作生成候选工具几何图形。

工具使用规划器:依据设计的工具与场景生成操作轨迹,并在模拟中执行和评估候选轨迹及抓取效果。

“Joint Optimizer” (联合优化器):在仿真中联合微调工具几何图形与轨迹参数,以尽可能提升性能。此过程对剔除可能导致任务失败的次优工具与轨迹组合至关重要。

RobotSmith 以这种方式为推送、扫描或封闭等任务生成不同的工具设计方案。

wKgZO2lU2n2AC3AeAAmLhSmO_B4390.png

图 5。RobotSmith 迭代工具设计,确定高效的设计,并利用所设计的工具生成轨迹,以完成用户任务。

在仿真环境和现实世界任务中对 RobotSmith 进行了评估,完整的实验与结果详见论文。制作煎饼作为一项实际测试任务,框架针对每个步骤(例如压平和抹面)设计并使用了不同的工具,表明该框架能够成功执行长距离任务。

wKgZPGlU2oyAKvpkAAgrBBZ2YJQ015.png

图 6。RobotSmith 设计并使用针对长视野操作场景中各子任务优化的专用工具。

通过 NVIDIA Cosmos Cookbook 缩小仿真与现实之间的差距

在本博客前面,我们探讨了仿真与现实之间的差距,并介绍了如何利用合成数据训练机器人策略。逼真且多样化的合成数据集能够生成可靠的策略,使其更好地适应现实世界。NVIDIA Cosmos 开放世界基础模型(WFM),特别是其中的 Cosmos Transfer,能够通过单次模拟生成逼真且多样化数据,从而扩展合成数据集。完整的流程可在Robotics Domain Adaption Gallery(机器人领域自适应图库)的示例中找到。

除了此工作流之外,NVIDIA Cosmos Cookbook 还提供了分步指导和后训练脚本,帮助快速构建、定制和部署适用于机器人、自主系统及代理式系统的 Cosmos WFM。内容深入探讨了以下示例与概念:

快速启动推理示例以实现快速部署与运行。

高级后训练工作流程,支持特定领域的精细微调。

经过验证的可扩展、生产就绪的部署方案。

涵盖基础主题、核心技术、架构模式及工具文档的核心概念。

Cosmos Cookbook 是物理 AI 社区分享 Cosmos WFM 实践知识的资源平台。我们欢迎各方通过 GitHub 贡献内容,包括工作流、方法、优秀实践以及针对特定领域的调整方案。

入门指南

在本博客中,我们探讨了提升机器人操作能力的新工作流程。我们展示了 ThinkAct 如何通过“先思考后行动”的框架,对机器人动作进行推理与执行。接着,我们讨论了如何在通用操作策略的训练中结合使用模拟与真实数据。我们还分享了 RobotSmith 如何生成机器人工具设计,以优化完成复杂任务时的工具使用效率。最后,我们介绍了 Cosmos Cookbook 如何借助 Cosmos 模型,为物理 AI项目提供示例和共享空间。

查看以下资源,深入了解本博客中讨论的工作:

ThinkAct:论文、项目网站

针对仿真与现实策略联合训练的通用领域适应性:论文、项目网站

RobotSmith:论文、项目网站

Cosmos Cookbook:网站、GitHub

NVIDIA 研究团队在 NeurIPS 2025 上发表了多篇论文,涵盖 ThinkAct、Generalizable Domain Adaptation 和 RobotSmith 等研究方向。

本文是 NVIDIA 机器人研发摘要 (R2D2) 的一部分,旨在帮助开发者深入了解 NVIDIA Research 在物理 AI 与机器人应用领域的最新突破。

关于作者

Asawaree Bhide 是 NVIDIA 的 AI 嵌入式工程实习生,致力于优化和部署边缘设备上的深度学习模型。她目前正在乔治亚理工学院攻读计算机科学硕士学位,她对解决由具体代理自主导航的复杂感知任务感兴趣。Tomasz Lewicki 是 NVIDIA 的嵌入式工程实习生。他拥有圣何塞州立大学计算机工程硕士学位,华沙工业大学华沙工业大学机器人工程学学士学位。他的兴趣集中在计算机视觉和机器人应用的深度学习上。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    214

    文章

    31633

    浏览量

    224473
  • NVIDIA
    +关注

    关注

    14

    文章

    5725

    浏览量

    110284
  • 仿真
    +关注

    关注

    55

    文章

    4567

    浏览量

    138813

原文标题:R²D²:结合仿真与语言模型提升机器人操作能力

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    借助NVIDIA技术提升机器人的移动和全身控制能力

    我们通过在自身平台上经过验证的先进研究来应对这些挑战。我们的方法将前沿研究与工程工作流相结合,并在我们的 AI 和机器人平台(包括 NVIDIA Omniverse、Cosmos、Isaac Sim
    的头像 发表于 04-27 15:14 1691次阅读
    借助<b class='flag-5'>NVIDIA</b>技术<b class='flag-5'>提升机器人</b>的移动和全身控制<b class='flag-5'>能力</b>

    如何在NVIDIA Jetson Thor上提升机器人感知效率

    构建自主机器人需要具备可靠且低延迟的视觉感知能力,以实现在动态环境中的深度估计、障碍物识别、定位与导航。这些功能对计算性能有较高要求。NVIDIA Jetson 平台虽为深度学习提供了强大的 GPU
    的头像 发表于 12-24 10:14 4728次阅读
    如何在<b class='flag-5'>NVIDIA</b> Jetson Thor上<b class='flag-5'>提升机器人</b>感知效率

    【「具身智能机器人系统」阅读体验】2.具身智能机器人大模型

    近年来,人工智能领域的大模型技术在多个方向上取得了突破性的进展,特别是在机器人控制领域展现出了巨大的潜力。在“具身智能机器人大模型”部分,作者研究并探讨了大模型如何提升机器人能力,大
    发表于 12-29 23:04

    RK3576机器人核心:三屏异显+八路摄像头,重塑机器人交互与感知

    更多"、"互动更流畅"是开发者面临的核心挑战。传统的单一屏幕和有限的视觉输入已成为提升机器人智能化水平的瓶颈。而瑞芯微RK3576高性能处理器的出现
    发表于 10-29 16:41

    机器人视觉——机器人的“眼睛”

    目前产业机器人仅能在严格定义的结构化环境中执行预定指令动作,缺乏对环境的感知与应变能力,这极大地限制了机器人的应用。利用机器人的视觉控制,
    发表于 01-23 15:02

    华南机器人应用培训中心工业机器人培训班招生

    机器人技术有更加深入的认识和了解以及实际操作能力得到较大提高,具备机器人行业公司及相关单位对从业人员的技术条件要求。 3、工业机器人专业人才稀缺,就业优势明显。本专业人才全部依赖
    发表于 09-02 14:03

    NVIDIA Cosmos世界基础模型平台发布

    NVIDIA 宣布推出NVIDIA Cosmos,该平台由先进的生成式世界基础模型、高级 tokenizer、护栏和加速视频处理管线组成,将推动自动驾驶汽车(AV)和机器人等物理 AI
    的头像 发表于 01-08 10:39 1498次阅读

    51Sim利用NVIDIA Cosmos提升辅助驾驶合成数据场景的泛化性

    51Sim 利用 NVIDIA Cosmos 的生成式世界基础模型,对现有的合成数据进行大规模泛化,在确保物理真实性的前提下,大幅提升了数据的丰富度。同时依托
    的头像 发表于 06-26 09:09 1751次阅读

    通过NVIDIA Cosmos模型增强机器人学习

    通用机器人的时代已经到来,这得益于机械电子技术和机器人 AI 基础模型的进步。但目前机器人技术的发展仍面临一个关键挑战:机器人需要大量的训练数据来掌握诸如组装和检查之类的技能,而手动演
    的头像 发表于 07-14 11:49 1407次阅读
    通过<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b>模型增强<b class='flag-5'>机器人</b>学习

    利用NVIDIA Cosmos模型训练通用机器人

    机器人领域的一大核心挑战在于如何让机器人掌握新任务,而无需针对每个新任务和环境耗费大量精力收集和标注数据集。NVIDIA 的最新研究方案通过生成式 AI、世界基础模型(如 NVIDIA
    的头像 发表于 08-05 16:22 2341次阅读
    <b class='flag-5'>利用</b><b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b>模型训练通用<b class='flag-5'>机器人</b>

    NVIDIA通过全新 Omniverse库、Cosmos物理AI模型及AI计算基础设施,为机器人领域开启新篇章

    NVIDIA 通过全新 Omniverse 库、Cosmos 物理 AI 模型及 AI 计算基础设施,为机器人领域开启新篇章   · 全新 NVIDIA Omniverse NuRec
    的头像 发表于 08-12 11:29 2098次阅读
    <b class='flag-5'>NVIDIA</b>通过全新 Omniverse库、<b class='flag-5'>Cosmos</b>物理AI模型及AI计算基础设施,为<b class='flag-5'>机器人</b>领域开启新篇章

    NVIDIA三台计算机解决方案如何协同助力机器人技术

    NVIDIA DGX、基于 NVIDIA RTX PRO 服务器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速从人形机器人
    的头像 发表于 08-27 11:48 2707次阅读

    机器人看点:宇树新专利可提升机器人表演效果 蔚来资本入股具身智能公司原力灵机 美信科技新设机器人

    给大家带来一些机器人相关讯息: 宇树新专利可提升机器人表演效果 据企查查APP信息显示,宇树科技股份有限公司“一种基于数字孪生的机器人运动控制方法和电子设备”专利公布;该新专利可提升机器人
    的头像 发表于 09-01 16:55 2201次阅读

    NVIDIA 利用全新开源模型与仿真库加速机器人研发进程

    科研人员及开发者打造功能更强大、适应性更强的机器人。   全新的 NVIDIA Isaac GR00T 开源基础模型将为机器人赋予接近人类的推理能力,使其能够拆解复杂指令,并借助已有知
    的头像 发表于 09-30 09:52 3270次阅读
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>利用</b>全新开源模型与仿真库加速<b class='flag-5'>机器人</b>研发进程

    基于NVIDIA VLA模型打造通用人形机器人能力

    要让人形机器人真正有用,它们需要具备认知能力和移动操作能力,涵盖感知、规划以及在动态环境中的全身控制。
    的头像 发表于 01-14 09:53 2306次阅读