0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于感知引导的多步骤精细操作任务与运动规划

NVIDIA英伟达企业解决方案 来源:NVIDIA英伟达企业解决方案 2025-11-14 10:18 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

传统的任务与运动规划(TAMP)系统在机器人操作应用中通常依赖静态模型运行,因此在面对新环境时往往表现不佳。将感知与操作相融合,是应对这一挑战的有效途径,使机器人能够在执行过程中实时更新规划,从而适应动态变化的场景。

在本期NVIDIA 机器人研发摘要 (R²D²)中,我们探讨了如何利用基于感知的 TAMP 以及 GPU 加速的 TAMP 实现远程操作。同时,我们将介绍用于提升机器人操作能力的框架,并展示如何结合视觉与语言信息,将像素转化为子目标、任务负载以及可微分的约束条件。

子目标是较小的阶段性目标,能够引导机器人逐步达成最终目标。

Affordance 根据物体或环境的属性及其所处的上下文,描述机器人可在其上执行的动作。例如,手柄可被“抓取”,按钮可被“按压”,杯子可被“倾倒”。

在机器人运动规划中,可微分约束用于确保机器人的运动满足物理限制,如关节角度范围、避障要求或末端执行器的位置精度,同时仍支持通过学习进行调整。由于这些约束具备可微性,GPU 能够在训练或实时规划过程中高效地计算并优化它们。

任务与运动规划如何将视觉与语言信息转化为机器人的具体动作

TAMP 涉及确定机器人应执行的任务以及实现这些任务所需的移动方式,需要将高层任务规划(即执行什么任务)与底层运动规划(即如何移动以完成任务)相结合。

现代机器人能够结合视觉与语言信息(如图像和指令),将复杂任务分解为若干较小的步骤,即子目标。这些子目标有助于机器人明确下一步应执行的动作、需要交互的对象以及如何实现安全移动。

该过程利用高级模型将图像和书面指令转化为机器人可在现实世界中执行的清晰计划。远程操作需要具备结构化意图,且依赖规划人员的有效参与。接下来,我们将探讨 OWL-TAMP、VLM-TAMP 和 NOD-TAMP 如何助力解决这一问题:

OWL-TAMP:该工作流使机器人能够执行以自然语言描述的复杂、长视距操作任务,例如“将橙色物体放到桌子上”。OWL-TAMP 是一种混合式工作流,将视觉语言模型(VLM)与任务与运动规划(TAMP)相结合。其中,VLM 根据开放世界语言(OWL)指令生成约束条件,描述机器人动作空间中的操作要求。这些约束被整合进 TAMP 系统,并通过仿真反馈机制验证其物理可行性和执行正确性。

VLM-TAMP:这是一种面向视觉信息丰富环境的机器人多步骤任务规划工作流。VLM-TAMP 将视觉语言模型与传统 TAMP 框架融合,能够在现实场景中生成并优化高层行动计划。该方法利用 VLM 解析图像内容,并结合任务指令(如“做一锅鸡汤”)生成初步的高级任务规划。随后,通过仿真验证和运动规划进行迭代优化,以确保每一步操作的可行性。在涉及 30 至 50 个连续动作、并操作多达 21 个不同物体的长视距厨房任务中,该混合方法的表现优于纯 VLM 或纯 TAMP 的基准方案。该工作流使机器人能够综合利用视觉与语言上下文信息,有效应对任务描述中的模糊性,从而提升在复杂操作任务中的整体性能。

wKgZO2kWkZiADtASAAQ2Yv4Ml1c035.png

图1展示了VLM-TAMP如何克服单独使用TAMP或仅依赖VLM进行任务与运动规划在解决长视距机器人操作问题时所面临的局限性。

NOD-TAMP: 传统的TAMP框架在处理长视距操作任务时通常难以实现泛化,因其依赖于显式的几何模型和对象表示。NOD-TAMP通过引入神经对象描述符(NOD)来提升对不同对象类型的泛化能力。NOD是一种基于3D激光点云学习得到的表示形式,能够编码物体的空间特征与关系属性。该方法使机器人能够与新对象有效交互,并支持规划器进行动态的操作调整。

cuTAMP 如何利用 GPU 并行化加速机器人规划

经典 TAMP 首先分析任务的动作结构(称为计划骨架),再求解相应的连续变量。第二步通常是系统的计算瓶颈,而cuTAMP显著加速了这一过程。对于cuTAMP中给定的计划骨架,系统会采样数千个初始解(粒子),随后在 GPU 上执行可微分的批量优化,以满足多种约束条件,例如逆运动学、避障、稳定性以及目标函数成本。

如果框架不可行,算法会进行回溯;如果可行,则会生成一个计划。对于受限的打包或堆叠任务,该过程通常在几秒钟内完成,使机器人能够在几秒内找到包装、堆叠或操作多个物体的解决方案,而无需花费几分钟甚至几小时。

“矢量化满意度”是实现在现实应用场景中长期解决问题的关键。

wKgZO2kWkamAMiGUAAG2JdpaDF8651.png

图2展示了cuTAMP如何将TAMP帧化为一种回溯式的双层搜索,以优化计划骨架。

机器人如何利用Stein变分推断从故障中学习

长距操作模型在面对训练过程中未曾遇到的新条件时,可能会出现失效。Fail2Progress是一种使机器人能够从自身失败中学习并持续改进操作能力的框架。该框架通过数据驱动的校正与基于仿真的优化,将实际发生的故障整合进技能模型中。为了增强模型的鲁棒性,Fail2Progress 利用 Stein 变分推断生成与观测到的故障相似的定向合成数据集,从而有效提升模型对异常情况的适应能力。

然后,这些生成的数据集可用于微调并重新调整技能效果模型,从而降低长视野任务中相同故障重复发生的次数。

入门指南

在这篇博客中,我们探讨了基于感知的TAMP、GPU加速的TAMP,以及用于机器人操作的基于仿真的优化框架。我们分析了传统TAMP中常见的挑战,并介绍了这些研究工作为应对这些挑战所提出的方法与思路。

本文是NVIDIA 机器人研发摘要(R²D²)系列的一部分,旨在帮助开发者深入了解NVIDIA Research在物理 AI 与机器人应用领域的最新突破。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    31494

    浏览量

    223758
  • NVIDIA
    +关注

    关注

    14

    文章

    5696

    浏览量

    110130
  • gpu
    gpu
    +关注

    关注

    28

    文章

    5282

    浏览量

    136090
  • 仿真
    +关注

    关注

    55

    文章

    4539

    浏览量

    138689

原文标题:R²D²:基于感知引导的多步骤精细操作任务与运动规划

文章出处:【微信号:NVIDIA-Enterprise,微信公众号:NVIDIA英伟达企业解决方案】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    运动控制速度规划

    电机控制速度规划运动控制的一大关键点。这里提供一个讨论话题的平台,大家可以在这里分享自己的心得!有啥关于速度好的想法,或者觉得有意思的资料可以发到这里,大家分享!
    发表于 09-04 11:38

    做个任务规划大师来帮你!

    `这是我在Instructable上的第一个创客项目,名字叫做任务规划大师。我相信许多人对智能手机是又爱又恨,它们每天都能给我们带来新鲜,但其过量的信息又会让我们感觉喘不过气来。再加上许多人
    发表于 12-17 15:50

    近距轻扫和运动感知视频展示雷达IC应用

    运动感知和人体存在感知等功能。我们收集到方案商应用场景视频,分享给大家,给予设计灵感启发。 还有应用案例: 运动感知:浴室镜子,接近就可亮灯,0.8—1.2m的距离可调,人体一直存在轻微的动作,镜子
    发表于 11-16 14:31

    分布式多步骤入侵场景建模及其抽象描述

    本文从入侵检测的角度提出了一种完全非集中方式,将分布式多步骤入侵场景建模为分布于被保护网络系统中多个节点上的检测子任务序列。本文基于巴科斯范式对分布式多步骤
    发表于 09-03 08:57 8次下载

    如何使用压缩感知进行移动群智感知任务分发机制的资料说明

    针对移动群智 感知任务中区域全覆盖感知成本过高问题,提出基于压缩感知的移动群智感知任务分发(CS
    发表于 03-28 11:29 5次下载
    如何使用压缩<b class='flag-5'>感知</b>进行移动群智<b class='flag-5'>感知</b><b class='flag-5'>任务</b>分发机制的资料说明

    如何使用压缩感知实现移动群智感知任务分发机制的资料说明

    针对移动群智感知任务中区域全覆盖感知成本过高问题,提出基于压缩感知的移动群智感知任务分发(CS-
    发表于 10-24 11:25 3次下载
    如何使用压缩<b class='flag-5'>感知</b>实现移动群智<b class='flag-5'>感知</b><b class='flag-5'>任务</b>分发机制的资料说明

    如何使用压缩感知实现移动群智感知任务分发机制

    针对移动群智感知任务中区域全覆盖感知成本过高问题,提出基于压缩感知的移动群智感知任务分发(CS-
    发表于 01-26 11:53 17次下载
    如何使用压缩<b class='flag-5'>感知</b>实现移动群智<b class='flag-5'>感知</b><b class='flag-5'>任务</b>分发机制

    如何将MATLAB运动规划应用于各种自主系统

    ) 和无人机等系统要实现自主,离不开三大支柱,运动规划就是其中之一。另外两大支柱则是感知和控制。 与人类非常相似,自主系统也是通过扫描环境来探索新环境,以了解自己所在的位置和周围环境。 一旦得出环境地图,
    的头像 发表于 09-03 10:04 2967次阅读
    如何将MATLAB<b class='flag-5'>运动</b><b class='flag-5'>规划</b>应用于各种自主系统

    锌合金压铸机主机操作方法和步骤

    锌合金压铸机的操作方式分为两种,手动和自动,今天我们来说一下压铸机手动操作的方法和步骤:开机,起压,调模运动,锁模运动,开模
    的头像 发表于 03-17 17:16 7333次阅读

    STM32实现多步进电机的加减速运动控制

    目标: 1、指定简单的电机控制协议,支持通过串口通讯对多步进电机进行运动控制 2、支持详细参数输入的运动控制模式:控制方向、转速、加减速率、细分等 3、支持位置控制模式,按照协议格式,输入电机编号和位置,对多电机进行控制
    发表于 03-23 10:23 11次下载
    STM32实现<b class='flag-5'>多步</b>进电机的加减速<b class='flag-5'>运动</b>控制

    自动驾驶综述之定位、感知规划常见算法汇总

    自驾车自动驾驶系统的体系结构一般分为感知系统和决策系统。感知系统一般分为许多子系统,负责自动驾驶汽车定位、静态 障碍物测绘、移动障碍物检测与跟踪、道路测绘、交通信号检测与识别等任务。决策系统通常被划分为许多子系统,负责诸如
    发表于 06-02 16:11 0次下载
    自动驾驶综述之定位、<b class='flag-5'>感知</b>、<b class='flag-5'>规划</b>常见算法汇总

    基于边界点优化和多步路径规划的机器人自主探索策略

    机器人对未知环境的自主探索是机器人智能化的关键技术。为了提高搜索效率,作者提出了一种基于边界点优化和多步路径规划的搜索策略。他们主要对边界点优化、边界点选择、路径规划三个方面对路径规划
    的头像 发表于 06-19 10:19 2773次阅读
    基于边界点优化和<b class='flag-5'>多步</b>路径<b class='flag-5'>规划</b>的机器人自主探索策略

    基于感知质量的无人机ActiveSLAM解决方案

    在对于基于视觉的状态估计中,摄像机的运动对估计精度有重要影响。因此,在规划无人机的运动时,既要考虑以上的任务,又要考虑感知质量。
    发表于 07-01 09:56 1532次阅读
    基于<b class='flag-5'>感知</b>质量的无人机ActiveSLAM解决方案

    倒闸操作的基本步骤

    一、正常情况倒闸操作的基本步骤 1、接受任务 当系统调度员下达操作任务时,操作前,预先用电话或传
    的头像 发表于 09-22 11:35 1.3w次阅读

    引导线的左转场景下,自动驾驶如何规划轨迹?

    对于很多新手司机来说,在无引导线左转的场景中,开车会非常谨慎,但依旧会很好地处理好这一操作。但对于自动驾驶汽车来说,其行驶需要有较为明显的参考线,在没有白色虚线、没有箭头感知“我的车道在哪儿”的交通
    的头像 发表于 09-18 09:12 920次阅读
    无<b class='flag-5'>引导</b>线的左转场景下,自动驾驶如何<b class='flag-5'>规划</b>轨迹?