0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Progress-Think框架赋能机器人首次实现语义进展推理

地平线HorizonRobotics 来源:地平线HorizonRobotics 2025-12-03 09:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Progress-Think

机器人首次实现语义进展推理

标签在指令结构中定位任务进展

在视觉语言导航(VLN)中,机器人长期缺乏一种关键能力:它能持续前进,却无法判断自己的任务推进到了哪一步。导航在空间中不断展开,画面节节推进,但模型并不知道自己在自然语言指令里处于什么阶段,因此容易漂移、兜圈,或做出难以解释的决策。我们认为,引入语义进展推理,是破解长程导航不稳定性的关键路径。

Progress-Think让机器人第一次具备语义层面的“进展坐标系”。我们首次揭示了视觉观测序列与指令语义之间的结构性关联,并将其提炼为可学习的进展信号,使模型无需额外标注即可学会思考:“我刚完成了什么”。通过自监督的进展对齐、进展引导决策以及进展一策略联合微调,仅凭单目相机输入,模型就能显著减少偏航并提升稳定性。Progress-Think在R2R-CE等标准数据集上取得领先表现,并进一步推动具身推理朝更明确的任务导向发展。

• 论文题目:

Progress-Think: Semantic Progress Reasoning for Vision-Language Navigation

• 论文链接:

https://arxiv.org/abs/2511.17097

•项目主页:

https://horizonrobotics.github.io/robot_lab/progress-think

从空间定位到进展定位

在视觉语言导航 (VLN) 中,机器人往往只会执行动作,却难以理解任务的推进。它能在空间中持续移动,却无法判断指令走到了哪一步;视觉观测不断更新,但任务完成度可能在它的认知里存在偏差。这种缺乏“语义位置感”的现象,使导航在遇到复杂场景时容易失去方向,出现漂移、兜圈或反复确认等不稳定行为。

视觉观测与指令语义呈协同单调推进;即随着观测累积(上),匹配的指令前缀同步单调扩展(下),后续进展(红)始终在早期进展(蓝)上递进。

Progress-Think的核心洞见在于:视觉语言导航本质上不仅是几何运动,而是执行一段结构化语言指令的语义进展过程。基于这一视角,我们揭示了视觉观测序列与指令语义之间存在协同单调关系:当画面从“床边”走向“门口”时,指令也应从“离开床边”自然推进到“朝门口转向”。我们进一步将这一结构规律提炼为任务层面的语义方位基准,为后续决策提供进展的建模。

零标注学习语义进展

为了在没有进展标注的情况下习得进展定位能力,我们设计了一个三阶段的学习框架。第一阶段,通过前缀对齐的自监督训练,模型在视觉轨迹中自动推断出与指令前缀的对应关系,使“当前观察对应哪一语义段落”成为一种内生表征,而非依赖外部标注。第二阶段,我们将进展表示作为上下文注入导航VLA策略,使决策在结合指令和观测的同时,也能参考自身的任务进展,从而形成明确的语义方向感。第三阶段,通过进展推理与导航VLA策略的联合优化,使模型在推理时保持一致、稳健的进展定位能力,并形成从语义对齐到动作生成的完整闭环。

2eb15256-cdd5-11f0-8c8f-92fbcf53809c.png

Progress-Think模型在原有VLA结构上加入“进展推理模块”,用于判断当前指令完成到哪一步,并据此引导动作生成。整个系统通过三阶段、无需标注的流程完成训练:① 自监督的进展对齐;② 进展引导的策略预训练;③ 进展–策略联合优化。

在三阶段学习下,进展不再是一个回归值或附加标签,而演化为贯穿视觉理解、语义推理与行动决策的结构性信号。机器人由此首次具备真正的“进展定位”能力,能够在执行中持续推理“我完成到哪了”,并据此更清晰地决策“下一步该做什么”。

语义进展助力多步骤指令导航

具备可推理的进展定位后,机器人的行为方式发生了明显变化。它不再像传统模型那样给出与任务无关或时序混乱的描述,而是能够持续跟踪自己处于指令的哪一步。导航轨迹因此更稳、更有方向感,执行过程也呈现出清晰的语义连贯性,让人类能一眼看出它正在完成任务的哪一段。

2f0da6c8-cdd5-11f0-8c8f-92fbcf53809c.png

GPT-4o和NVILA的描述经常跑偏,无法用于判断进展;消融版Progress-Think偶有幻觉,可靠性不足;而完整版Progress-Think能稳定推理出与真实进展对齐的结果。

在R2R-CE等基准上,Progress-Think在仅使用单目RGB的条件下,便超越了依赖全景或深度的传统方案,显著提升了长程任务的成功率、稳定性与可解释性。结果表明,长程导航的核心限制在于缺失语义进展这一结构性能力;当机器人能够理解“自己做到哪”,导航才真正具备持续、可靠的任务推进能力。

2f6bc514-cdd5-11f0-8c8f-92fbcf53809c.png

在R2R Val-Unseen上,Progress-Think在无深度、无全景、零外部数据的条件下依然取得最佳表现。

总结和展望

随着Progress-Think的引入,机器人第一次拥有了自身行为在任务语义层面的“进展坐标系”,能够在任务结构中定位自己,并以此为决策提供额外的进展约束。它在决策“下一步怎么走”前,先思考“我已经走到哪一步”,从而让长程行为更连贯、更可解释。我们期待将这种语义进展推理能力扩展至高层规划、多轮交互和自主探索,让具身智能逐步迈向真正的任务理解与长期推理。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    213

    文章

    30612

    浏览量

    219674
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51719
  • 地平线
    +关注

    关注

    0

    文章

    433

    浏览量

    16122

原文标题:开发者说|Progress-Think:语义进展推理,让机器人理解每次行动的意义

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「具身智能机器人系统」阅读体验】2.具身智能机器人的基础模块

    具身智能机器人的基础模块,这个是本书的第二部分内容,主要分为四个部分:机器人计算系统,自主机器人的感知系统,自主机器人的定位系统,自主机器人
    发表于 01-04 19:22

    大象机器人携手进迭时空推出 RISC-V 全栈开源六轴机械臂产品

    大象机器人成立于2016年,专注协作机器人研发与应用,产品线涵盖轻量级协作机器人、人形机器人、仿生机器人等多种形态。拳头产品myCobot系
    发表于 04-25 17:59

    智能清洁机器人

    项目说明:室内地面清洁是人们生活中较为频繁的劳动,传统吸尘器工作时需要人的参与,且操作不便。室内地面清洁机器人将智能手机、移动机器人技术和吸尘器技术有机地融合起来,结构灵巧,实现了室内环境的自主清洁
    发表于 11-08 22:30

    什么是工业机器人

    申请了专利。该专利的要点是借助伺服技术控制机器人的关节,利用人手对机器人进行动作示教,机器人实现动作的记录和再现。这就是所谓的示教再现
    发表于 01-19 10:58

    语义机器人

    客服机器人系统、智能硬件和机器人的对话系统建设,能让人机对话的过程变得更加自然流畅;另外还可以接入类似幼儿教育、听广播、订机票等外部服务,功能可以无限扩展。
    发表于 03-10 16:52

    什么是龙四足机器人

    四足机器人是一种仿生机器人,由Openduino控制板控制,有四条腿,每条腿两个自由度,由两个舵机驱动,实现两种步态行走。配有三个超声
    发表于 03-24 16:17

    机器人弹钢琴,实现难度如何?

    钢琴曲目的机器人,只需要它实现弹奏曲目。因为现在刚刚接触机器人制作方面,只懂一些中断和舵机啥的,不知道做成的难度有多大,,,,希望各位前辈能够不舍赐教。如果能做成,都需要
    发表于 05-22 17:06

    机器人弹钢琴

    钢琴曲目的机器人,只需要它实现弹奏曲目。因为现在刚刚接触机器人制作方面,只懂一些中断和舵机啥的,不知道做成的难度有多大,,,,希望各位前辈能够不舍赐教。如果能做成,都需要
    发表于 05-22 17:09

    辰汉-如何实现服务机器人的运算与控制

    、无线网络模块、显示模块,可以连接手机,通过手机APP端对机器人进行相关设置,同时机器人摄像头采集到的图像也实时传给手机,也可以和手机进行语音对讲。机器人也带有语音识别模块,如可以向
    发表于 06-09 17:18

    智能机器人现身武汉车管所,能说会道还能办业务!

    实现了在语义理解、知识学习、推理与表示等方面较为完备的智能支撑体系。同时,通过事前的人工训练和日常的业务积累,机器人能够不断地积累经验和知识,假以时日,不但会在业务水平与服务能力方面
    发表于 07-12 17:11

    分享:人工智能算法将带领机器人走向何方?

    机器人是可编程的;(3)机器人通常是自主或半自主的; 什么是人工智能人工智能是一个大的范畴,里面包括了很多小的分支,是依靠算法实现的,它通过开发计算机程序来完成智能的任务,帮助载体
    发表于 08-16 10:44

    机器人正在快速进入智能停车设备领域

    据报道,在11月22日举办的2018上海停车展上多家企业都将agv机器人作为新品首次展出。深圳怡丰在现场首发其第三代泊车机器人,新型滚筒式泊车agv机器人——getamodelw;无线
    发表于 11-28 16:20

    【HarmonyOS HiSpark AI Camera】基于HiSpark AI Camera HarmonyOS 智能巡检机器人开发

    本帖最后由 马猛 于 2020-11-26 10:17 编辑 项目名称:基于HiSpark AI Camera HarmonyOS 智能巡检机器人开发试用计划:HiSpark AI
    发表于 11-18 18:15

    桁架机器人的概念与特点都有哪些?

    替代。在机器人和自动化工业生产领域中,龙门式机器人实现了制造过程的完全自动化,并采用了集成加工技术,适 用于机床、生产线的上下料、工件翻转、工件转序等, 同时其高精度夹持定位工具系统为机器人
    发表于 11-30 09:44

    Aux-Think打破视觉语言导航任务的常规推理范式

    :无论是行动前推理(Pre-Think),还是行动后推理(Post-Think),一旦在测试阶段显式生成推理链,反而更容易让
    的头像 发表于 07-08 10:00 440次阅读
    Aux-<b class='flag-5'>Think</b>打破视觉语言导航任务的常规<b class='flag-5'>推理</b>范式