0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

面向视觉语言导航的任务驱动式地图学习框架MapDream介绍

地平线HorizonRobotics 来源:地平线HorizonRobotics 2026-03-02 10:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

MapDream

地图不再是专家设计的产物

而是在任务目标下学习出的决策参考

在视觉语言导航(VLN)中,地图长期作为独立模块构建,并通过固定接口交由导航策略使用。无论是BEV网格、拓扑图还是语义记忆模块,这些表示大多脱离策略学习而设计。结果是,机器人即使掌握场景的信息,也仍可能绕行甚至偏离目标,因为地图中编码的,并不一定是决定导航成功的关键信息。

我们认为,VLN迈向长期可靠决策的关键一步,是让地图表示进入训练闭环,由任务目标在学习阶段主导其形成方式,而不再停留在固定规则或外部模块的层面。

MapDream正是沿着这一方向提出的:我们将地图构建纳入端到端训练框架,在大规模数据支撑下,通过监督预训练与强化学习联合微调,使空间表示在训练阶段始终围绕导航目标展开,并与策略决策紧密耦合,从而形成真正服务于长程指令执行的核心中间表示。

• 论文题目

MapDream: Task-Driven Map Learning for Vision-Language Navigation

论文链接

https://arxiv.org/abs/2602.00222

• 项目主页:

https://horizonrobotics.github.io/robot_lab/mapdream

从专家设计到任务主导

传统VLN系统中的地图通常依赖专家规则或独立建图模块生成,其语义与几何结构在训练过程中保持固定。导航策略只能被动消费这些表示,无法反向影响地图该强调哪些空间线索。MapDream打破了这一结构:我们在大规模数据支撑下,将地图构建纳入端到端训练框架,通过监督预训练与强化学习联合微调,使空间表示直接围绕导航目标学习。VLN中真正重要的,并非完整复原环境,而是为当前任务生成最有价值的空间接口

7a1e3ce6-130c-11f1-90a1-92fbcf53809c.png

MapDream将地图表示纳入训练闭环,由任务直接塑造,而非专家预设。

在MapDream中,地图被重新定义为一种可学习的中间表示。系统接收多帧单目观测与自然语言指令,自回归生成任务相关的BEV表示,仅保留三类与决策高度相关的要素——可通行结构、目标相关距离以及语义锚点。这种紧凑表达被输入到VLN策略中用于多步动作预测,并在强化学习阶段与策略同步优化,使最终得到的地图分布与成功导航行为保持一致。

两阶段训练

让地图真正进入学习闭环

MapDream采用两阶段训练流程,使地图从专家先验出发,最终由任务目标决定。

7a7b7f5a-130c-11f1-90a1-92fbcf53809c.png

MapDream采用两阶段训练:先建立建图—控制接口,再以强化学习联合优化,使地图服务于导航决策而非几何重建。

第一阶段是监督预训练。通过轻量化的任务驱动BEV监督,模型学习基础空间抽象,同时训练策略学会使用这些地图进行决策,从而建立稳定的“建图—控制”接口。

第二阶段是强化学习联合微调。地图模块与VLN策略在统一导航奖励下同步更新。此时地图不再仅追求几何一致性,而是被任务回报直接牵引,系统性地调整为最有利于完成指令的空间表达。

通过这一闭环过程,地图真正成为由任务目标主导学习的核心表示。

任务决定地图

改变机器人的导航方式

当地图表示进入学习闭环后,机器人的行为模式发生了显著变化。在长程指令执行中,它不再仅依赖局部观测,而是借助生成的BEV抽象形成更稳定的全局方向感。路径更加贴近示范轨迹,回溯与绕行明显减少,整体执行呈现出更强的空间连贯性。

7ad8e2a8-130c-11f1-90a1-92fbcf53809c.png

MapDream仅凭单目生成紧凑BEV地图,紧贴真实路径,优于在模糊路口易偏离的无地图基线。

在标准VLN基准中,MapDream在单目设置下取得领先结果,并在跨数据集泛化与真实机器人实验中保持稳定表现。这表明,由任务目标塑造的地图能够捕捉具有迁移性的空间结构,而不仅仅适配单一环境。

7b3cca2a-130c-11f1-90a1-92fbcf53809c.png

在R2R-CE与RxR-CE Val-Unseen上,MapDream单目性能最佳,路径效率优于全景方法。

总结与展望

MapDream重新界定了视觉语言导航中“地图”的角色。它不再是专家规则主导的静态模块,而是一种在训练阶段由任务目标塑造、并与决策系统端到端耦合的生成式空间接口。机器人在决定“下一步往哪走”之前,先通过地图理解当前最关键的空间关系,从而形成更高效、更稳定的长程决策能力。

未来,我们希望将这一任务驱动地图学习范式扩展到更长期的空间记忆、更复杂的交互任务以及真实环境中的自主探索,为具身智能构建真正以任务目标为核心的空间认知系统。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    214

    文章

    31634

    浏览量

    224480
  • 导航
    +关注

    关注

    7

    文章

    592

    浏览量

    44122
  • 地图
    +关注

    关注

    0

    文章

    44

    浏览量

    14020

原文标题:开发者说|MapDream:让导航任务决定地图如何生成,而不应由专家预设

文章出处:【微信号:horizonrobotics,微信公众号:地平线HorizonRobotics】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    百度地图与HERE Technologies签署战略合作备忘录

    百度地图与HERE达成合作,共同开发面向全球市场一体化车道级导航服务与智能驾驶地图解决方案。
    的头像 发表于 04-30 17:03 3486次阅读

    百度地图与雅迪联合首发支持华为鸿蒙系统投屏导航应用

    两轮车出行行业迎来里程碑突破——百度地图与雅迪联合首发支持华为鸿蒙系统投屏导航应用。
    的头像 发表于 04-23 16:10 290次阅读

    如何成为一名高薪嵌入工程师?

    精通指针、内存管理、结构体、位操作等,理解底层硬件交互原理。 C++(可选):面向对象编程在嵌入Linux或复杂系统中应用广泛,如驱动开发、中间件设计。 汇编语言:理解处理器架构
    发表于 04-09 09:03

    Progress-Think框架赋能机器人首次实现语义进展推理

    视觉语言导航(VLN)中,机器人长期缺乏一种关键能力:它能持续前进,却无法判断自己的任务推进到了哪一步。导航在空间中不断展开,画面节节推进
    的头像 发表于 12-03 09:27 516次阅读
    Progress-Think<b class='flag-5'>框架</b>赋能机器人首次实现语义进展推理

    iMLite AI Map 2.1 正式上线:智能穿戴迎来嵌入离线地图导航新体验

    智能穿戴迎来嵌入离线地图导航新体验,在极小的资源占用下实现了完整的地图功能,代码空间控制在 80KB以内,运行内存仅需几十KB,让即使是配置受限的智能设备也能流畅运行离线
    的头像 发表于 12-01 10:26 1802次阅读
    iMLite AI Map 2.1 正式上线:智能穿戴迎来嵌入<b class='flag-5'>式</b>离线<b class='flag-5'>地图</b><b class='flag-5'>导航</b>新体验

    没有地图,纯视觉自动驾驶就只能摸瞎吗?

    [首发于智驾最前沿微信公众号]最近在一篇讨论高精度地图的文章中,有位小伙伴提到一个非常有趣的观点“如果人在陌生的目的地,只依托纯视觉(眼睛)去辨别道路,若没有导航,就只能摸瞎”。对于纯视觉
    的头像 发表于 11-27 17:22 1659次阅读
    没有<b class='flag-5'>地图</b>,纯<b class='flag-5'>视觉</b>自动驾驶就只能摸瞎吗?

    地图:自动驾驶的“数字直觉“

    ,通过"学习"来"理解"道路环境。特斯拉的World Models、NVIDIA的CosMos、小鹏的WFM等创新方案,正在重新定义自动驾驶系统的认知方式。 隐地图的"黑箱哲学" 从"地图
    的头像 发表于 11-19 09:26 595次阅读
    隐<b class='flag-5'>式</b><b class='flag-5'>地图</b>:自动驾驶的“数字直觉“

    AGV视觉导航:智能物流的“智慧之眼”

      AGV 导航一直是智能小车AGV的核心技术,磁条导航、激光导航、二维码导航、自然导航等技术之后,最近,
    的头像 发表于 11-04 15:54 817次阅读
    AGV<b class='flag-5'>视觉</b><b class='flag-5'>导航</b>:智能物流的“智慧之眼”

    Aux-Think打破视觉语言导航任务的常规推理范式

    视觉语言导航(VLN)任务的核心挑战,是让机器人在复杂环境中听懂指令、看懂世界,并果断行动。我们系统性地引入推理任务,探索其在
    的头像 发表于 07-08 10:00 798次阅读
    Aux-Think打破<b class='flag-5'>视觉</b><b class='flag-5'>语言</b><b class='flag-5'>导航</b><b class='flag-5'>任务</b>的常规推理范式

    高德地图携手华为推出长隧道车道级导航

    高德地图携手华为Pura80系列,支持超长隧道全程车道级导航,为行车安全与效率带来全新升级。
    的头像 发表于 07-02 16:44 1694次阅读

    明晚开播 |数据智能系列讲座第7期:面向高泛化能力的视觉感知系统空间建模与微调学习

    鹭岛论坛数据智能系列讲座第7期「面向高泛化能力的视觉感知系统空间建模与微调学习」明晚8点精彩开播期待与您云相聚,共襄学术盛宴!|直播信息报告题目面向高泛化能力的
    的头像 发表于 06-24 08:01 1294次阅读
    明晚开播 |数据智能系列讲座第7期:<b class='flag-5'>面向</b>高泛化能力的<b class='flag-5'>视觉</b>感知系统空间建模与微调<b class='flag-5'>学习</b>

    UI开发概述

    使用UI开发框架开发应用时,主要涉及如下开发过程。开发者可以先通过第一个入门实例了解整个应用的UI开发过程。 任务简介相关指导学习ArkTS介绍了ArkTS的基本语法、状态管理和渲
    发表于 06-24 06:36

    鸿蒙5开发宝藏案例分享---一多开发实例(地图导航

    案例!最近在肝鸿蒙项目时意外发现了这个地图导航的\"一多\"开发实例,简直像发现新大陆!这就带大家沉浸体验这个超实用的开发模板~ ? 先划重点:这个案例完美演示了如何用一套代码搞定
    发表于 06-03 16:17

    谷歌地图GPS定位

    谷歌地图GPS定位:精准导航背后的技术解析 谷歌地图作为全球最受欢迎的地图服务之一,其精准的GPS定位功能为用户提供了极大便利。本文将深入探讨谷歌
    的头像 发表于 05-29 16:54 1791次阅读

    高德地图携手雷鸟创新打造新一代AI+AR智能导航解决方案

    近日,高德地图与雷鸟创新RayNeo宣布达成战略合作,双方将深度融合人工智能体和空间交互等前沿技术框架,共同打造新一代AI+AR智能导航解决方案。此次合作,标志着高德空间计算引擎进一步实现跨模态
    的头像 发表于 05-26 16:01 925次阅读