0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法

智能感知与物联网技术研究所 来源:未知 2023-10-23 09:40 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文是 ICCV 2023 入选 Oral 论文 Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation 的解读。本论文是某智能人机交互团队在视觉-语言导航(Vision-and-Language Navigation, VLN)领域的最新工作。该工作构建了 VLN 中首个带有高质量实体-标志物对齐标注的数据集,并提出实体-标志物对齐的自适应预训练方法,从而显著提高了智能体的导航性能。

ICCV 是“计算机视觉三大顶级会议”之一,ICCV 2023 于今年 10 月 2 日至 6 日在法国巴黎举行,本届会议共收到全球 8260 篇论文投稿,2161 篇被接收,接收率为 26.16%,其中 152 篇论文被选为口头报告展示(Oral Presentation),Oral 接收率仅为 1.8%。

wKgZomU10DKADan6AAHijJ9FR38163.png

论文题目:

Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation

论文地址:

https://arxiv.org/abs/2308.12587

开源数据集:

https://pan.baidu.com/s/12WTzZ05T8Uxy85znn28dfQ?pwd=64t7

代码地址:

https://github.com/csir1996/vln-gela

wKgZomU10DKAfgAhAAAl6LOgh3c680.png

引言

视觉-语言导航(Vision-and-Language Navigation, VLN)任务旨在构建一种能够用自然语言与人类交流并在真实 3D 环境中自主导航的具身智能体。自提出以来,VLN 越来越受到计算机视觉、自然语言处理和机器人等领域的广泛关注。 如图 1 所示,将自然语言指令中提过的标志物(物体或者场景)对应到环境中能够极大的帮助智能体理解环境和指令,由此跨模态对齐是 VLN 中的关键步骤。然而,大多数可用的数据集只能提供粗粒度的文本-图像对齐信号,比如整条指令与整条轨迹的对应或者子指令与子路径之间的对应,而跨模态对齐监督也都停留在句子级别(sentence-level)。因此,VLN 需要更细粒度(entity-level)的跨模态对齐数据和监督方法以促进智能体更准确地导航。

为解决以上问题,我们提出了一种面向 VLN 的实体-标志物自适应预训练方法,主要工作与贡献如下:

1. 我们基于 Room-to-Room(R2R)数据集 [1] 标注实体-标志物对齐,构建了第一个带有高质量实体-标志物对齐标注的 VLN 数据集,命名为 GEL-R2R;

2. 我们提出一种实体-标志物自适应预训练 (Grounded Entity-Landmark Adaptive,GELA) 方法,利用 GEL-R2R 数据集显式监督 VLN 模型学习实体名词和环境标志物之间的细粒度跨模态对齐;

3. 我们构建的 GELA 模型在两个 VLN 下游任务上取得了最佳的导航性能,证明了我们数据集和方法的有效性和泛化性。 wKgZomU10DKAHMgwAAy1Xi4UNy4383.png▲图1. 具身智能体在3D真实环境中的导航示例 wKgZomU10DOARN_dAAAuhh9-KLM163.png

GEL-R2R数据集

为了建立指令中实体短语与其周围环境中相应标志物之间的对齐,我们在 R2R 数据集的基础上进行了实体-标志物对齐的人工标注,整个流程包括五个阶段:

1. 原始数据准备。我们从 Matterport3D 模拟器中采集每个可导航点的全景图。为了提高标注的效率和准确性,我们在全景图中标注下一个动作方向,并根据 FG-R2R 数据集 [2] 将每个全景图与相应的子指令进行对应;

2. 标注工具开发。我们基于 Label-Studio 开发了一个跨模态标注平台,如图 2 所示;

3. 标注指南建立。为确保标注的一致性,我们经过预标注之后建立了四个准则来标准化标注指南:

  • 对齐准则:指令中的实体短语应与全景图中的标志物准确匹配

  • 自由文本准则:标注自由文本而不是类别

  • 文本共指准则:指代相同标志物的实体短语用相同的标签标注

  • 唯一标志物准则:对于一个实体短语,在全景图中只应标注一个对应的标志物

4. 数据标注与修订;

5. 数据整合与处理。

wKgZomU10DOAbfPKAAh8T1fXP9Q036.png

▲图2. GEL-R2R数据集标注界面如图 3 所示,GEL-R2R 数据集共包含:71467 个实体短语,其中训练集 57788 个,已见环境验证集 4196 个,未见环境验证集 9483 个;150183 个标志物,其中训练集 121146 个,已见环境验证集 8741 个,未见环境验证集 20296 个。

wKgZomU10DOAaVXnAAIx1uvi4R8766.png▲图3. GEL-R2R数据集统计分析 wKgZomU10DOAdwO2AAAtJ0fTuoM459.png

GELA方法

wKgZomU10DOADXdrAARjJLZ30i8478.png图4. GELA方法概览

如图 4 所示,方法流程分为三个阶段:预训练(pre-training)、自适应预训练(adaptive pre-training)和微调(fine-tuning)。我们直接在预训练模型 HAMT [3] 的基础上进行自适应预训练,HAMT 模型由文本编码器、图像编码器、历史编码器和跨模态编码器构成。我们将跨模态编码器输出的文本向量、历史向量和图像向量分别记为 Z、Y 和 S。我们设计了三种自适应预训练任务:

1. 实体短语预测。在这个任务中,我们通过标注的环境标志物预测其对应的实体短语在指令中的位置。首先将人工标注的实体位置转化为 L+1 维的掩码向量 (与 维度相同),并将人工标注的标志物边界框转化为 37 维的掩码向量 (与 维度相同)。然后,我们将标志物图像 patch 的特征平均化,并将其输入一个两层前馈网络(Feedforward Network, FFN)中,预测指令序列中 token 位置的概率分布,用掩码向量 作监督,具体损失函数为:

wKgZomU10DOAJKS2AAAX-lg11Os006.png

wKgZomU10DSAezOmAAAX-6i6ifg222.png

2. 标志物边界框预测。在这个任务中,我们通过标注的实体名词预测其对应的标志物边界框坐标。首先平均实体短语 token 的特征向量,然后将其输入两层 FFN 和 Sigmoid 函数预测坐标 :

wKgZomU10DSAEijaAAAVifzwXqI883.png

最后,将人工标注的 box=(x,y,w,h) 和 box’ 作 smooth-l1 损失和 GIoU 损失:

wKgZomU10DSAahFTAAAUW23ODXc548.png

3. 实体-标志物语义对齐。上述两个单向预测任务使用位置信息来匹配实体和标志物,而此任务在跨模态编码器输出端强制对齐相对应的标志物和实体的特征向量。这个任务的约束比上面两个单向预测任务更强,因为它直接作用于表示,而不是仅仅基于位置信息。具体损失函数如下:

wKgZomU10DSANVDoAAB0Xlwcdgw449.png自适应预训练最终的损失函数为:

wKgZomU10DSABFrEAAAP7deVISE239.png

经过自适应预训练后,我们利用模仿学习 (Imitation Learning,IL) 和强化学习 (Reinforcement Learning,RL) 训练策略对 GELA 模型在两个 VLN 下游任务(R2R 和 CVDN)上进行微调。IL 监督智能体克隆专家的行为,RL 鼓励智能体根据学习策略探索轨迹。 wKgZomU10DWAZwyjAAAr2pbNr48702.png  

实验结果

如图 5 所示,GELA 模型在 R2R 数据集上与先前 SOTA 模型的性能进行比较。GELA 模型在所有子集上的主要指标(SR 和 SPL)均优于所有其他模型。具体地,在已知验证集上,GELA 的性能与 HAMT 模型相当,而在未知验证集和测试集上,GELA 模型分别取得了 5% 、2% (SR) 和 4% 、2% (SPL) 的提高。因此,GELA 模型具有更好的未知环境泛化能力,这主要是由于 GELA 模型在学习实体-标志物对齐后,具有较强的语义特征捕捉能力。 wKgZomU10DWAfcr3AAMjz4D3vq4782.png 图5. R2R数据集上的性能对比 我们同样在 CVDN 数据集上对比了 GELA 模型与先前 SOTA 模型的性能,如图 6 所示,该数据集使用以米为单位的目标进度 (Goal Progress,GP) 作为关键性能指标。结果表明,GELA 模型在验证集和测试集上的性能都明显优于其他模型。因此,GELA 模型对不同的 VLN 下游任务具有良好的泛化能力。

wKgZomU10DWAPX-AAADJrBWOOD4487.png图6. CVDN数据集上的性能对比

wKgZomU10DWANcWFAAAC0jQz1zo582.jpg

参考文献

wKgZomU10DWANcWFAAAC0jQz1zo582.jpg  

[1] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko S ̈ underhauf, Ian D. Reid, Stephen Gould, and Anton van den Hengel. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In CVPR, pages 3674–3683, 2018.

[2] Yicong Hong, Cristian Rodriguez Opazo, Qi Wu, and Stephen Gould. Sub-instruction aware vision-and-language navigation. In EMNLP, pages 3360–3376, 2020.

[3] Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, and Ivan Laptev. History aware multimodal transformer for vision-and-language navigation. In NeurIPS, pages 58345847, 2021.

·


原文标题:ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2951

    文章

    48303

    浏览量

    419946

原文标题:ICCV 2023 | 面向视觉-语言导航的实体-标志物对齐自适应预训练方法

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    [GLAD] GLAD:大气像差与自适应光学

    概述 激光在大气湍流中传输时会拾取大气湍流导致的相位畸变,特别是在长距离传输的激光通信系统中。这种畸变会使传输激光的波前劣化。通过在系统中引入自适应光学系统,可以对激光传输时拾取的低频畸变进行校正
    发表于 05-26 08:27

    关于C语言对齐的一些总结

    1. 对齐的目的是什么? 提供访问效率---放大对齐 压缩存储空间---紧凑对齐 2. 对齐的类型有哪些? 自然对齐 :结构体默认按 最大基
    的头像 发表于 05-08 11:23 457次阅读

    中南大学:新型生物传感器,精准检测cTnI和IL-6标志物

    心血管疾病是全球头号死因,急性心肌梗死更是发病急、致死率高,早诊早治是关键。而精准检测心肌肌钙蛋白I(cTnI,心肌损伤金标准标志物)和白细胞介素-6(IL-6,炎症关键标志物),是实现心血管疾病
    的头像 发表于 03-11 14:11 514次阅读
    中南大学:新型生物传感器,精准检测cTnI和IL-6<b class='flag-5'>标志物</b>

    面向视觉语言导航的任务驱动式地图学习框架MapDream介绍

    视觉语言导航(VLN)中,地图长期作为独立模块构建,并通过固定接口交由导航策略使用。无论是BEV网格、拓扑图还是语义记忆模块,这些表示大多脱离策略学习而设计。结果是,机器人即使掌握场
    的头像 发表于 03-02 10:40 714次阅读
    <b class='flag-5'>面向</b><b class='flag-5'>视觉</b><b class='flag-5'>语言</b><b class='flag-5'>导航</b>的任务驱动式地图学习框架MapDream介绍

    摩尔线程新一代大语言模型对齐框架URPO入选AAAI 2026

    近日,摩尔线程在人工智能前沿领域取得重要突破,其提出的新一代大语言模型对齐框架——URPO统一奖励与策略优化,相关研究论文已被人工智能领域的国际顶级学术会议AAAI 2026收录。这一成果标志着摩尔线程在大模型基础技术探索上迈出
    的头像 发表于 11-17 16:03 675次阅读
    摩尔线程新一代大<b class='flag-5'>语言</b>模型<b class='flag-5'>对齐</b>框架URPO入选AAAI 2026

    电磁干扰自适应抑制系统平台全面解析

    电磁干扰自适应抑制系统平台全面解析
    的头像 发表于 09-17 16:12 915次阅读
    电磁干扰<b class='flag-5'>自适应</b>抑制系统平台全面解析

    基于大规模人类操作数据训练的VLA模型H-RDT

    近年来,机器人操作领域的VLA模型普遍基于跨本体机器人数据集训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统一训练困难;现有大规模机器人演示数据稀缺且质量参差不齐。得
    的头像 发表于 08-21 09:56 1309次阅读
    基于大规模人类操作数据<b class='flag-5'>预</b><b class='flag-5'>训练</b>的VLA模型H-RDT

    谷歌如何打造卓越自适应应用

    Android 用户的 Google 应用以及更多应用的更新,还有 6 月份的 Pixel Drop。我们还总结了所有 Google I/O 的相关更新,帮助 Android 开发者构建出色的自适应 Android 应用。
    的头像 发表于 07-30 16:39 1259次阅读

    基于FPGA LMS算法的自适应滤波器设计

    自适应滤波是近几十年发展起来的信号处理理论的的新分支。随着人们在该领域研究的不断深入,自适应处理的理论和技术日趋完善,其应用领域也越来越广泛。自适应滤波在通信、控制、语言分析和综合、地
    的头像 发表于 07-10 11:25 3744次阅读
    基于FPGA LMS算法的<b class='flag-5'>自适应</b>滤波器设计

    无刷直流电机自适应模糊PID控制系统

    摘要:针对无刷直流电机传统PID控制存在精度低、抗于抗能力差及模糊控制稳态精度不高等问题,研究了一种自适应模糊PID控制方法。论文分析了直流无刷电机的工作原理,建立了直流无刷电机自适应模期PID
    发表于 07-09 14:18

    CYW43907使用AP功能时是否具有自适应功能?

    我们想在我们的产品中使用这种芯片来获得 CE 注册证书,CE 需要自适应功能,但是我们在数据表和源包中找不到任何消息。functions 要执行如下: 启动时自动扫描并选择干扰较小的频道,遇到干扰
    发表于 07-09 08:21

    无刷直流电机双闭环模糊自适应控制方法研究

    纯分享帖,点击下方附件免费获取完整资料~~~ *附件:无刷直流电机双闭环模糊自适应控制方法研究.pdf 【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请第一时间告知,删除内容,谢谢!
    发表于 07-08 18:35

    暨南大学:铁电极化调控的自供电、高灵敏PEC型肿瘤标志物传感技术

      恶性肿瘤的早期诊断与精准监测是临床医学与基础研究的核心挑战。癌胚抗原(CEA)作为结直肠癌、胃癌及乳腺癌等多种实体瘤的关键肿瘤标志物,其浓度异常升高与肿瘤负荷及进展显著相关。实现CEA的超灵敏
    的头像 发表于 07-08 17:27 5801次阅读
    暨南大学:铁电极化调控的自供电、高灵敏PEC型肿瘤<b class='flag-5'>标志物</b>传感技术

    格灵深瞳六篇论文入选ICCV 2025

    近日,国际顶级会议ICCV 2025(计算机视觉国际大会)公布论文录用结果,格灵深瞳团队共有6篇论文入选。
    的头像 发表于 07-07 18:23 1829次阅读

    理想汽车八篇论文入选ICCV 2025

    近日,ICCV 2025(国际计算机视觉大会)公布论文录用结果,理想汽车共有8篇论文入选,其中5篇来自自动驾驶团队,3篇来自基座模型团队。ICCV作为计算机视觉领域的顶级学术会议,每两
    的头像 发表于 07-03 13:58 1403次阅读