0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种在视觉语言导航任务中提出的新方法,来探索未知环境

电子工程师 来源:lp 2019-03-05 09:38 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

CVPR 2019 接收论文编号公布以来,AI科技大本营开始陆续为大家介绍一些优秀论文。今天推荐的论文,将与大家一起探讨一种在视觉语言导航任务中提出的新方法,来探索未知环境。

作者

这篇论文是 UC Santa Barbara 大学(加州大学圣巴巴拉分校)与微软研究院、Duke 大学合作完成,第一作者系 UC Santa Barbara 大学的王鑫。

据 UC Santa Barbara 计算机科学系助理教授王威廉在其个人微博上发表的喜讯,这篇论文的一作是其组内的成员,获得了 3 个 Strong Accept,在 5165 篇投稿文章中审稿得分排名第一,并且这篇论文已经确定将在 6 月的 CVPR 会议上进行报告。

这篇论文解决的任务 vision-language navigation(VLN)我们之前介绍的并不多,所以,这次营长会先给大家简单介绍 VLN,然后从这项任务存在的难点到解决方法、实验效果等方面为大家介绍,感兴趣的小伙伴们可以从文末的地址下载论文,详细阅读。

什么是 VLN?

视觉语言导航(vision-language navigation, VLN)任务指的是引导智能体或机器人在真实三维场景中能理解自然语言命令并准确执行。结合下面这张图再形象、通俗一点解释:假如智能体接收到“向右转,径直走向厨房,然后左转,经过一张桌子后进入走廊...”等一系列语言命令,它需要分析指令中的物体和动作指令,在只能看到一部分场景内容的情况下,脑补整个全局图,并正确执行命令。所以这是一个结合 NLP 和 CV 两大领域,一项非常有挑战性的任务。

难点

虽然我们理解这项任务好像不是很难,但是放到 AI 智能体上并不像我们理解起来那么容易。对 AI 智能体来说,这项任务通常存在三大难点:

难点一:跨模态的基标对准(cross-modal grounding);简单解释就是将NLP 的指令与 CV 场景相对应。

难点二:不适定反馈(ill-posed feedback);就是通常一句话里面包含多个指令,但并不是每个指令都会进行反馈,只有最终完成任务才有反馈,所以难以判断智能体是否完全按照指令完成任务。

难点三:泛化能力问题;由于环境差异大,VLN 的模型难以泛化。

那这篇论文中,作者又做了哪些工作,获得了评委们的一致青睐,获得了 3 个 Strong Accept 呢?方法来了~

方法

1、RCM(Reinforced Cross-Modal Matching)模型

针对第一和第二难点,论文提出了一种全新的强化型跨模态匹配(RCM)方法,用强化学习方法将局部和全局的场景联系起来。

RCM 模型主要由两个模块构成:推理导航器和匹配度评估器。如图所示,通过训练其中绿色的导航器,让它学会理解局部的跨模态场景,推断潜在的指令,并生成一系列动作序列。另外,论文还设置了匹配度评估器(Matching Critic)和循环重建奖励机制,用于评价原始指令与导航器生成的轨迹之间的对齐情况,帮助智能体理解语言输入,并且惩罚不符合语言指令的轨迹。

以上的方法仅仅是解决了第一个难点,所以论文还提出了一个由环境驱动的外部奖励函数,用于度量每个动作成功的信合和导航器之间的误差。

2、SIL(Self-supervised Imitation Learning)方法

为了解决第三个难点,论文提出了一种自监督模仿学习(Self-supervised Imitation Learning, SIL),其目的是让智能体能够自主的探索未知的环境。其具体做法是,对于一个从未见过的语言指令和目标位置,导航器会得到一组可能的轨迹并将其中最优的轨迹(采用匹配度评估器)保存到缓冲区中,然后匹配度评估器会使用之前介绍的循环重建奖励机制来评估轨迹,SIL方法可以与多种学习方法想结合,通过模仿自己之前的最佳表现来得到更优的策略。

测试结果

1、测试集:R2R(Room-to-Room)Dataset;视觉语言导航任务中一个真实 3D环境的数据集,包含 7189 条路径,捕捉了大部分的视觉多样性,21567 条人工注释指令,其平均长度为 29 个单词。

2、评价指标

PL:路径长度(Path Length)

NE:导航误差(Navigation Error)

OSR:Oracle 成功率(Oracle Success Rate

SR:成功率( Success Rate)

SPL:反向路径长度的加权成功率(Success rate weighted by inverse Path Length)

3、实验对比:与 SOTA 进行对比,此前在 R2R 数据集上效果最优的方法。

Baseline:Random、seq2seq、RPA 和 Speaker-Follower。

测试结果显示,RCM 模型的效果在 SPL 指标上明显优于当前的最优结果。

并且在 SIL 方法学习后,学习效率也有明显的提高,在见过和未见过的场景验证集上,并可视化了其内部奖励指标。

论文地址:

https://arxiv.org/pdf/1811.10092.pdf

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能体
    +关注

    关注

    1

    文章

    387

    浏览量

    11520
  • 自然语言
    +关注

    关注

    1

    文章

    292

    浏览量

    13917
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23190

原文标题:CVPR 2019审稿满分论文:中国博士提出融合CV与NLP的视觉语言导航新方法

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    AGV视觉导航:智能物流的“智慧之眼”

    获取移动物体空间中所处的位置、方向和其他环境信息,并用定的算法对所获信息进行处理,建立环境模型,进而寻找条最优或近似最优的无碰路径,实
    的头像 发表于 11-04 15:54 215次阅读
    AGV<b class='flag-5'>视觉</b><b class='flag-5'>导航</b>:智能物流的“智慧之眼”

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    计算 闪存的新颖方法代表了一种多用途的管理模型权重的策略,它根据输入的性质提升性能,从而增强所提出的方案各种大模型场景中的有效性、可用性和实用性。 3、基于GPU的大模型计算 3.
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    ,其中第章是概论,主要介绍大模型浪潮下AI芯片的需求与挑战。第二章和第三章分别介绍实现深度学习AI芯片的创新方法和架构。以及些新型的算法和思路。第四章是全面介绍半导体芯产业的前沿技术,包括新型晶体管
    发表于 09-05 15:10

    芯片制造中高精度膜厚测量与校准:基于红外干涉技术的新方法

    环境光干扰及薄膜倾斜等因素限制,测量精度难以满足高精度工业需求。为此,本研究提出一种融合红外干涉与激光校准的薄膜厚度测量新方法,旨在突破传统技术瓶颈,实现更精准、
    的头像 发表于 07-21 18:17 2556次阅读
    芯片制造中高精度膜厚测量与校准:基于红外干涉技术的<b class='flag-5'>新方法</b>

    无刷直流电机转矩脉动抑制新方法

    转矩脉动是影响无剧直流电机高精度伺服系统中应用的主要原因。提出一种基于a-p变换和Lyapunov函数的转矩脉动抑制直接功率控制方法。该方法
    发表于 07-09 14:12

    Aux-Think打破视觉语言导航任务的常规推理范式

    视觉语言导航(VLN)任务的核心挑战,是让机器人在复杂环境中听懂指令、看懂世界,并果断行动。我们系统性地引入推理
    的头像 发表于 07-08 10:00 421次阅读
    Aux-Think打破<b class='flag-5'>视觉</b><b class='flag-5'>语言</b><b class='flag-5'>导航</b><b class='flag-5'>任务</b>的常规推理范式

    无刷直流电机反电势过零检测新方法

    摘 要:无位置传感器无刷直流电机高速段时反电势信号过大,容易造成检测电路无法正常工作其至损坏,而在较低速段时,反电势信号又难以有效检测。针对反电势过零检测极端速段的问题,提出一种
    发表于 06-26 13:50

    ​VLM(视觉语言模型)​详细解析

    视觉语言模型(Visual Language Model, VLM)是一种结合视觉(图像/视频)和语言(文本)处理能力的多模态人工智能模型,
    的头像 发表于 03-17 15:32 7571次阅读
    ​VLM(<b class='flag-5'>视觉</b><b class='flag-5'>语言</b>模型)​详细解析

    TeleAI提出COPO对齐方法:8B模型超越Llama3-70B的表现

    新大陆。 正如人类面对未知时展现出的探索行为,人工智能领域,尤其大型语言模型(LLMs)理
    的头像 发表于 02-17 17:31 669次阅读
    TeleAI<b class='flag-5'>提出</b>COPO对齐<b class='flag-5'>方法</b>:8B模型超越Llama3-70B的表现

    文详解视觉语言模型

    视觉语言模型(VLM)是一种多模态、生成式 AI 模型,能够理解和处理视频、图像和文本。
    的头像 发表于 02-12 11:13 3240次阅读
    <b class='flag-5'>一</b>文详解<b class='flag-5'>视觉</b><b class='flag-5'>语言</b>模型

    大华股份荣获中国创新方法大赛等奖

    ,大华股份凭借其卓越的创新能力和深厚的技术积累,脱颖而出,斩获了全国等奖。大华股份的获奖项目为“不惧强光,分毫必现,基于TRIZ的强逆光锐捕技术”。该项目通过灵活运用创新方法,成功突破了行业性技术难题,实现了强逆光
    的头像 发表于 12-27 14:50 881次阅读

    工业5.0打造可持续发展的未来

    工业5.0词自提出以来就备受关注。欧盟 (EU) 于2021年正式提出工业5.0[1] 的概念,这是一种工业工作场所将技术与人结合起来的
    的头像 发表于 12-18 16:07 1868次阅读

    基于遗传算法的QD-SOA设计新方法

    了QD-SOA的设计,提出一种基于遗传算法的QD-SOA设计新方法。由于具有用于设计的模型是必不可少的,因此步中获得数值模型。然后,
    的头像 发表于 12-17 09:58 690次阅读
    基于遗传算法的QD-SOA设计<b class='flag-5'>新方法</b>

    一种降低VIO/VSLAM系统漂移的新方法

    本文提出一种新方法,通过使用点到平面匹配将VIO/VSLAM系统生成的稀疏3D点云与数字孪生体进行对齐,从而实现精确且全球致的定位,无需视觉
    的头像 发表于 12-13 11:18 1182次阅读
    <b class='flag-5'>一种</b>降低VIO/VSLAM系统漂移的<b class='flag-5'>新方法</b>

    NaVILA:加州大学与英伟达联合发布新型视觉语言模型

    日前,加州大学的研究人员携手英伟达,共同推出了款创新的视觉语言模型——NaVILA。该模型机器人导航领域展现出了独特的应用潜力,为智能机
    的头像 发表于 12-13 10:51 956次阅读