0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种在视觉语言导航任务中提出的新方法,来探索未知环境

电子工程师 来源:lp 2019-03-05 09:38 次阅读

CVPR 2019 接收论文编号公布以来,AI科技大本营开始陆续为大家介绍一些优秀论文。今天推荐的论文,将与大家一起探讨一种在视觉语言导航任务中提出的新方法,来探索未知环境。

作者

这篇论文是 UC Santa Barbara 大学(加州大学圣巴巴拉分校)与微软研究院、Duke 大学合作完成,第一作者系 UC Santa Barbara 大学的王鑫。

据 UC Santa Barbara 计算机科学系助理教授王威廉在其个人微博上发表的喜讯,这篇论文的一作是其组内的成员,获得了 3 个 Strong Accept,在 5165 篇投稿文章中审稿得分排名第一,并且这篇论文已经确定将在 6 月的 CVPR 会议上进行报告。

这篇论文解决的任务 vision-language navigation(VLN)我们之前介绍的并不多,所以,这次营长会先给大家简单介绍 VLN,然后从这项任务存在的难点到解决方法、实验效果等方面为大家介绍,感兴趣的小伙伴们可以从文末的地址下载论文,详细阅读。

什么是 VLN?

视觉语言导航(vision-language navigation, VLN)任务指的是引导智能体或机器人在真实三维场景中能理解自然语言命令并准确执行。结合下面这张图再形象、通俗一点解释:假如智能体接收到“向右转,径直走向厨房,然后左转,经过一张桌子后进入走廊...”等一系列语言命令,它需要分析指令中的物体和动作指令,在只能看到一部分场景内容的情况下,脑补整个全局图,并正确执行命令。所以这是一个结合 NLP 和 CV 两大领域,一项非常有挑战性的任务。

难点

虽然我们理解这项任务好像不是很难,但是放到 AI 智能体上并不像我们理解起来那么容易。对 AI 智能体来说,这项任务通常存在三大难点:

难点一:跨模态的基标对准(cross-modal grounding);简单解释就是将NLP 的指令与 CV 场景相对应。

难点二:不适定反馈(ill-posed feedback);就是通常一句话里面包含多个指令,但并不是每个指令都会进行反馈,只有最终完成任务才有反馈,所以难以判断智能体是否完全按照指令完成任务。

难点三:泛化能力问题;由于环境差异大,VLN 的模型难以泛化。

那这篇论文中,作者又做了哪些工作,获得了评委们的一致青睐,获得了 3 个 Strong Accept 呢?方法来了~

方法

1、RCM(Reinforced Cross-Modal Matching)模型

针对第一和第二难点,论文提出了一种全新的强化型跨模态匹配(RCM)方法,用强化学习方法将局部和全局的场景联系起来。

RCM 模型主要由两个模块构成:推理导航器和匹配度评估器。如图所示,通过训练其中绿色的导航器,让它学会理解局部的跨模态场景,推断潜在的指令,并生成一系列动作序列。另外,论文还设置了匹配度评估器(Matching Critic)和循环重建奖励机制,用于评价原始指令与导航器生成的轨迹之间的对齐情况,帮助智能体理解语言输入,并且惩罚不符合语言指令的轨迹。

以上的方法仅仅是解决了第一个难点,所以论文还提出了一个由环境驱动的外部奖励函数,用于度量每个动作成功的信合和导航器之间的误差。

2、SIL(Self-supervised Imitation Learning)方法

为了解决第三个难点,论文提出了一种自监督模仿学习(Self-supervised Imitation Learning, SIL),其目的是让智能体能够自主的探索未知的环境。其具体做法是,对于一个从未见过的语言指令和目标位置,导航器会得到一组可能的轨迹并将其中最优的轨迹(采用匹配度评估器)保存到缓冲区中,然后匹配度评估器会使用之前介绍的循环重建奖励机制来评估轨迹,SIL方法可以与多种学习方法想结合,通过模仿自己之前的最佳表现来得到更优的策略。

测试结果

1、测试集:R2R(Room-to-Room)Dataset;视觉语言导航任务中一个真实 3D环境的数据集,包含 7189 条路径,捕捉了大部分的视觉多样性,21567 条人工注释指令,其平均长度为 29 个单词。

2、评价指标

PL:路径长度(Path Length)

NE:导航误差(Navigation Error)

OSR:Oracle 成功率(Oracle Success Rate

SR:成功率( Success Rate)

SPL:反向路径长度的加权成功率(Success rate weighted by inverse Path Length)

3、实验对比:与 SOTA 进行对比,此前在 R2R 数据集上效果最优的方法。

Baseline:Random、seq2seq、RPA 和 Speaker-Follower。

测试结果显示,RCM 模型的效果在 SPL 指标上明显优于当前的最优结果。

并且在 SIL 方法学习后,学习效率也有明显的提高,在见过和未见过的场景验证集上,并可视化了其内部奖励指标。

论文地址:

https://arxiv.org/pdf/1811.10092.pdf

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能体
    +关注

    关注

    1

    文章

    111

    浏览量

    10426
  • 自然语言
    +关注

    关注

    1

    文章

    271

    浏览量

    13208
  • nlp
    nlp
    +关注

    关注

    1

    文章

    464

    浏览量

    21826

原文标题:CVPR 2019审稿满分论文:中国博士提出融合CV与NLP的视觉语言导航新方法

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    轧机牌坊滑板压亏修复的新方法

    电子发烧友网站提供《轧机牌坊滑板压亏修复的新方法.docx》资料免费下载
    发表于 03-14 16:16 0次下载

    氢压机轴承位磨损维修的新方法

    电子发烧友网站提供《氢压机轴承位磨损维修的新方法.docx》资料免费下载
    发表于 03-01 16:23 0次下载

    一种产生激光脉冲新方法

    等离子体中脉冲压缩的概念 英国和韩国的科学家提出一种产生激光脉冲的新方法,其功率是现有激光脉冲的1000多倍。 科学家们使用计算机模拟联合研究,展示了一种压缩光的
    的头像 发表于 12-07 06:32 235次阅读
    <b class='flag-5'>一种</b>产生激光脉冲<b class='flag-5'>新方法</b>

    IC封装中快速创建结构的新方法

    IC封装中快速创建结构的新方法
    的头像 发表于 12-06 16:34 239次阅读
    IC封装中快速创建结构的<b class='flag-5'>新方法</b>

    基于PMSM 控制系统仿真建模的新方法

    电子发烧友网站提供《基于PMSM 控制系统仿真建模的新方法.pdf》资料免费下载
    发表于 11-29 11:22 0次下载
    基于PMSM 控制系统仿真建模的<b class='flag-5'>新方法</b>

    一种产生激光脉冲的新方法

    英国和韩国的科学家提出一种产生激光脉冲的新方法,其功率是现有激光脉冲的1000多倍。
    的头像 发表于 11-20 16:56 261次阅读
    <b class='flag-5'>一种</b>产生激光脉冲的<b class='flag-5'>新方法</b>

    VLSI系统设计的最新方法

    电子发烧友网站提供《VLSI系统设计的最新方法.pdf》资料免费下载
    发表于 11-20 11:10 0次下载
    VLSI系统设计的最<b class='flag-5'>新方法</b>

    一种改善微波模块增益指标温度特性的新方法

    电子发烧友网站提供《一种改善微波模块增益指标温度特性的新方法.pdf》资料免费下载
    发表于 10-25 10:05 0次下载
    <b class='flag-5'>一种</b>改善微波模块增益指标温度特性的<b class='flag-5'>新方法</b>

    分享一种利用胶体量子点(QD)获得中红外发射的新方法

    据麦姆斯咨询报道,近期,美国芝加哥大学(University of Chicago)的研究团队展示了一种利用胶体量子点(QD)获得中红外发射的新方法,这可能为中红外光源开辟新的应用。
    的头像 发表于 10-09 18:04 694次阅读

    一种结构化道路环境中的视觉导航系统详解

    根据结构化道路环境的特点提出一种将边沿检测和道路环境知识相结合的机器视觉算法 , 并结合基于行为响应的路径规划
    发表于 09-25 07:23

    USBブート用ドライバ誤認識後のドライバ更新方法

    USBブート用ドライバ誤認識後のドライバ更新方法
    发表于 07-11 20:20 0次下载
    USBブート用ドライバ誤認識後のドライバ更<b class='flag-5'>新方法</b>

    谷歌新作SPAE:GPT等大语言模型可以通过上下文学习解决视觉任务

    这篇论文揭示了 PaLM 或 GPT 在通过上下文学习解决视觉任务方面的能力,并提出新方法 SPAE(Semantic Pyramid AutoEncoder)。这种
    的头像 发表于 07-09 15:35 842次阅读
    谷歌新作SPAE:GPT等大<b class='flag-5'>语言</b>模型可以通过上下文学习解决<b class='flag-5'>视觉</b><b class='flag-5'>任务</b>

    英伟达提出了同时对未知物体进行6D追踪和3D重建的方法

    一种用于新颖未知动态物体的因果 6 自由度姿态跟踪和 3D 重建的新方法。该方法利用了并发跟踪和神经重建过程的新颖共同设计,能够在几乎实时的在线环境
    的头像 发表于 07-03 10:49 310次阅读
    英伟达<b class='flag-5'>提出</b>了同时对<b class='flag-5'>未知</b>物体进行6D追踪和3D重建的<b class='flag-5'>方法</b>

    基于深度学习的三维点云配准新方法

    一、摘要 本文介绍了一种基于深度学习的三维点云配准新方法。该架构由三个部分组成: (1)编码器由基于卷积图的描述符组成,该描述符对每个点的近邻进行编码,并采用注意机制对表面法线的变化进行编码,突出
    的头像 发表于 06-17 09:54 892次阅读
    基于深度学习的三维点云配准<b class='flag-5'>新方法</b>

    USBブート用ドライバ誤認識後のドライバ更新方法

    USBブート用ドライバ誤認識後のドライバ更新方法
    发表于 05-15 19:09 0次下载
    USBブート用ドライバ誤認識後のドライバ更<b class='flag-5'>新方法</b>