0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

什么是主动视觉跟踪?让目标与跟踪器“斗起来”

DPVg_AI_era 来源:lq 2019-02-20 09:13 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文是ICLR2019入选论文《AD-VAT: An Asymmetric Dueling mechanism for learning Visual Active Tracking》的深入解读。该论文由北京大学数字视频编解码技术国家工程实验室博士生钟方威、严汀沄在王亦洲老师和腾讯AI Lab研究员孙鹏、罗文寒的指导下合作完成。该研究也入选了2018腾讯AI Lab犀牛鸟专项研究计划。

什么是主动视觉跟踪?

主动视觉跟踪(Visual Active Tracking)是指智能体根据视觉观测信息主动控制相机的移动,从而实现对目标物体的跟踪(与目标保持特定距离)。主动视觉跟踪在很多真实机器人任务中都有需求,如用无人机跟拍目标拍摄视频,智能跟随旅行箱等。要实现主动视觉跟踪,智能体需要执行一系列的子任务,如目标识别、定位、运动估计和相机控制等。

然而,传统的视觉跟踪方法的研究仅仅专注于从连续帧中提取出关于目标的2D包围框,而没有考虑如何主动控制相机移动。因此,相比于这种“被动”跟踪,主动视觉跟踪更有实际应用价值,但也带来了诸多挑战。

左图:一个机器人主动跟随目标移动(图片来自网络)

右图:对比基于强化学习的端到端主动跟踪和传统的跟踪方法[1]

深度强化学习方法有前景,但仍有局限性

在前期的工作[1][2]中,作者提出了一种用深度强化学习训练端到端的网络来完成主动视觉跟踪的方法,不仅节省了额外人工调试控制器的精力,而且取得了不错的效果,甚至能够直接迁移到简单的真实场景中工作。

然而,这种基于深度强化学习训练的跟踪器的性能一定程度上仍然受限于训练的方法。因为深度强化学习需要通过大量试错来进行学习,而直接让机器人在真实世界中试错的代价是高昂的。一种常用的解决方案是使用虚拟环境进行训练,但这种方法最大的问题是如何克服虚拟和现实之间的差异,使得模型能够部署到真实应用当中。虽然已经有一些方法尝试去解决这个问题,如构建大规模的高逼真虚拟环境用于视觉导航的训练,将各个因素(表面纹理/光照条件等)随机化扩增环境的多样性。

对于主动视觉跟踪的训练问题,不仅仅前背景物体外观的多样性,目标运动轨迹的复杂程度也将直接影响跟踪器的泛化能力。可以考虑一种极端的情况:如果训练时目标只往前走,那么跟踪器自然不会学会适应其它的运动轨迹,如急转弯。但对目标的动作、轨迹等因素也进行精细建模将会是代价高昂的且无法完全模拟所有真实情况。

让目标与跟踪器“斗起来”

因此,作者提出了一种基于对抗博弈的强化学习框架用于主动视觉跟踪的训练,称之为AD-VAT(Asymmetric Dueling mechanism for learning Visual Active Tracking)。

在这个训练机制中,跟踪器和目标物体被视作一对正在“决斗”的对手(见下图),也就是跟踪器要尽量跟随目标,而目标要想办法脱离跟踪。这种竞争机制,使得他们在相互挑战对方的同时相互促进共同提升。

当目标在探索逃跑策略时,会产生大量多种多样的运动轨迹,并且这些轨迹往往会是当前跟踪器仍不擅长的。

在这种有对抗性的目标的驱动下,跟踪器的弱点将更快地暴露随之进行强化学习,最终使得其鲁棒性得到显著提升。

在训练过程中,因为跟踪器和目标的能力都是从零开始同步增长的,所以他们在每个训练阶段都能够遇到一个能力相当的对手与之竞争,这就自然得构成了从易到难的课程,使得学习过程更加高效。

然而,直接构造成零和游戏进行对抗训练是十分不稳定且难以收敛的。

AD-VAT概览

如何让对抗更加高效且稳定?

为解决训练的问题,作者提出了两个改进方法:不完全零和的奖赏函数(partial zero-sum reward)和用于目标的跟踪可知模型(tracker-aware model)。

不完全零和奖赏是一种混合的奖赏结构,仅鼓励跟踪器和目标在一定相对范围内进行零和博弈,当目标到达一定距离外时给予其额外的惩罚,此时将不再是零和博弈,因此称之为不完全零和奖赏。

这么设计奖赏函数是为了避免一个现象,当目标快速远离跟踪器时,跟踪器将不能观察到目标,以至于训练过程变得低效甚至不稳定。

上式为跟踪器的奖赏函数,沿用了[1]中的设计思想,惩罚项由期望位置与目标之间的距离所决定。

上式为目标的奖赏函数,在观测范围内,目标与跟踪器进行零和博弈,即奖赏函数为跟踪器的奖赏直接取负。在观测范围外,将在原来的基础上得到一个额外的惩罚项,惩罚项的取值取决于目标与跟踪器的观测边界的距离。

跟踪可知模型是为了让目标能够针对跟踪策略学会更优的对抗策略,所谓“知己知彼,百战不殆”。具体的,除了其自身的视觉观测外,还额外获得了跟踪器的观测和动作输出作为模型的输入。

为了更好地学习关于跟踪器的特征表示,作者还引入了一个辅助任务:预测跟踪器的即时奖赏值。

基于以上改进,“决斗(Dueling)”双方在观测信息、奖赏函数、目标任务上将具备不对称性(Asymmetric),因此将这种对抗机制称之为“非对称决斗(Asymmetric Dueling)”。

实验环境

作者在多种不同的2D和3D环境开展了实验以更进一步验证该方法的有效性。2D环境是一个简单的矩阵地图,用不同的数值分别表示障碍物、目标、跟踪器等元素。

作者设计了两种规则生成地图中的障碍物分布(Block, Maze)。作者设计了两种基于规则的目标运动模型作为基准:漫步者(Rambler)和导航者(Navigator)。

漫步者是随机从选择动作和持续的时间,生成的轨迹往往在一个局域范围内移动(见Block-Ram中的黄色轨迹)。

导航者则是从地图中随机采样目标点,然后沿着最短路径到达目标,因此导航者将探索更大范围(见Block-Nav中的黄色轨迹)。

将这些不同种的地图和目标依次组合,构成了不同的训练和测试环境。作者只用其中的一种地图(Block)用作训练,然后在所有可能的组合环境中测试,从而证明模型的泛化能力。

3D环境是基于UE4和UnrealCV[3]构建的虚拟环境。作者只用一个采取域随机技术(环境中物体表面纹理、光照条件都可以进行随机设置)的房间(DR Room, Domain Randomized Room)进行训练,然后在三个不同场景的近真实场景中测试模型的性能。

实验结果

在2D环境中,作者首先验证了AD-VAT相比基准方法能够带来有效提升,同时进行了消融实验来证明两个改进方法的有效性。

左图为AD-VAT(蓝线)和基准方法在2D环境中的训练曲线,可见AD-VAT能够让跟踪器学得更快更好。右图为消融实验的结果,对比删减不同模块后的学习曲线,作者提出的两个改进方法能够使对抗强化学习的训练更高效。

作者在3D环境中的实验更进一步证明该方法的有效性和实用性。

在训练过程中,作者观测到了一个有趣的现象,目标会更倾向于跑到背景与其自身纹理接近的区域,以达到一种“隐身”的效果来迷惑跟踪器。而跟踪器在被不断“难倒”后,最终学会了适应这些情况。

作者对比了由AD-VAT和两种基准方法训练的跟踪器在不同场景中的平均累计奖赏(左图)和平均跟踪长度(右图)。

其中,雪乡(Snow Village)和地下停车场(Parking Lot)是两个十分有挑战性的环境,每个模型的性能都有不同程度的下降,但该论文提出的模型取得了更好的结果,说明了AD-VAT跟踪器对复杂场景的适应能力更强。

雪乡主要的挑战在于地面崎岖不平,且相机会被下落的雪花、逆光的光晕等因素干扰导致目标被遮挡:

左图为跟踪器第一人称视角,右图为第三人称视角

停车场中光线分布不均匀(亮暗变化剧烈),且目标可能被立柱遮挡:

左图为跟踪器第一人称视角,右图为第三人称视角

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 跟踪器
    +关注

    关注

    0

    文章

    133

    浏览量

    20920
  • 视觉跟踪
    +关注

    关注

    0

    文章

    12

    浏览量

    8932
  • 强化学习
    +关注

    关注

    4

    文章

    273

    浏览量

    11997

原文标题:ICLR2019 | 你追踪,我逃跑:一种用于主动视觉跟踪的对抗博弈机制

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    探索HMC1120LP4E:多功能RMS功率检测与包络跟踪器

    探索HMC1120LP4E:多功能RMS功率检测与包络跟踪器 在射频(RF)系统的设计中,功率检测和包络跟踪是至关重要的功能。而HMC1120LP4E作为一款来自Hittite Microwave
    的头像 发表于 04-23 17:50 919次阅读

    解析HMC1021LP4E:高性能RMS功率检测与包络跟踪器

    解析HMC1021LP4E:高性能RMS功率检测与包络跟踪器 在射频电路设计中,精确的功率检测和高效的包络跟踪是至关重要的性能指标。HMC1021LP4E作为一款多功能的RMS功率检测
    的头像 发表于 04-23 17:25 403次阅读

    新一代单目标 AI 跟踪算法,解决典型困难场景下的跟踪稳定性问题

    作为具备算法定制开发的公司,成都慧视之前的目标跟踪算法均是采用相关跟踪,通过在线更新分类模型来实现目标的定位跟踪。即以当前帧
    的头像 发表于 03-17 17:59 674次阅读
    新一代单<b class='flag-5'>目标</b> AI <b class='flag-5'>跟踪</b>算法,解决典型困难场景下的<b class='flag-5'>跟踪</b>稳定性问题

    在 VisionFive 2 上使用线跟踪器

    /VisionFive 2 SBC 线跟踪器:1 向线跟踪器和 2 向线跟踪器各 地图:黑色条纹A4纸 杜邦线:多 2. The principle of line tracker 本演示中使用的具体线
    发表于 03-05 08:01

    深入解析MAX6877/MAX6878/MAX6879:多电压电源跟踪器/排序/监控

    深入解析MAX6877/MAX6878/MAX6879:多电压电源跟踪器/排序/监控 在电子系统设计中,电源管理是至关重要的一环。对于需要电压跟踪或排序的系统,一款性能出色的电源管
    的头像 发表于 02-28 17:20 1281次阅读

    LTC2927:灵活的单电源跟踪控制,满足多样电源需求

    LTC2927:灵活的单电源跟踪控制,满足多样电源需求 在电子设备的设计中,电源管理至关重要,尤其是在需要对多个电源进行跟踪和排序的应用场景中。今天,我们就来深入了解一下 Linear
    的头像 发表于 02-28 15:50 185次阅读

    LTC2926:MOSFET控制的电源跟踪器的全面解析

    LTC2926:MOSFET控制的电源跟踪器的全面解析 在电子设计领域,电源管理是至关重要的一环,尤其是对于需要精确电源跟踪和排序的应用。今天我们要深入探讨的是Linear Technology
    的头像 发表于 02-28 15:45 255次阅读

    LTC2921/LTC2922系列电源跟踪器与输入监视:特性、应用与设计要点

    LTC2921/LTC2922系列电源跟踪器与输入监视:特性、应用与设计要点 在电子设备的设计中,电源管理是至关重要的一环。尤其是在多电源系统中,如何确保各个电源的稳定、可靠运行,以及实现电源之间
    的头像 发表于 02-28 15:45 301次阅读

    低电压三重热插拔控制/电源排序/电压跟踪器:MAX5930的应用与设计

    低电压三重热插拔控制/电源排序/电压跟踪器:MAX5930/MAX5931的应用与设计 在电子设备的设计中,热插拔功能对于提高系统的可维护性和可靠性至关重要。今天我们将深入探讨MAXIM公司
    的头像 发表于 02-10 15:55 505次阅读

    基于FD-SST 的无人机目标跟踪系统的设计与实现|技术集结

    应用实现功能1.本应用基于睿擎派,实现了对无人机目标的实时跟踪,并将跟踪结果用于驱动两轴转台完成自动指向。主要功能包括:使用FD-SST算法在视频流中实时跟踪无人机
    的头像 发表于 12-10 19:32 1.1w次阅读
    基于FD-SST 的无人机<b class='flag-5'>目标</b><b class='flag-5'>跟踪</b>系统的设计与实现|技术集结

    【开发实例】基于GM-3568JHF开发板安装OpenCV并使用视频目标跟踪 ( CamShift)

    在计算机视觉领域,视频目标跟踪是一个非常重要的任务。视频目标跟踪广泛应用于监控、自动驾驶、人机交互等多个领域。OpenCV提供了多种
    的头像 发表于 09-02 08:04 944次阅读
    【开发实例】基于GM-3568JHF开发板安装OpenCV并使用视频<b class='flag-5'>目标</b><b class='flag-5'>跟踪</b> ( CamShift)

    【GM-3568JHF开发板免费体验】OpenCV 视频目标跟踪 ( CamShift)

    一、基本理论 在计算机视觉领域,视频目标跟踪是一个非常重要的任务。视频目标跟踪广泛应用于监控、自动驾驶、人机交互等多个领域。OpenCV 提
    发表于 08-09 13:19

    创想智控焊缝跟踪系统携手广数机器人实现农机齿轮焊接智能化升级

    随着农业机械行业向智能制造迈进,齿轮焊接作为其中的关键环节,对焊接精度和效率有着更高的要求。传统焊接方式依赖人工操作,难以适应现代化批量生产的需求。创想智控激光焊缝跟踪器携手广数机器人,通过视觉引导与自动跟踪技术,助力农机齿轮焊
    的头像 发表于 07-26 13:46 845次阅读

    基于RK3576开发板的yolov11-track多目标跟踪部署教程

    1.yolov11_track简介(多目标跟踪算法)YOLO11是UltralyticsYOLO系列实时物体检测的最新版本,重新定义了在尖端准确度、速度和效率方面的可能性。在前几代YOLO版本
    的头像 发表于 07-25 15:21 2182次阅读
    基于RK3576开发板的yolov11-track多<b class='flag-5'>目标</b><b class='flag-5'>跟踪</b>部署教程

    Texas Instruments TPS7B4260-Q1低压差 (LDO) 电压跟踪器数据手册

    Texas Instruments TPS7B4260-Q1低压差 (LDO) 电压跟踪器设计用于通过线束为非板载传感提供可靠的电源,即使在恶劣的汽车环境中也可工作。在这种恶劣的工作条件下,线束中
    的头像 发表于 07-04 10:03 862次阅读
    Texas Instruments TPS7B4260-Q1低压差 (LDO) 电压<b class='flag-5'>跟踪器</b>数据手册