0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

HighLight:视觉重定位,同等精度下速度提升300倍

3D视觉工坊 来源:3D视觉工坊 2023-06-01 14:38 次阅读

5d5e0b50-003a-11ee-90ce-dac502259ad0.png

论文题目:Accelerated Coordinate Encoding:Learning to Relocalize in Minutes using RGB and Poses

代码主页:https://github.com/nianticlabs/ace

这篇文章来自CVPR 2023(Highlight),作者来自鼎鼎大名的Niantic Labs,是一个很有名的VR游戏开发公司,做了增强现实游戏Ingress和位置发现应用Field Trip和pokemon go手游。其引领着全球VR游戏的发展历史。

1 介绍

本文是一篇基于学习的视觉定位算法,更具体的是通过网络学习回归图像密集像素三维坐标,建立2D-3D对应后放在鲁棒姿态估计器(RANSAC PNP + 迭代优化)中估计相机六自由度姿态。

与以往基于学习的视觉定位算法的区别在于:以前的方法往往需要数小时或数天的训练,而且每个新场景都需要再次进行训练,使得该方法在大多数应用程序中不太现实,所以在本文中作者团队提出的方法改善了这一确定,使得可以在不到5分钟的时间内实现同样的精度。

具体的,作者讲定位网络分为场景无关的特征backbone和场景特定的预测头。而且预测头不使用传统的卷积网络,而是使用MLP,这可以在每次训练迭代中同时对数千个视点进行优化,导致稳定和极快的收敛。

此外使用一个鲁棒姿态求解器的curriculum training替代有效但缓慢的端到端训练。

其方法在制图方面比最先进的场景坐标回归快了300倍!

curriculum training:Curriculum training是一种训练方法,训练时向模型提供训练样本的难度逐渐变大。在对新数据进行训练时,此方法需要对任务进行标注,将任务分为简单、中等或困难,然后对数据进行采样。

把原来的卷积网络预测头换成MLP预测头的动机是什么?作者认为场景坐标回归可以看作从高维特征向量到场景空间三维点的映射,与卷积网络相比,多层感知器(MLP)可以很好地表示这种映射,而且训练一个特定场景的MLP允许在每次训练迭代中一次优化多个(通常是所有可用的)视图,这会导致非常稳定的梯度,使其能够在非常积极的、高学习率的机制下操作。把这个和curriculum training结合在一起,让网络在后期训练阶段burn in可靠的场景结构,使其模拟了端到端训练方案,以此会极大提升训练速度和效率。

2 主要贡献

(1)加速坐标编码(ACE),一个场景坐标回归算法,可以在5分钟内映射一个新场景,以前最先进的场景坐标回归系统需要数小时才能达到相当的重定位精度。

(2)ACE将场景编码成4MB的网络权重,以前的场景坐标回归系统需要7倍的存储空间

(3)只需要RGB图像和对应的pose进行训练,以前的依赖于像深度图或场景网格这样的先验知识来进行。

3 方法

算法的目标是估计给定的RGB图像I的相机姿态h。定义的相机姿态为一个刚体变换,其将相机空间下的坐标ei映射到场景空间的坐标yi,即yi = h*ei。

其中C表示2D像素位置和3D场景坐标之间的对应,g表示一个鲁棒的姿态估计器。

设计的网络学习预测给定2D图像点对应的3D场景点,即:

其中f表示学习到的权重参数化的网络,表示从图像I的像素位置附近提取的图像patch,所以f是一个patchs到场景坐标的映射。

网络在训练时在所有建图图像用他们的ground truth 作为监督进行训练:

5d6bae54-003a-11ee-90ce-dac502259ad0.png

3.1 通过解关联梯度进行高效训练

作者认为以往的方法在每次训练迭代中优化了成千上万个patch的预测,但它们都来自同一幅图像,因此它们的损失和梯度将是高度相关的。所以这篇文章的关键思想是在整个训练集上随机化patches,并从许多不同的视图中构造batch,这种方法可以解关联batch中的梯度,从而得到稳定的训练,而且对高学习率具有鲁棒性,并最终实现快速收敛。

以往的方法的网络如下图所示,一次一副图像,切图像特征编码器和预测头解码器都是CNN

5d77405c-003a-11ee-90ce-dac502259ad0.png

作者将网络拆分为卷积主干和多层感知器(MLP)头,如下图所示:

5d7fd316-003a-11ee-90ce-dac502259ad0.png

所以网络拆分成两部分:

5d87a2d0-003a-11ee-90ce-dac502259ad0.png

其中是用来预测表示图像特征的高维向量,是用来预测场景坐标的回归头

5d8f0584-003a-11ee-90ce-dac502259ad0.png

作者认为可以用场景无关的卷积网络实现一个通用的特征提取器,可以使用一个MLP而不是另一个卷积网络来实现。这样做因为在预测patch对应的场景坐标时是不需要空间上下文的,也就是说,与backbone不同,不需要访问邻近的像素来进行计算,因此可以用所有图像中的随机样本构建的训练batch,具体就是通过在所有图像上运行预训练的backbone来构建一个固定大小的训练缓冲区,这个缓冲区包含数以百万计的特征及其相关像素位置、相机内参和ground truth ,在训练的第一分钟就产生了这个缓冲。然后开始在缓冲区上迭代主训练循环,即在每个epoch的开始,shuffle缓冲区以混合所有图像数据的特征,在每个训练步骤中,构建数千个特征batch,这可能同时计算数千个视图的参数更新,这样不仅梯度计算对于MLP回归头非常高效,而且梯度也是不相关的,这允许使用高学习速度来快速收敛。

3.2 课程(Curriculum)训练

课程(Curriculum)训练:比如像我们上课一样,开始会讲一些简单的东西,然后再慢慢深入学习复杂的东西,类比网络,就是开始给宽松的阈值,让网络学习简单的知识,后续随着训练时间的进行,增大阈值,让网络学习复杂且鲁棒的知识。

具体的,在整个训练过程中使用一个移动的内阈值,开始时是宽松的,随着训练的进行,限制会越来越多,使得网络可以专注于已经很好的预测,而忽略在姿态估计过程中RANSAC会过滤掉的不太精确的预测。

5d933e2e-003a-11ee-90ce-dac502259ad0.png

这种损失优化了所有有效坐标预测的鲁棒重投影误差,有效的预测指在图像平面前方10cm到1000m之间,且重投影误差低于1000px。

再使用tanh夹持重投影误差:

5d9cf18a-003a-11ee-90ce-dac502259ad0.png

根据在训练过程中变化的阈值τ动态地重新缩放tanh:

5da5c71a-003a-11ee-90ce-dac502259ad0.png

其中t∈(0,1)表示相对训练进度。这个课程训练实现了一个循环的τ阈值时间表,τ阈值在训练开始时保持在附近,在训练结束时趋于。

3.3 Backbone训练

backbone可以使用任何密集的特征描述网络。作者提出了一种简单的方法来训练一个适合场景坐标回归的特征描述网络。为了训练backbone,采用DSAC*的图像级训练,并将其与课程训练相结合。用N个回归头并行地训练N个场景,而不是用一个回归头训练一个场景的backbone。这种瓶颈架构使得backbone预测适用于广泛场景的特性。在ScanNet的100个场景上训练1周,得到11MB的权重,可用于在任何新场景上提取密集的描述符。

4 实验

主要在两个室内数据集7Scenes和12Scenes和一个室外数据集Cambridge上进行训练测试:

5daa2ef4-003a-11ee-90ce-dac502259ad0.png

5db49bd2-003a-11ee-90ce-dac502259ad0.png

和DSAC*比较了在建图训练上的时间损耗:

5dbef118-003a-11ee-90ce-dac502259ad0.png

以及在无地图定位数据集(自己构建的 WaySpots)上的定位结果:

5dc5760a-003a-11ee-90ce-dac502259ad0.png

5dce70f2-003a-11ee-90ce-dac502259ad0.png

5 总结

这是一个能够在5分钟内训练新环境的重定位算法。

与之前的场景坐标回归方法相比,将建图的成本和存储消耗降低了两个数量级,使得算法具有实用性。

是一篇理论与工程完美结合的文章。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 算法
    +关注

    关注

    23

    文章

    4456

    浏览量

    90759
  • 精度
    +关注

    关注

    0

    文章

    247

    浏览量

    19824
  • 卷积网络
    +关注

    关注

    0

    文章

    41

    浏览量

    2129

原文标题:CVPR 2023 | HighLight:视觉重定位,同等精度下速度提升300倍

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    机器视觉测量项目中视觉产品选型须注意的几个方面

    在很多测量项目中,很多因素会直接影响测量效果。下面以打光的稳定性、工件位置的不一致性、标定、物体的运动速度、软件的测量精度等因素分析应该怎样选择合适的工业相机以及视觉检测软件。第一:
    发表于 05-15 15:16

    Highlight Component

    `AD 可以Highlight NET請問可以Highlight Component嗎?運用Customize 語法嗎?請問指令怎寫?或是用select and mask方式達到Highlight
    发表于 12-03 14:18

    康耐视推出全球运行速度最快的视觉传感器

    -- In-Sight 5600。该产品与In-Sight 5400系列产品一样,具备适应恶劣生产环境的优异设计和性能,而且该产品的处理速度和内存容量是后者的两,因此能够以其它视觉传感器无法实现的高线速实施检测
    发表于 10-24 11:36

    低成本高精度定位方案是未来市场趋势,基于uwb高精度定位的案例分析

    高达10cm。隧道人员高精度定位系统支持全天候考勤,对施工人员实时自动(位置)跟踪,结合摄像头可进行无卡检测,全面掌握施工人员在隧道的活动轨迹、位置分布,并且可实现紧急情况的双向报警。最重要的是,当遇到隧道突发事故,可以迅速找
    发表于 11-09 15:19

    直线电机定位精度和重复定位精度

    、直线电机的定位原理说明( 博扬直线电机)直线电机,通常根据机构所要求的精度,配合选择合适的光栅尺,形成闭环反馈,精度高直线电机和光栅尺大致决定了整个系统的定位
    发表于 07-12 06:56

    视觉定位方案求助,谢

    功能:视觉定位玻璃的位置和角度,给平面4轴机器人抓取1.附件是我自己用视觉助手做的验证,很不稳定2.相机是1200W,视野范围是350*200,玻璃规格大小有很多,图片是其中一款3.定位
    发表于 10-05 17:15

    深圳CCD视觉检测定位系统有什么特点?

    识别、测量、定位、判断等功能。那么深圳CCD视觉检测定位系统有什么特点?相信不少人是有疑问的,今天深圳四元数就跟大家解答一!四元数CCD视觉
    发表于 10-09 14:45

    四元数数控:深圳机器视觉引导定位是什么?

    过来的实际物品进行比较。机器视觉引导在许多任务中都能够实现比人工定位高得多的速度精度,比如将元件放入货盘或从货盘中拾取元件,对输送带上的元件进行包装,对元件进行
    发表于 11-24 11:32

    四元数数控:深圳CCD机器视觉定位检测是什么?

    /不合格、有/无等。四元数数控CCD机器视觉的特点是自动化、客观、非接触和高精度,与一般意义上的图像处理系统相比,机器视觉强调的是精度速度
    发表于 11-26 14:03

    CCD视觉定位系统在紫外激光打标机上的应用

    CCD视觉紫外激光打标机,紫外激光打标机有了CCD视觉定位系统的加持在标记加工领域更是如虎添翼,能够将紫外激光打标机的加工效率提升数倍,而且标记的位置更加精准。讲到这里可能很多人还是不
    发表于 03-08 14:20

    深圳市四元数数控技术有限公司机器视觉定位系统的使用理由?

    的工作之下,容易产生疲惫感,从而导致定位速度减慢,且人工视觉进行质量检测的效率低下,精度也不够高,相比之下,使用机器视觉
    发表于 03-09 14:36

    邬贺铨:今年5G定位精度提升0.3米

    在今天举办的“2020科技风云榜”上,中国工程院院士邬贺铨做了关于5G的主题演讲。他表示,去年的疫情催熟了5G及对5G的需求,今年5G定位精度提升到0.3米,定位能力将在自动驾驶、码
    的头像 发表于 01-12 15:00 2118次阅读

    教你们视觉SLAM如何去提高定位精度

    EpsAvlc: 这个事情的回答需要基于你的动机。 如果你想改进已有的算法以获得在数据集上的视觉里程计定位精度上的提升,那么我的判断是比较难。 如果你是在实际场景中发现已有的框架(例如
    的头像 发表于 07-06 10:57 3632次阅读

    铁路转辙机视觉精度定位抓取,大幅提升了产线自动化、柔性化水平

    铁路转辙机视觉精度定位抓取,高精度2D视觉大工件定位,既保证了较高的
    的头像 发表于 03-22 09:03 419次阅读

    CVPR 2023:视觉定位同等精度速度提升300

    与以往基于学习的视觉定位算法的区别在于:以前的方法往往需要数小时或数天的训练,而且每个新场景都需要再次进行训练,使得该方法在大多数应用程序中不太现实,所以在本文中作者团队提出的方法改善了这一确定,使得可以在不到5分钟的时间内实现同样的
    的头像 发表于 06-05 17:26 859次阅读
    CVPR 2023:<b class='flag-5'>视觉</b>重<b class='flag-5'>定位</b>,<b class='flag-5'>同等</b><b class='flag-5'>精度</b>下<b class='flag-5'>速度</b><b class='flag-5'>提升</b><b class='flag-5'>300</b>倍