0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用于SLAM的神经隐含可扩展编码

3D视觉工坊 来源:泡泡机器人SLAM 2023-01-30 11:19 次阅读

摘要

最近,神经隐含表征在各个领域显示出令人鼓舞的结果,包括在同步定位和映射(SLAM)方面取得的可喜进展。然而,现有的方法产生了过度平滑的场景重建,并且难以扩展到大场景。这些限制主要是由于其简单的全连接网络结构,没有将局部信息纳入观察范围。

在本文中,我们提出了NICE-SLAM,这是一个密集的SLAM系统,通过引入分层的场景表示,纳入了多层次的本地信息。用预先训练好的几何先验来优化这个表示,可以在大的室内场景中进行详细的重建。与最近的神经隐含SLAM系统相比,我们的方法更具可扩展性、效率和鲁棒性。在五个具有挑战性的数据集上进行的实验表明,NICE-SLAM在映射和跟踪质量方面都具有竞争力。

主要贡献

我们提出了NICE-SLAM,一个密集的RGB-DSLAM系统,它具有实时性、可扩展性、预测性和对各种挑战性场景的鲁棒性。

NICE-SLAM的核心是一个分层的、基于网格的神经隐式编码。与全局神经场景编码相比,这种表示法允许局部更新,这是大规模方法的一个先决条件。

我们在各种数据集上进行了广泛的评估,证明了在映射和跟踪方面具有竞争力的性能。

主要方法

我们的方法将RGB-D图像流作为输入,并以分层特征网格的形式输出摄像机的姿势和学习到的场景表示。从右到左,我们的管道可以被解释为一个生成模型,它根据给定的场景表示和摄像机姿势渲染深度和颜色图像。在测试时,我们通过逆向传播图像和深度重建损失来解决逆向问题,并通过可区分的渲染器(从左到右)来估计场景表现和摄像机的姿势。

这两个实体都是在交替优化中估计的。映射:逆传播只更新层次化的场景表示。跟踪:逆传播只更新摄像机的姿态。为了提高可读性,我们将用于几何编码的细尺度网格与同等大小的颜色网格结合起来,并将它们显示为具有两个属性(红色和橙色)的一个网格。

cbdceb7c-984e-11ed-bfe3-dac502259ad0.png

1. 层次化的场景表示

现在我们介绍一下我们的分层场景表示,它结合了多级网格特征和预训练的解码器,用于占用率预测。几何图形被编码成三个特征网格j l θ和它们相应的MLP解码器f l,其中l∈{0,1,2}是指粗、中、细三级场景细节。此外,我们还有一个单一的特征网格ψω和解码器gω来模拟场景外观。这里θ和ω表示几何和颜色的可优化参数,即网格中的特征和颜色解码器中的权重。

2. 深度和色彩渲染

给定相机的固有参数和当前相机的姿势,我们可以计算出一个像素坐标的观察方向r。我们首先沿着这条射线对Nstrat点进行分层采样,同时对靠近深度的Nimp点进行均匀采样1。

我们对每条射线总共取样N=Nstrat+Nimp点。更正式地说,让pi = o + dir, i∈ {1, - -, N}表示给定摄像机原点o的射线r上的采样点,di对应于pi沿该射线的深度值。对于每一个点pi,我们可以计算出它们的粗粒度占用概率o0 pi,细粒度占用概率opi,和颜色值cpi。

最后,对于每条射线,在粗略和精细层面的深度,以及颜色可以被呈现为:

cbe79db0-984e-11ed-bfe3-dac502259ad0.png

cbf1a6f2-984e-11ed-bfe3-dac502259ad0.png

cbfe2698-984e-11ed-bfe3-dac502259ad0.png

3. 建图和跟踪

建图。

为了优化上文提到的场景表示,我们从当前帧和选定的关键帧中均匀地取样共M个像素。接下来,我们以分阶段的方式进行优化,以最小化几何和光度损失。

几何损失仅仅是观测值和预测深度之间的L1损失,在粗略的或精细的水平上为:

cc061ba0-984e-11ed-bfe3-dac502259ad0.png

光度损失为:

cc0e3d6c-984e-11ed-bfe3-dac502259ad0.png

相机跟踪

除了优化场景表示外,我们还平行运行摄像机跟踪,以优化当前帧的摄像机姿势,即旋转和平移{R,t}。为此,我们对当前帧中的Mt像素进行采样,并应用上面相同的光度损失,但使用一个修改过的几何损失:

cc19600c-984e-11ed-bfe3-dac502259ad0.png

修改后的损失在重建的几何形状中减少了某些区域的权重,例如物体的边缘。摄像机跟踪最终被表述为以下最小化问题:

cc27b26a-984e-11ed-bfe3-dac502259ad0.png

4. 关键帧的选择 与其他SLAM系统类似

我们用一组选定的关键帧不断优化我们的分层场景表示。我们按照iMAP的方法维护一个全局关键帧列表,我们根据信息增益逐步添加新的关键帧。然而,与iMAP相比,我们在优化场景几何时只包括与当前帧有视觉重叠的关键帧。这是可能的,因为我们能够对我们的基于网格的表示进行局部更新,而且我们不会像iMap那样存在关键帧消失的问题。

这种关键帧选择策略不仅确保了当前视图之外的几何形状保持静态,而且还导致了一个非常有效的优化问题,因为我们每次只优化必要的参数。在实践中,我们首先随机地对像素进行采样,并使用优化后的相机姿势对相应的深度进行反投影。

然后,我们将点云投影到全局关键帧列表中的每个关键帧。从这些有点投射到的关键帧中,我们随机选择K-2帧。此外,我们还将最近的关键帧和当前的帧包括在场景表示优化中,形成总共K个活动帧。

主要结果

cc30744a-984e-11ed-bfe3-dac502259ad0.png

cc43f9e8-984e-11ed-bfe3-dac502259ad0.png

cc4cf5e8-984e-11ed-bfe3-dac502259ad0.png

cc599ee2-984e-11ed-bfe3-dac502259ad0.png






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1073

    浏览量

    40156
  • RGB
    RGB
    +关注

    关注

    4

    文章

    762

    浏览量

    57403
  • SLAM
    +关注

    关注

    22

    文章

    390

    浏览量

    31590
  • MLP
    MLP
    +关注

    关注

    0

    文章

    56

    浏览量

    4073

原文标题:NICE-SLAM:用于SLAM的神经隐含可扩展编码(CVPR 2022)

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    动态环境中基于神经隐式表示的RGB-D SLAM

    神经隐式表示已经被探索用于增强视觉SLAM掩码算法,特别是在提供高保真的密集地图方面。
    的头像 发表于 01-17 10:39 485次阅读
    动态环境中基于<b class='flag-5'>神经</b>隐式表示的RGB-D <b class='flag-5'>SLAM</b>

    神经模糊控制在SAW压力传感器温度补偿中的应用

    。鉴于此种情况,本文采用了神经模糊控制方法,对SAW压力传感器进行智能温度补偿。 神经模糊控制是一种用神经网络实现的模糊控制的方法。在形式结构上是用多点网络实现的模糊映射。而神经网络的
    发表于 10-24 11:36

    SLAM技术的应用及发展现状

    近年来,由于扫地机的出现使得SLAM技术名声大噪,如今,已在机器人、无人机、AVG等领域相继出现它的身影,今天就来跟大家聊一聊国内SLAM的发展现状。 SLAM的多领域应用SLAM应用
    发表于 12-06 10:25

    让机器人完美建图的SLAM 3.0到底是何方神圣?

    过程中调整了图结构中每个节点的pose和对应的传感器信息以及所有关键点构建的位姿关系图,利用全部的机器人位姿信息和对应传感器数据生成环境地图。    SLAM 3.0 编码了机器人在SLAM过程中的位
    发表于 01-21 10:57

    【案例分享】基于BP算法的前馈神经网络

    传播的,不会回流),区别于循环神经网络RNN。BP算法(Back Propagation):误差反向传播算法,用于更新网络中的权重。BP神经网络思想:表面上:1. 数据信息的前向传播,从输入层到
    发表于 07-21 04:00

    SLAM技术目前主要应用在哪些领域

      目前,SLAM(即时定位与地图构建)技术主要被运用于无人机、无人驾驶、机器人、AR、智能家居等领域,从各应用场景入手,促进消费升级。  机器人  激光+SLAM是目前机器人自主定位导航所
    发表于 12-01 14:26

    激光SLAM与视觉SLAM有什么区别?

    机器人定位导航中,目前主要涉及到激光SLAM与视觉SLAM,激光SLAM在理论、技术和产品落地上都较为成熟,因而成为现下最为主流的定位导航方式,在家用扫地机器人及商用送餐机器人等服务机器人中普遍采用了...
    发表于 07-05 06:41

    基于视觉的slam自动驾驶

    基于视觉的slam自动驾驶,这是我们测试的视频《基于slam算法的智能机器人》调研分析报告项目背景分析机器人曾经是科幻电影中的形象,目前已经渐渐走入我们的生活。机器人技术以包含机械、电子、自动控制
    发表于 08-09 09:37

    基于可扩展编码的多视角视频编码研究

    本内容提供了基于可扩展编码的多视角视频编码研究
    发表于 09-26 15:39 25次下载
    基于可<b class='flag-5'>扩展</b><b class='flag-5'>编码</b>的多视角视频<b class='flag-5'>编码</b>研究

    57682543slam_code

    基于扩展卡尔曼滤波的SLAM算法相关代码。
    发表于 03-22 14:11 34次下载

    基于隐含狄列克雷分配LDA分类特征扩展的广告过滤方法

    传统的微博广告过滤方法忽略了微博广告文本的数据稀疏性、语义信息和广告背景领域特征等因素的影响。针对这些问题,提出一种基于隐含狄列克雷分配( LDA)分类特征扩展的广告过滤方法。首先,将微博分为正常
    发表于 12-14 14:55 0次下载

    编码器是什么?有什么用

    自动编码器是一种无监督的神经网络模型,它可以学习到输入数据的隐含特征,这称为编码(coding),同时用学习到的新特征可以重构出原始输入数据,称之为解码(decoding)。
    的头像 发表于 08-02 16:47 1.7w次阅读

    编码器介绍

    编码器若仅要求X≈Y,且对隐藏神经元进行稀疏约束,从而使大部分节点值为0或接近0的无效值,便得到稀疏自动编码算法。一般情况下,隐含层的神经
    发表于 06-11 15:07 4677次阅读

    用于神经SLAM的矢量化对象建图

    vMAP 是一种基于神经场的对象级密集 SLAM 系统,可根据 RGB-D 输入流实时自动构建对象级场景模型。
    的头像 发表于 06-15 09:29 533次阅读
    <b class='flag-5'>用于</b><b class='flag-5'>神经</b>场<b class='flag-5'>SLAM</b>的矢量化对象建图

    NeRF何去何从?GS SLAM到底哪家强?来看看最新的开源方案!

    Gaussian-SLAM提出了用于seeding和优化Gaussian splats的新策略,以将其从多视图离线场景扩展到RGBD序列。还扩展了Gaussian splats来
    的头像 发表于 12-26 16:38 599次阅读
    NeRF何去何从?GS <b class='flag-5'>SLAM</b>到底哪家强?来看看最新的开源方案!