0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

动态环境中基于神经隐式表示的RGB-D SLAM

jf_pmFSk4VX 来源:GiantPandaCV 2024-01-17 10:39 次阅读

1. 原文摘要

神经隐式表示已经被探索用于增强视觉SLAM掩码算法,特别是在提供高保真的密集地图方面。现有的方法在静态场景中表现出强大的鲁棒性,但却难以应对移动物体造成的干扰。在本文中,我们提出了NID-SLAM,它显著地提高了神经SLAM掩码在动态环境中的性能。我们提出了一种新的方法来增强语义掩码中不准确的区域,特别是在边缘区域。利用深度图像中存在的几何信息,这种方法能够准确地移除动态物体,从而降低了相机漂移的概率。此外,我们还引入了一种针对动态场景的关键帧选择策略,它提高了相机跟踪对大尺度物体的鲁棒性,并提高了建图的效率。在公开的RGB-D数据集上的实验表明,我们的方法在跟踪精度和建图质量方面优于竞争的神经SLAM方法。

8e955540-b4d8-11ee-8b88-92fbcf53809c.png

图1. NID-SLAM在我们采集的大型动态场景上的三维重建结果。

2. 方法提出

视觉同时定位与地图建构(SLAM)在各种应用中发挥着关键作用,如机器人导航、增强现实(AR)和虚拟现实(VR)。视觉SLAM算法利用传感器(如单目、立体和RGB-D相机)收集的数据来估计先前未知环境中相机的姿态,并逐步构建周围场景的地图。在各种视觉传感器中,RGB-D相机同时记录颜色和深度数据,为三维环境信息的获取提供了更有效和精确的基础。这增强了大多数SLAM算法的三维重建性能。

最近的方法已经将神经隐式表示引入到SLAM中。最典型的例子就是神经辐射场(NeRF),它将场景颜色和体素密度编码到神经网络的权重中,直接从数据中学习场景细节的高频信息,极大地增强了建图的平滑性和连续性。结合基于体积表示的渲染方法,通过训练,NeRF可以重新合成输入图像,并推广到相邻未见的视点。

但是,这些神经SLAM算法是基于静态环境的假设,其中一些可以处理合成场景中的小动态物体。在真实的动态场景中,这些算法可能会由于动态物体的存在而在稠密重建和相机跟踪精度方面出现显着的性能下降。这可能在很大程度上是由于动态物体导致的数据关联不正确,严重破坏了跟踪过程中的姿态估计。此外,动态物体的信息通常会合并到地图中,妨碍其长期适用性。

语义信息已经在许多研究中被引入到动态场景中的视觉SLAM算法中。其主要思想是将语义信息与几何约束相结合以消除场景中的动态物体。然而,一方面,由于场景中静态信息的减少,这些算法中的地图质量和内在联系较差。另一方面,由于缺乏对未观测区域的合理几何预测能力,这些算法通常存在恢复背景中可观的空洞。

为了解决这个问题,我们提出了神经隐式动态SLAM(NID-SLAM)。我们整合精度提高的深度信息与语义分割以检测和移除动态物体,并通过将静态地图投影到当前帧中以填补这些物体遮挡的背景。

8eaa5e7c-b4d8-11ee-8b88-92fbcf53809c.png

图2. 系统概览。1) 动态物体移除:通过使用语义分割和掩码修正,精确地消除RGB-D图像中的动态物体,然后彻底恢复被遮挡的背景。2) 跟踪:通过最小化损失来优化相机姿态{R, t}。3) 建图:采用基于掩码的策略来选择关键帧,用于优化特征网格场景表示。4) 场景表示:通过表面聚焦的点采样,实现预测的颜色和深度值的高效渲染。

3. 方法详解

图2展示了NID-SLAM的总体框架。给定RGB-D图像流作为输入,我们首先使用专门的动态处理过程移除动态物体。随后,我们通过联合优化相机姿势和神经场景表示来完成跟踪和建图。利用语义先验和深度信息,消除动态物体,并通过静态地图修复这些物体遮挡的背景。在每次建图迭代中,选择关键帧以优化场景表示和相机姿态。渲染是通过对查看射线进行采样并在这些射线上各点处集成预测值来执行的。

3.1 动态物体移除

深度修正:由于深度相机的局限性,物体与相机之间距离增加时的深度估计精度会降低。存在显著误差的深度信息可能导致不正确的数据关联,破坏相机跟踪的稳定性。在高度动态环境中,这些不准确性变得更加明显,增加相机漂移的概率。此外,由于深度信息中的错误,构建的地图可能会出现分层现象,其中本应位于相同深度的图像块在地图上表示为不同深度。因此,我们检测并删除不准确的深度信息。具体来说,我们计算深度图的图像梯度,并将这些梯度用作评估深度信息准确性的指标。当图像的水平或垂直梯度超过预定义阈值时,说明深度存在显著变化,我们将梯度方向上后续像素点的深度设置为零,以减轻深度误差。

基于深度的语义分割:为了检测动态物体,我们采用基于边界框的网络进行输入图像的语义分割,在我们的实验中使用YOLO算法。该网络以RGB原始图像为输入,并输出图像中潜在动态或可移动物体的二进制掩码。语义掩码存在两个主要缺点。首先,它们可能无法完全覆盖动态物体,有时会并入环境中的其他物体。其次,掩码在边界区域容易出错。因此,我们利用深度信息细化掩码。对于原始掩码的每个边界点,我们检查以其为中心的五像素半径区域,计算该区域内掩码中像素的深度值范围。对于此区域内的掩码部分,我们计算所有像素的深度值范围。对于此区域外掩码的像素,其深度值在计算的范围内的像素被认为是掩码的一部分,并随后被整合。

背景修复:对于移除的动态物体,我们使用从以前的视点获得的静态信息来修复被遮挡的背景,合成一个没有动态物体的逼真图像。修复后的图像包含更多的场景信息,使地图的外观更准确,增强了相机跟踪的稳定性。利用先前帧和当前帧的已知位置,我们将一系列先前关键帧投影到当前帧的RGB和深度图像的分割区域。由于这些区域要么尚未出现在场景中,要么已经出现但没有有效的深度信息,因此仍有一些区域保留未填充。图1展示了我们自制数据集中用作输入的三帧和最终重建的场景。可以注意到,动态物体被成功删除,大多数分割部分修复良好。

3.2 基于掩码的关键帧选择

对于跟踪的输入帧,我们选择一组关键帧,表示为K。我们对关键帧的偏好倾向于:1) 动态物体比率较低的帧;2)与前一关键帧重叠率较低的帧。我们使用 和 分别表示输入帧I的两个比率。当这两个比率之和小于阈值 时,我们将当前帧插入关键帧集。为了解决背景修复中的不准确性和遗漏信息,我们减少关键帧中的动态物体比例。这种方法确保整合更多可靠的信息,增强相机跟踪的准确性和稳定性。同时,关键帧之间的重叠更小可以使关键帧集包含更多场景信息。在静态场景中,此策略默认为基于重叠比的选择。

从K中选择关键帧以优化场景表示时,我们在基于覆盖的和基于重叠的策略之间交替,旨在在优化效率和质量之间取得平衡。基于覆盖的策略倾向于覆盖最大场景区域的帧,确保场景边缘区域的全面优化。但是,这种方法通常需要大量迭代才能优化相对较小的边缘区域,降低了整体优化效率。它还会导致重复的选择结果,因为帧的覆盖面积是恒定的,覆盖面积大的帧保持更高的优先级。基于重叠的策略涉及从与当前帧视觉上重叠的关键帧中随机选择。为避免过度关注边缘区域并反复优化相同区域,我们首先使用基于覆盖的策略优化整个场景,然后多次使用基于重叠的策略,定期重复此过程。

3.3 场景表示和图像渲染

wKgaomWnPkOAcrzOAAIgp9qF7-Y380.jpg

3.4 建图和跟踪

wKgZomWnPlmAELGRAADxH1tiVCM653.jpg

4. 实验

本方法在公开的RGB-D数据集上进行了实验,包括TUM RGB-D数据集和Replica数据集,并与现有的方法进行了比较。实验结果表明,该方法在动态环境中的跟踪精度和建图质量方面都优于其他的神经SLAM方法。

8f028516-b4d8-11ee-8b88-92fbcf53809c.png

表1. TUM RGB-D数据集上的相机跟踪结果。评估指标为ATE RMSE。 代表相应文献中没有提到对应的数值。

8f0f4efe-b4d8-11ee-8b88-92fbcf53809c.png

表2. TUM数据集上的平移RPE RMSE结果。

8f199350-b4d8-11ee-8b88-92fbcf53809c.png

表3. TUM数据集上的旋转RPE RMSE结果。

8f33031c-b4d8-11ee-8b88-92fbcf53809c.png

图3. TUM RGB-D数据集上的重建结果。红框标出有动态物体的区域。

8f905486-b4d8-11ee-8b88-92fbcf53809c.png

图4. Replica数据集上的重建结果。红框标出改进的区域。

8fb0ea20-b4d8-11ee-8b88-92fbcf53809c.png

表4. Replica数据集上的重建结果(8个场景的平均值)。

8fc1266a-b4d8-11ee-8b88-92fbcf53809c.png

表5. 消融实验结果。

5. 结论

我们介绍了NID-SLAM,这是一种动态RGB-D神经SLAM方法。我们证明神经SLAM能够在动态场景中实现高质量的建图和可信的孔填充。利用动态物体移除,我们的方法实现了稳定的相机跟踪并创建可重复使用的静态地图。准确获得的无动态物体图像也可以在进一步的应用中使用,如机器人导航。






审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器人
    +关注

    关注

    206

    文章

    27046

    浏览量

    201427
  • RGB
    RGB
    +关注

    关注

    4

    文章

    763

    浏览量

    57416
  • 编解码器
    +关注

    关注

    0

    文章

    227

    浏览量

    23983
  • SLAM
    +关注

    关注

    22

    文章

    390

    浏览量

    31591
  • MLP
    MLP
    +关注

    关注

    0

    文章

    56

    浏览量

    4074

原文标题:NID-SLAM:动态环境中基于神经隐式表示的RGB-D SLAM

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    在未知环境,机器人如何定位、建图与移动?

    的关键。 SLAM问题可以描述为:机器人在未知环境从一个未知位置开始移动,在移动过程根据位置估计和传感器数据进行自身定位,同时建造增量
    发表于 09-21 14:26

    【案例分享】基于BP算法的前馈神经网络

    `BP神经网络首先给出只包含一个层的BP神经网络模型(两层神经网络): BP神经网络其实由两部分组成:前馈
    发表于 07-21 04:00

    2D解析

    《Fundamentals of Computer Graphics》翻译(三):2D直线
    发表于 09-03 12:19

    如何去开发一款基于RGB-D相机与机械臂的三维重建无序抓取系统

    基于RGB-D相机与机械臂的三维重建无序抓取系统有哪些关键技术?如何去开发一款基于RGB-D相机与机械臂的三维重建无序抓取系统?基于RGB-D相机与机械臂的三维重建无序抓取系统是由哪些部分组成的?
    发表于 09-08 06:12

    基于RGB-D图像物体识别方法

    ,在图像块间匹配核函数基础上,应用核主成分分析法提取RGB-D图像的3D形状、尺寸、边缘、颜色等多个互补性核描述子;然后,分别对它们进行LLC编码及空间池化处理以形成相应的图像编码向量;最后,把这些图像编码向量融合成具有鲁棒性、区分性的图像表示
    发表于 12-07 10:22 1次下载
    基于<b class='flag-5'>RGB-D</b>图像物体识别方法

    RGB-D图像是什么

    RGB-D图像其实是两幅图像。
    的头像 发表于 11-01 11:46 1.7w次阅读

    基于UWB、里程计和RGB-D融合的室内定位方法

    的思想,仅消耗极少部分的计算资源就可以将各个传感器融合起来,提高了系统精度。实验结果表明,该方法可以将定位误差抑制在10cm以内将偏转角误差抑制在1以内,彻底解决单一RGB-D摄像头SLAM时跟踪失败的问题。
    发表于 04-25 14:47 14次下载
    基于UWB、里程计和<b class='flag-5'>RGB-D</b>融合的室内定位方法

    用于SLAM神经隐含可扩展编码

    我们提出了NICE-SLAM,一个密集的RGB-D SLAM系统,它具有实时性、可扩展性、预测性和对各种挑战性场景的鲁棒性。
    的头像 发表于 01-30 11:19 493次阅读

    用于快速高保真RGB-D表面重建的神经特征网格优化的GO-Surf

    我们提出了GO-Surf,一种直接的特征网格优化方法,用于从RGB-D序列中准确和快速地重建表面。
    的头像 发表于 03-17 16:35 490次阅读

    基于RGB-D相机的三维重建和传统SFM和SLAM算法有什么区别?

    输入数据流不同。在基于RGB-D相机的三维重建中,输入有深度信息和彩色信息,并且深度信息起主导作用,而在SLAM和SFM算法中输入的是主要是彩色信息,个别工作也有结合深度信息。
    发表于 03-23 12:28 1069次阅读

    用于神经SLAM的矢量化对象建图

    vMAP 是一种基于神经场的对象级密集 SLAM 系统,可根据 RGB-D 输入流实时自动构建对象级场景模型。
    的头像 发表于 06-15 09:29 536次阅读
    用于<b class='flag-5'>神经</b>场<b class='flag-5'>SLAM</b>的矢量化对象建图

    瞄准AGV/AMR领域-维感科技发布高性价比RGB-D ToF相机DS86/87

    维感科技于近期正式对外发售极具性价比的3D ToF RGB-D深度相机新品DS86/87,零售价格分别为4,199元与4,999元。
    发表于 06-16 09:40 311次阅读
    瞄准AGV/AMR领域-维感科技发布高性价比<b class='flag-5'>RGB-D</b> ToF相机DS86/87

    一个动态环境下的实时语义RGB-D SLAM系统

    大多数现有的视觉SLAM方法严重依赖于静态世界假设,在动态环境中很容易失效。本文提出了一个动态环境下的实时语义
    的头像 发表于 08-25 16:49 316次阅读
    一个<b class='flag-5'>动态</b><b class='flag-5'>环境</b>下的实时语义<b class='flag-5'>RGB-D</b> <b class='flag-5'>SLAM</b>系统

    一种基于RGB-D图像序列的协同隐式神经同步定位与建图(SLAM)系统

    提出了一种基于RGB-D图像序列的协同隐式神经同步定位与建图(SLAM)系统,该系统由完整的前端和后端模块组成,包括里程计、回环检测、子图融合和全局优化。
    的头像 发表于 11-29 10:35 237次阅读
    一种基于<b class='flag-5'>RGB-D</b>图像序列的协同隐式<b class='flag-5'>神经</b>同步定位与建图(<b class='flag-5'>SLAM</b>)系统

    常用的RGB-D SLAM解决方案

    BundleFusion是一种稠密的实时室内场景三维重建算法框架。输入为RGB-D相机采集的并且是对齐好的RGB图像和深度图的数据流。输出为重建好的稠密三维场景模型。
    的头像 发表于 04-16 09:37 138次阅读
    常用的<b class='flag-5'>RGB-D</b> <b class='flag-5'>SLAM</b>解决方案