0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于未知物体进行6D追踪和3D重建的方法

CVer 来源:CVer 2023-07-03 11:24 次阅读

如今,计算机视觉社区已经广泛展开了对物体姿态的 6D 追踪和 3D 重建。本文中英伟达提出了同时对未知物体进行 6D 追踪和 3D 重建的方法。该方法假设物体是刚体,并且需要视频的第一帧中的 2D 物体掩码。

除了这两个要求之外,物体可以在整个视频中自由移动,甚至经历严重的遮挡。英伟达的方法在目标上与物体级 SLAM 的先前工作类似,但放松了许多常见的假设,从而能够处理遮挡、反射、缺乏视觉纹理和几何线索以及突然的物体运动。

英伟达方法的关键在于在线姿态图优化过程,同时进行神经重建过程和一个内存池以促进两个过程之间的通信。相关论文已被 CVPR 2023 会议接收。

本文的贡献可以总结如下:

一种用于新颖未知动态物体的因果 6 自由度姿态跟踪和 3D 重建的新方法。该方法利用了并发跟踪和神经重建过程的新颖共同设计,能够在几乎实时的在线环境中运行,同时大大减少了跟踪漂移。

引入了混合 SDF 表示来处理动态物体为中心的环境中由于噪声分割和交互引起的不确定自由空间的挑战。

在三个公共基准测试中进行的实验显示了本文方法与主流方法的最先进性能。

英伟达方法的鲁棒性在下图 1 中得到了突出显示。

2032b4b2-18f2-11ee-962d-dac502259ad0.gif

下面是一些 Demo 展示:

206953dc-18f2-11ee-962d-dac502259ad0.gif

与相关工作的对比

此前的 6D 物体姿态估计旨在推断出目标物体在相机帧中的三维平移和三维旋转。最先进的方法通常需要实例或类别级别的物体 CAD 模型进行离线训练或在线模板匹配,这限制了它们在新颖未知物体上的应用。尽管最近有几项研究工作放宽了假设并旨在快速推广到新颖未见的物体,但它们仍然需要预先捕获测试物体的姿态参考视图,而英伟达的设定中并不假设这一点。

除了单帧姿态估计之外,6D 物体姿态跟踪利用时间信息在整个视频中估计每帧物体姿态。与单帧姿态估计方法类似,这些方法在不同的假设条件上进行,例如训练和测试使用相同的物体,或者在相同类别的物体上进行预训练。

然而,与所有以往工作不同的是,英伟达的追踪和重建协同设计采用了一种新颖的神经表示,不仅在实验证实中实现了更强大的跟踪能力,还能够输出额外的形状信息。

此外,虽然 SLAM(同时定位与地图构建)方法解决的是与本研究类似的问题,但其专注于跟踪相机相对于大型静态环境的姿态。动态 SLAM 方法通常通过帧 - 模型迭代最近点(ICP)与颜色相结合、概率数据关联或三维水平集似然最大化来跟踪动态物体。模型通过将观察到的 RGBD 数据与新跟踪的姿态聚合实时重建。

相比之下,英伟达的方法利用一种新颖的神经对象场表示,允许自动融合,同时动态矫正历史跟踪的姿态以保持多视角一致性。英伟达专注于物体为中心的场景,包括动态情景,其中常常缺乏纹理或几何线索,并且交互主体经常引入严重遮挡,这些是在传统 SLAM 中很少发生的困难。与物体级 SLAM 研究中研究的静态场景相比,动态交互还允许观察物体的不同面以进行更完整的三维重建。

方法概览

英伟达方法的概述如下图所示。给定单目 RGBD 输入视频以及仅在第一帧中感兴趣物体的分割掩码,该方法通过后续帧跟踪物体的 6D 姿态并重建物体的纹理 3D 模型。所有处理都是因果的(无法访问未来帧的信息)。英伟达假设物体是刚体,但适用于无纹理的物体。

此外不需要物体的实例级 CAD 模型,也不需要物体的类别级先验知识(例如事先在相同的物体类别上训练)。

21778078-18f2-11ee-962d-dac502259ad0.png

整个框架的流程可以概括为:首先在连续的分割图像之间匹配特征,以获得粗略的姿态估计(第 3.1 节)。其中一些具有姿态的帧被存储在内存池中,以便稍后使用和优化(第 3.2 节)。从内存池的子集动态创建姿态图(第 3.3 节);在线优化与当前姿态一起优化图中的所有姿态。

然后,这些更新的姿态被存储回内存池中。最后,内存池中的所有具有姿态的帧用于学习基于 SDF 表示的神经物体场(在单独并行的线程中),该对象场建模物体的几何和视觉纹理(第 3.4 节),同时调整它们先前估计的姿态,以鲁棒化 6D 物体姿态跟踪。

在这项工作中,一个独特的挑战在于交互者引入的严重遮挡,导致了多视几何不再一致。并且完美的物体分割掩码通常无法得到。为此,英伟达进行了独特的建模以增加鲁棒性。

下面左图:使用视频分割网络(第 3.1 节)预测的二值掩码进行高效的射线追踪的 Octree 体素表示,该物体分割掩码由于来自神经网络的预测难免存在错误。射线可以落在掩码内部(显示为红色)或外部(黄色)。右图:神经体积的 2D 俯视示意图,以及沿着射线进行的混合 SDF 建模的点采样。蓝色样本接近表面。

219e40aa-18f2-11ee-962d-dac502259ad0.jpg

实验和结果

数据集:英伟达考虑了三个具有截然不同的交互形式和动态场景的真实世界数据集。有关野外应用和静态场景的结果,请参阅项目页面。

HO3D:该数据集包含了人手与 YCB 物体交互的 RGBD 视频,由近距离捕捉的 Intel RealSense 相机进行拍摄。

YCBInEOAT:该数据集包含了双臂机器人操作 YCB 物体的第一视角的 RGBD 视频,由中距离捕捉的 Azure Kinect 相机进行拍摄。操作类型包括:(1)单臂拾取和放置,(2)手内操作,以及(3)双臂之间的拾取和交接。

BEHAVE:该数据集包含人体与物体交互的 RGBD 视频,由 Azure Kinect 相机的预校准多视图系统远距离捕捉。然而,我们将评估限制在单视图设置下,该设置经常发生严重遮挡。

评估指标:英伟达分别评估姿态估计和形状重建。对于 6D 物体姿态,他们使用物体几何来计算 ADD 和 ADD-S 指标的曲线下面积(AUC)百分比。对于 3D 形状重建,英伟达计算最终重建网格与地面真实网格之间在每个视频的第一帧定义的规范坐标系中的 Chamfer 距离。

对比方法:英伟达使用官方的开源实现和最佳调整参数与 DROID-SLAM (RGBD) [61]、NICE-SLAM [85]、KinectFusion [43]、BundleTrack [69] 和 SDF-2-SDF [53] 进行比较。此外还包括它们在排行榜上的基准结果。

21b1d28c-18f2-11ee-962d-dac502259ad0.png

21c71584-18f2-11ee-962d-dac502259ad0.png

21e1ae6c-18f2-11ee-962d-dac502259ad0.png

团队介绍

该论文来自于英伟达研究院。其中论文一作是华人温伯文,博士毕业于罗格斯大学计算机系。曾在谷歌 X,Facebook Reality Labs, 亚马逊和商汤实习。研究方向为机器人感知和 3D 视觉。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 3D
    3D
    +关注

    关注

    9

    文章

    2756

    浏览量

    106450
  • 内存
    +关注

    关注

    8

    文章

    2767

    浏览量

    72764
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47685

原文标题:CVPR 2023 | 英伟达提出BundleSDF:对未知物体进行6D追踪和3D重建

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于空间3D圆拟合圆孔参数测量

    【作者】:范梅花;【来源】:《黑龙江畜牧兽医职业学院学报》2009年01期【摘要】:本文提出一种基于空间3D圆拟合圆孔参数的尺寸测量的方法,对原始图像进行边缘保持滤波来减少噪声,用边缘检测算子对椭圆
    发表于 04-24 09:25

    AD+Solidworks配合=3D模型相关问题

    (但使用step导入时,该器件没问题),原因未知,很奇怪。看下效果图。效果预览(二极管丢失了)再看一个其他的小板子预览图④进行器件的3D重建模效果对比。分别为step文件导入SW,X_
    发表于 07-12 11:33

    3D扫描的结构光

    耐用性。由于尺寸、冷却和电池要求,系统设计将光通量和能效视为重中之重。 目前有很多对3D结构光图形进行优化的技术。其中一个特别有效的方法就是自适应图形集。算法确定了图形与波长的最佳组合,以提高被扫描
    发表于 08-30 14:51

    使用LIS3DH加速度计进行6D方向检测怎么设置寄存器

    大家好,我正在使用LIS3DH加速度计,我想检测空间中的设备方向。根据规格,我可以通过6D方向检测功能来做到这一点,但我没有得到任何结果。谁能告诉我哪个是LIS3DH寄存器的正确设置才能使用6
    发表于 09-11 16:37

    Vuforia SDK AR开发vuforia 3D识别追踪使用说明

    。最近有一个3D模型识别的需求。识别图片中的物体,看到物体之后,给我的第一感觉物体层次结构,识别面积比较大,应该会比较好进行识别。然后就根据
    发表于 09-20 10:14

    LIS2DE12TR如何在4D/6D模式下运行

    值/事件? (c)INT2_CFG允许您启用6D模式。在数据表的后面,描述了AOI-6D是从未知区域到已知区域的方向识别。但是如何定义“已知区域”的内容也完全没有了。那么,如何定义“已知区域”,以及
    发表于 02-12 12:13

    如何制作逼真的3D PCB模型和进行3D设计检查

    ,解决更对偏移的问题。 (3)将封装和STEP模型进行匹配完成以后,对应的名称会显示出来。 (4)以此方法,匹配所有的元件模型文件完成以后,选择3DVIEW功能,开启
    发表于 07-06 16:26

    如何做个可以扫描物体3D扫描器?

    想做个可以扫描物体3D扫描器,就是那种扫描出后就可以1比1的3D建模的仪器 需要哪些元件 有没有相关资料 成本如何?
    发表于 08-27 08:07

    PYNQ框架下如何快速完成3D数据重建

    的。为了与下一节中实现的自定义方法进行比较,使用Mesh Lab可视化三维点云。从下图可以看出,渲染是准确的。使用PYNQ板生成3D点云耗时42.973997秒。这说明视差图和点云生成是三维模型实时生成
    发表于 01-07 17:25

    浩辰3D的「3D打印」你会用吗?3D打印教程

    「重定向设置」中进行相应的参数设置。步骤二:当3D模型超出打印机空间时,浩辰3D会自动识别相应的参数,将超出打印机空间外的零件模型部分显示为红色。步骤三:使用浩辰3D的「重定向」命令条
    发表于 05-27 19:05

    使用结构光的3D扫描介绍

    随着很多全新技术的涌现,人们越来越需要用3D方法来表示现实世界中的物体。特别是机器视觉和机器人技术,它们都得益于精确和自适应的3D捕捉功能。其它针对
    发表于 11-16 07:48

    3D扫描到底是如何进行的?

    包括物体表面的空间位置、质地、反射率、透射率,还可能包括颜色。高品质的扫描仪能快速提供多种物体的精确测量值,并且有着高分辨率及低创性;此类扫描仪易于使用,同时极具成本效益。DLP技术可用于实现高品质扫描仪。 那么,3D扫描到底是
    发表于 11-17 06:02

    使用DLP技术的3D打印

    在一起,从而产生一个实际的3D物体。在使用SLA时,这一材料是用紫外 (UV) 光源进行固化的树脂。随着树脂的固化,它的单体交联产生了一个聚合物链,从而产生一个固态物质。当SLA与DLP芯片组组合在一起使用时
    发表于 11-18 07:32

    光学3D表面轮廓仪可以测金属吗?

    光学3D表面轮廓仪是基于白光干涉技术,结合精密Z向扫描模块、3D 建模算法等快速、准确测量物体表面的形状和轮廓的检测仪器。它利用光学投射原理,通过光学传感器对物体表面
    发表于 08-21 13:41

    英伟达提出了同时对未知物体进行6D追踪3D重建方法

    一种用于新颖未知动态物体的因果 6 自由度姿态跟踪和 3D 重建的新方法。该方法利用了并发跟踪和
    的头像 发表于 07-03 10:49 308次阅读
    英伟达提出了同时对<b class='flag-5'>未知</b><b class='flag-5'>物体</b><b class='flag-5'>进行</b><b class='flag-5'>6D</b><b class='flag-5'>追踪</b>和<b class='flag-5'>3D</b><b class='flag-5'>重建</b>的<b class='flag-5'>方法</b>