CVPR'24 Highlight！跟踪3D空间中的一切！-电子发烧友网

0. 这篇文章干了啥？

运动估计一直通过两种范式来处理：特征跟踪和光流。虽然每种方法都可以实现许多应用，但它们都不能完全捕捉视频中的运动：光流只能为相邻帧产生运动，而特征跟踪只能跟踪稀疏像素。

一个理想的解决方案将涉及在视频序列中估计密集和长程像素轨迹的能力。但当前的解决方案在挑战性场景中仍然存在困难，特别是在复杂变形伴随频繁自遮挡的情况下。这种困难的一个潜在原因在于仅在二维图像空间中进行跟踪，从而忽略了运动的固有三维性质。由于运动发生在三维空间中，某些属性只能通过三维表示来充分表达。例如，旋转可以用三维中的三个参数简洁地解释，遮挡可以简单地用z缓冲表示，但在二维表示中要复杂得多。图像投影可以将空间上远离的区域带到二维空间中，这可能导致用于相关性的局部二维邻域可能包含不相关的上下文（特别是在遮挡边界附近），从而导致推理困难。

为了解决这些挑战，作者建议利用最先进的单目深度估计器的几何先验，将二维像素提升到三维，并在三维空间中进行跟踪。这涉及在三维空间中进行特征相关性计算，为跟踪提供更有意义的三维上下文，特别是在复杂运动的情况下。在三维中跟踪还允许强制执行三维运动先验，例如ARAP约束。鼓励模型学习哪些点一起刚性移动可以帮助跟踪模糊或被遮挡的像素，因为它们的运动可以通过同一刚性组中相邻的清晰可见区域推断出来。

下面一起来阅读一下这项工作~

1. 论文信息

标题：SpatialTracker: Tracking Any 2D Pixels in 3D Space

作者：Yuxi Xiao, Qianqian Wang, Shangzhan Zhang, Nan Xue, Sida Peng, Yujun Shen, Xiaowei Zhou

机构：浙江大学、UC伯克利、蚂蚁集团

原文链接：https://arxiv.org/abs/2404.04319

代码链接：https://github.com/henry123-boy/SpaTracker

官方主页：https://henry123-boy.github.io/SpaTracker/

2. 摘要

视频中恢复密集且长距离的像素运动是一个具有挑战性的问题。部分困难来自于3D到2D的投影过程，导致2D运动领域出现遮挡和不连续性。虽然2D运动可能很复杂，但我们认为潜在的3D运动通常是简单且低维的。在这项工作中，我们提出通过估计3D空间中的点轨迹来减轻图像投影引起的问题。我们的方法，命名为SpatialTracker，使用单眼深度估计器将2D像素转换为3D，使用三平面表示高效地表示每一帧的3D内容，并使用变换器执行迭代更新来估计3D轨迹。在3D中进行跟踪使我们能够利用尽可能刚性（ARAP）约束，同时学习将像素聚类到不同刚性部分的刚性嵌入。广泛的评估表明，我们的方法在定性和定量上都实现了最先进的跟踪性能，特别是在诸如平面外旋转之类具有挑战性的场景中。

3. 效果展示

在三维空间中跟踪2D像素。为了估计遮挡和复杂3D运动下的2D运动，作者将2D像素提升到3D，并在3D空间中执行跟踪。

与TAPIR和Cotracker的2D跟踪进行比较。SpatialTracker可以处理具有挑战性的场景，如平面外旋转和遮挡。

视频中刚性部件的分割。SpatialTracker通过聚类它们的3D轨迹来识别场景中不同的刚性部分。

4. 主要贡献

（1）作者建议使用三平面特征图来表示每个帧的三维场景，首先将图像特征提升到三维特征点云，然后将其喷洒到三个正交平面上。三平面表示紧凑而规则，适合学习框架。

（2）三平面在三维空间中密集覆盖，能够提取任何三维点的特征向量进行跟踪。然后，通过迭代更新使用来自三平面表示的特征的变压器预测的查询像素的三维轨迹。

（3）为了使用三维运动先验正则化估计的三维轨迹，模型另外预测了每条轨迹的刚性嵌入，这使能够软地分组表现出相同刚性体运动的像素，并为每个刚性集群强制执行ARAP正则化。作者证明了刚性嵌入可以通过自监督学习，并产生不同刚性部分的合理分割。

（4）模型在各种公共跟踪基准上实现了最先进的性能，包括TAP-Vid、BADJA和PointOdyssey。对具有挑战性的互联网视频的定性结果还表明了模型处理快速复杂运动和延长遮挡的出色能力。

5. 基本原理是啥？

Pipeline概述。首先使用三面编码器将每个帧编码为三面表示（a）。然后，使用从这些三面提取的特征作为输入，使用变换器在三维空间中初始化并迭代更新点轨迹（c）。三维轨迹使用地面真实注释进行训练，并通过具有学习到的刚性嵌入的尽可能刚性（ARAP）约束进行规范化（d）。ARAP约束强制要求具有相似刚性嵌入的点之间的三维距离随时间保持恒定。这里dij表示点i和j之间的距离，而sij表示刚性相似性。SpatialTracker即使在快速移动和严重遮挡下也能产生准确的远距离运动轨迹（e）。

6. 实验结果

TAP-Vid基准包含几个数据集：TAPVid-DAVIS（约34-104帧的30个真实视频）、TAP-Vid-Kinetics（250帧的1144个真实视频）和RGB-Stacking（250帧的50个合成视频）。基准中的每个视频都使用真实2D轨迹和遮挡进行注释。使用与TAP-Vid基准相同的度量标准来评估性能：平均位置精度（<δavg）、平均Jaccard（AJ）和遮挡精度（OA）。SpatialTracker在所有三个数据集上一致优于所有基线方法，除了Omnimotion之外，展示了在3D空间中进行跟踪的好处。Omnimotion还在3D中执行跟踪，并通过一次性优化所有帧在RGB-Stacking上获得最佳结果，但这需要非常昂贵的测试时间优化。

BADJA是一个包含七个带有关键点注释的动物移动视频的基准。此基准中使用的指标包括基于段的准确性（segA）和3px准确性（δ3px）。SpatialTracker在δ3px方面表现出有竞争力的性能，并在基于段的准确性上大幅超过所有基线方法。

PointOdyssey是一个大规模的合成数据集，其中包含各种各样的动画人物，从人类到动物，置于不同的3D环境中。在PointOdyssey的测试集上评估，该测试集包含12个具有复杂运动的视频，每个视频大约有2000帧。采用PointOdyssey提出的评估度量标准，这些度量标准旨在评估非常长的轨迹。SpatialTracker在所有度量标准上一贯优于基线方法，并且优势明显。特别是，作者展示了通过使用更准确的地面真实深度，模型的性能可以进一步提升。这表明了SpatialTracker在单目深度估计的进步中持续改进的潜力。

3D跟踪结果。

7. 总结 & 讨论

在这项工作中，作者展示了一个适当设计的三维表示对解决视频中稠密且远距离运动估计的长期挑战至关重要。运动自然发生在三维空间中，而在三维空间中跟踪运动使模型能够更好地利用其在三维空间中的规律，例如 ARAP 约束。作者提出了一个新颖的框架，使用可学习的 ARAP 约束，利用三面体表示来估计三维轨迹，该约束能够识别场景中的刚性群，并在每个群体内强制实施刚性。实验表明，与现有基线方法相比，SpatialTracker具有优越的性能，并适用于具有挑战性的真实世界场景。

SpatialTracker依赖于现成的单目深度估计器，其准确性可能会影响最终的跟踪性能。然而，作者预计单目重建技术的进步将提高运动估计的性能。这两个问题能够更密切地相互作用，相互受益。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
41

文章
3364

浏览量
131571
3D

3D

+关注

关注
9

文章
2756

浏览量
106458
三维空间

三维空间

+关注

关注
0

文章
17

浏览量
7430

原文标题：CVPR'24 Highlight！跟踪3D空间中的一切！

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

3D 旗帜动画制作小软件

&amp;nbsp;3D 旗帜动画制作小软件可以将 BMP 和 JPG 格式的图形文件制作成 3D 旗帜动画。程序本身提供了多种特效功能让使用者自行调整使用，像是调整大小、色彩、方向、风的强度、背景

发表于 06-04 13:06

基于空间3D圆拟合圆孔参数测量

【作者】：范梅花;【来源】：《黑龙江畜牧兽医职业学院学报》2009年01期【摘要】：本文提出一种基于空间3D圆拟合圆孔参数的尺寸测量的方法,对原始图像进行边缘保持滤波来减少噪声,用边缘检测算子对椭圆

发表于 04-24 09:25

Xsens携手ST展示3D身体运动跟踪系统

爱丽丝梦游仙境、钢铁侠2和X战警等好莱坞电影巨作提供动作捕获技术，目前Xsens与消费电子业界合作创造独一无二的下一代用户体验和3D身体运动跟踪解决方案。意法半导体执行副总裁兼模拟产品

发表于 12-13 10:38

【原创&整理】Altium 常用3D设计封装库

本帖最后由 first-tech 于 2013-4-3 23:28 编辑 Altium designer 3D设计应用越来越广，应网友要求，在此发布常用的3D设计封装库，欢迎大家下载。附件我会

发表于 04-03 15:28

3d全息声音技术解析

；而相比于对视觉效果的倚重，电影界对于声音效果目前还满足于环绕声阶段。有关人士告诉记者，随着3D技术在表演领域的广泛应用，音乐的创作必将因此受到影响，带来作曲方式上的改变。除了构思旋律之外，艺术家需要在前期创作中就考虑到空间关系，比如希望某

发表于 04-16 10:39

[视频] 无触摸的3D跟踪界面

`[视频] 无触摸的3D跟踪界面`

发表于 07-11 17:52

Labview中如何导入3D 的模型

Labview中如何导入3D 的模型，例如3Dmax生成的模型。尝试过用.STL格式导入Labview。但是3D模型的材质以及一切特性都没有了。只有灰色的轮廓。（单色模型）。如何在la

发表于 01-26 13:13

自己搞一个3D打印机

，同步带，丝杆同步轮（&amp;gt;=16齿），同步带选择2GT型号或者S2M，丝杆一般都直接用M8螺杆。三、电路部分1）控制板3D打印机的大脑，我选用的是arduino atmega2560

发表于 06-14 17:33

AMR技术眸瑞科技：从自动3D建模到工业4.0时代

建模方法基于人工手动完成，耗时长、成本高，不易修改，且工作强度大。如果后期想要对产品加以修改，就需要重新来过，那么这又将是一个漫长的制作过程。例如，在一些复杂的空间设计模型中，仅仅通过CAD图纸与

发表于 03-17 10:21

3D扫描的结构光

，通常情况下，应该至少为SLM像素密度的四倍。扫描期间，任何的物体运动会使数据模糊不清，从而降低测量精度。为了实现所需的3D精度等级，物体运动的越快，就必须越快速地执行一个完整扫描。越快的扫描需要更快速的空间

发表于 08-30 14:51

从视频中跟踪脸部使用2D模式找不到任何面部

，当我使用2D模式，并且选择了“脉冲”模块时，第一帧是正常的，但是从下一帧开始，尽管图像与第一帧相同，但它找不到任何面部。当模式为“3D I

发表于 11-20 11:35

你没看错，浩辰3D软件中CAD图纸与3D模型高效转化这么好用！

3D模型精度低，无法有效利用？零件设计很复杂，手忙脚乱、效率低？各类CAD图纸，都要一笔一画来绘制？每次设计修改，都仿佛是渡劫修仙，熬夜加班，咖啡续命？是时候，改变这一切了！你没看错，浩辰3D

发表于 05-13 14:33

DV102014投射式电容式多点触控，带有3D GestIC传感开发套件

DV102014，DV102014投射式电容式多点触控，带有3D GestIC传感开发套件。 DV102014开发套件是用于评估和设计2D（项目电容）和3D（GestIC）人机界面功能的完整参考系统。这些技术的组合使得用户命令输

发表于 05-25 14:14

浩辰3D的「3D打印」你会用吗？3D打印教程

设计。由浩辰CAD公司研发的浩辰3D作为从产品设计到制造全流程的高端3D设计软件，不仅能够提供完备的2D+3D一体化解决方案，还能一站式集成

发表于 05-27 19:05

嵌入式3D视觉功能相关资料推荐

嵌入式3D相机是一个理想选择。在基于空间视觉（立体视觉）原理的3D相机应用中，相机要以高分辨率及高帧率处理图.

发表于 12-23 07:20

搜索历史

CVPR'24 Highlight！跟踪3D空间中的一切！

评论