如何直接建立2D图像中的像素和3D点云中的点之间的对应关系-电子发烧友网

摘要

准确描述和检测 2D 和 3D 关键点对于建立跨图像和点云的对应关系至关重要。尽管已经提出了大量基于学习的 2D 或 3D 局部特征描述符和检测器，但目前的研究对直接地匹配像素和点的共享描述符，以及联合关键点检测器的推导仍未得到充分探索。

这项工作主要在 2D 图像和 3D 点云之间建立细粒度的对应关系。

为了直接匹配像素和点，提出了一个双全卷积框架，将 2D 和 3D 输入映射到共享的潜在表示空间中，进而同时描述并检测关键点。此外，设计了一种超宽接收机制和一种新颖的损失函数，以减轻像素和点的局部区域间的内在信息变化。广泛的实验结果表明，我们的框架在图像和点云之间的细粒度匹配方面，表现出具有竞争力的性能，并在室内视觉定位任务中取得了SOTA的结果。

图 1：P2-Net 获得的 2D-3D 匹配的示例。所提出的方法，可以通过学习的联合特征描述和检测，直接建立跨图像和点云的对应关系。

一、引言

在图像和点云之间，分别建立准确的像素级和点级的匹配是一项基本的计算机视觉任务，这对于多种应用至关重要，例如SLAM [34]、SFM [44] 、位姿估计 [35]、3D 重建 [25] 和视觉定位 [42]。大多数方法的典型流程是：

首先，在给定图像序列 [24, 41] 的情况下恢复 3D 结构；

然后，根据 2D 到 3D 重投影特征，执行像素和点之间的匹配。

这些特征将是同质的，因为重建的 3D 模型中的点，从图像序列的相应像素来继承描述符。然而，这个两步过程需要精确的 3D 重建，这并不总是可行的，例如，在具有挑战性的光照场景或视点变化很大的情况下。更关键的是，这种方法将 RGB 图像视为首要考量，并忽略了能够直接捕获 3D 点云的传感器的等效性，例如激光雷达、成像雷达和深度相机。

这些因素促使我们考虑像素和点匹配的统一方法，其中可以提出一个悬而未决的问题：如何直接建立 2D 图像中的像素和 3D 点云中的点之间的对应关系，反之亦然。这本质上是具有挑战性的，因为 2D 图像捕捉场景外观，而 3D 点云编码结构。为此，我们制定了直接的 2D 像素和 3D 点匹配的新任务（参见图 1），无需任何辅助的步骤（例如：3D重建）。

这项任务对于现有的传统和基于学习的方法来说，无疑是具有挑战性的，它们无法弥合 2D 和 3D 特征表示之间的差距，因为单独提取的 2D 和 3D 局部特征是不同的，并且不共享共同的embedding。一些最近的研究工作 [20, 39]，尝试通过将 2D 和 3D 输入映射到共享的潜在空间来关联来自不同域的描述符。然而，他们构建了patch-wise描述符，仅具有粗粒度匹配结果。即使可以成功获得细粒度且准确的描述符，直接的像素和点间的对应关系仍然很难建立。

首先，根据不同的策略来提取2D和3D关键点，这导致 2D 中具有良好匹配的因素（例如：平面、视觉上不同的区域，如海报），但不一定对应于3D中强匹配的因素（例如：房间中照明不佳的角落）。

此外，由于点云的稀疏性，一个3D点的局部特征可以映射到许多像素特征，从空间上接近或来自该点的像素中提取得到，从而这也增加了匹配的模糊度。

其次，由于 2D 和 3D 数据属性之间的巨大差异，以及不灵活的优化方式，用于 2D 或 3D 局部特征描述的现有描述符损失公式 [18, 31, 2] 不能保证在新环境下的收敛。此外，目前检测器的设计只专注于惩罚来自安全区域的混杂描述符，在实际中这会导致次优匹配结果。

为了应对所有的这些挑战，我们提出了一个双全卷积框架，称为像素和点网络 (P2-Net)，它能够同时实现2D和3D视图之间的特征描述和检测。此外，在提取描述符时应用了超宽接收机制（ultra-wide reception），用于解决2D像素和3D点的局部区域间的内在信息变化。为了优化网络，我们设计了 P2-Loss，它由两个部分组成：

圆形引导的描述符损失（circle-guided descriptor loss）与完整的采样策略相结合，允许通过在self-paced中优化正匹配和负匹配，从而稳健地学习独特的描述符；

Batch-hard检测器损失（batchhard detector loss,），它通过鼓励正匹配和全局最难匹配之间的差异，从而额外寻求检测的可重复性。

总的来说，我们的贡献如下： 1. 我们提出了一个具有超宽接收机制的联合学习框架，用于同时描述并检测 2D和3D 局部特征，以实现直接的2D 像素和3D 点的匹配。 2. 我们设计了一种新颖的损失函数，由circle-guided的描述符损失和batch-hard的检测器损失组成，以稳健地学习独特的描述符，同时准确地引导像素和点的检测。 3. 我们进行了广泛的实验和消融研究，证明了所提出框架的实用性和新损失的泛化能力，并说明了我们选择的道理。据我们所知，这是第一个为直接像素和点匹配，处理 2D和3D 局部特征描述和检测的联合学习框架。

二、相关工作

2.1 2D局部特征的描述和检测

以前2D 域中基于学习的方法，只是用可学习的替代方法替换了描述符 [50、51、30、19、38] 或检测器 [43、59、4]。最近，二维局部特征的联合描述和检测方法，引起了越来越多的关注。LIFT [57] 是第一个完全基于学习的架构，通过使用神经网络重建 SIFT 的主要步骤来实现这一目标。受 LIFT 的启发，SuperPoint [16] 还将关键点检测作为监督任务处理，在描述之前使用标记的合成数据，然后扩展到无监督版本 [13]。不同的是，DELF [36] 和 LF-Net [37] 分别利用注意力机制和不对称梯度反向传播方案，来实现无监督学习。

与之前单独学习描述符和检测器的研究不同，D2-Net [18] 设计了一个基于非极大值抑制的联合优化框架。为了进一步鼓励关键点的可靠和可重复，R2D2 [40] 提出了一种基于可微平均精度的list-wise排序损失。同时，基于相同的目的，ASLFeat [31] 中引入了可变形卷积。

2.2 3D局部特征的描述和检测

3D 领域的大多数先前工作，集中在描述符的学习上。早期的尝试 [46, 60] 不是直接处理 3D 数据，而是从多视图图像中提取特征表示，从而进行3D 关键点的描述。相比之下，3DMatch [58] 和 PerfectMatch [23] 通过将 3D-Patch分别转换为截断距离函数值和平滑密度值表示的体素网格，从而来构造描述符。Ppf-Net 及其扩展 [14, 15] 直接对无序点集进行操作，以描述 3D 关键点。然而，这种方法需要点云Patch作为输入，导致效率问题。这种约束严重限制了它的实用性，特别是在需要细粒度应用时。

除此之外，FCGF [12] 中提出了具有全卷积设置的密集特征描述。对于检测器学习，USIP [27] 利用概率倒角损失，以无监督的方式检测和定位关键点。受此启发，3DFeat-Net [56] 首次尝试在点块上进行 3D 关键点联合描述和检测，然后由 D3Feat [2] 改进以处理全帧点集。

2.3 2D-3D 局部特征的描述

与在单个 2D或3D 域中，经过充分研究的学习描述符领域不同，很少有人关注 2D-3D 特征描述的学习。[29] 通过将手工制作的 3D描述符直接绑定到学习的图像描述符，为对象级的检索任务生成 2D-3D 描述符。类似地，3DTNet [54] 为 3D-Patch学习独特的 3D 描述符，并从 2D-Patch中提取辅助 2D 特征。

最近，2D3DMatch-Net [20] 和 LCD [39] 都提出学习的描述符，以便在 2D和3D局部Patch之间直接匹配，以解决检索问题。但是，所有这些方法都是基于Patch的，不适用于需要高分辨率输出的实际用途。相比之下，我们的目标是在单个前向传递中，提取每个3D点的描述符并检测关键点的位置，以实现有效应用。

图 2：提出的 P2-Net 框架的概述。

我们的架构是一个双分支全卷积网络，用于同时进行 2D和3D 特征的描述 (A) 以及关键点的检测 (B)。

该网络与描述符损失联合优化，以增强相应特征表示的相似性；同时，检测器损失鼓励更高的判别对应的检测分数。

三、像素和点匹配

在本节中，我们首先详细介绍了所提出的P2-Net的架构，包括联合特征描述和关键点检测[18]。接下来，我们展示我们设计的 P2-Loss，它由循环引导的描述符损失和批量硬检测器损失组成。最后，提供了训练和测试阶段的实验细节。

3.1 P2-Net 架构

在被 L2 归一化后，这些描述符可以很容易地在图像和点云之间进行比较，使用余弦相似度作为度量来建立对应关系。在训练期间，描述符将被优化，以便场景中的像素和点对应产生相似的描述符，即使图像或点云包含强烈的变化或噪声。为清楚起见，我们在下文中仍然使用 d 来表示其规范化形式。

如图 2.A 所示，利用两个全卷积网络分别对图像和点云进行特征描述。然而，由于 2D和3D 局部区域之间信息密度的内在变化，通过描述符将像素与点正确关联并非易事（图 3.A）。具体来说，由于点云的稀疏性，一个3D点提取的局部信息通常大于一个2D像素。

为了解决不对称嵌入的关联问题并更好地捕获局部几何信息，我们设计了基于超宽接收机制（ultra-wide reception mechanism）的 2D 提取器，如图 3.B 所示。为了计算效率，这种机制是通过9个 3×3 卷积层实现的，膨胀值从 1 到 16 逐渐加倍。最后，生成 H×W×128 特征图，然后生成其对应的 H×W×1 检测图可以计算。同样，我们修改 KPconv [49] 以输出 128D 的描述符，以及输入的点云中每个点的分数。

在训练期间，使用峰值[40]将上述过程软化为可训练且密度不变：

在测试过程中，将选择得分最高的像素或点作为匹配的关键点。

图 3：为了减轻 2D和3D 局部区域之间的内在信息变化 (A)，在特征描述的 2D分支中应用了具有逐渐加倍膨胀值的超宽接收机制 (B)，最高可达 16。

3.2 P2-loss 公式

为了使所提出的网络，在单个前向传递中描述和检测 2D和3D 关键点，我们设计了一种新的损失，它联合优化了像素和点的描述和检测目标，称为 P2-Loss：

圆形引导（Circle-guided）的描述符损失。

为了学习独特的描述符，各种优化策略，如hard三元组和hard对比损失 [18,31,2] 已广泛用于 2D 或 3D 领域。然而，这些公式只关注hard负匹配，并且通过实验我们发现：它们在我们的 2D-3D 上下文中没有收敛。受使用权重因子和圆形决策边界的 Circle Loss [47] 的启发，我们设计了一个具有完整采样策略的圆形引导的描述符损失，而不是仅考虑hard负匹配，这允许self-paced优化并避免收敛模糊。

Batch-hard检测器损失。

在检测的情况时，关键点应该足够独特，且可以重复检测。然而，实现这一目标面临两个实际挑战： 1）特征描述中的超宽接收机制，可能会使空间上接近的像素具有非常相似的描述符； 2）我们的描述符损失中的全采样策略，仅对安全区域之外的负匹配有效。它们都会降低关键点的独特性，从而导致错误的分配。为此，我们设计了一个Batch-hard检测器损失，在整个图像或点云空间而不是特定区域上，应用hardest-in-batch策略 [33]，以鼓励最佳匹配的独特性和可重复性。

3.3 实验细节

训练。

我们使用 PyTorch 实现我们的方法。在训练期间，我们使用 1 的batch size，具有超过128个像素点对应关系的图像点云对。为了计算效率，个对应从每对随机采样，以在每一步中进行优化。我们设置平衡因子λ=1，边距m=0.2，比例因子ζ=10，图像邻域像素，点云邻域。最后，我们使用 ADAM 求解器训练网络，并使用 10-4 的初始学习率和指数衰减。

测试。

在测试过程中，我们利用方程式2中展示的硬选择策略。而不是软选择来掩盖空间上太近的检测。此外，类似 SIFT 的边缘消除，应用于图像的关键点检测。为了评估，我们选择与方程式 4中计算的检测分数相对应的前 K 个关键点。

四、实验

我们首先证明了 P2-Net 在直接的2D像素和3D点匹配任务上的有效性，然后在下游任务（即视觉定位）上对其进行评估。此外，我们通过分别与图像匹配和点云配准任务中的最新方法进行比较，检查了我们设计的 P2-Loss 在单个 2D 和 3D 域中的泛化能力。最后，我们研究了损失选择的影响。

4.1 图像和点云匹配

为了实现细粒度的图像和点云匹配，需要一个带有2D像素和3D点对应标注的图像和点云对数据集。据我们所知，没有具有此类对应标签的公开可用数据集。为了解决这个问题，我们在包含 RGB-D 扫描的现有 3D 数据集上标注了 2D-3D 对应标签。

具体来说，我们数据集的 2D-3D 对应关系是在 7Scenes 数据集 [21, 45] 上生成的，该数据集由 7 个室内场景和 46 个 RGB-D 序列组成，包括各种相机运动状态，以及不同条件（例如运动模糊）的感知混叠和室内没有纹理特征的情况。众所周知，这些条件对于图像和点云匹配都具有挑战性。

4.1.1 特征匹配评估

我们对 7Scenes 数据集采用与 [21, 45] 中相同的数据拆分策略，来准备训练集和测试集。具体来说，选择了 18 个序列进行测试，其中包含部分重叠的图像和点云对应，以及 ground-truth 变换矩阵。

评估指标。

为了全面评估我们提出的 P2-Net 和 P2-Loss 在细粒度图像和点云匹配上的性能，在以前的图像或点云匹配任务中，五个指标广泛使用 [31、18、3、27、58、17、2]：

Feature Matching Recall，内点比例高于阈值（τ1 = 0.5）的图像和点云对的百分比；

Inlier Ratio，正确的像素点匹配，在所有可能匹配中的百分比。如果像素和点对之间的距离在其ground-truth变换下低于阈值（τ2 = 4.5cm），则接受为正确匹配；

Keypoint Repeatability，可重复的关键点占所有检测到的关键点的百分比，其中图像中的关键点在真实变换下，如果与点云中最近关键点的距离小于阈值（τ3 = 2cm），则认为图像中的关键点是可重复的；

Recall，正确匹配占所有真实匹配的百分比；

Registration Recall，图像和点云对的估计转换误差小于阈值（RMSE < 5cm）的百分比。

描述符和网络的比较。为了研究描述符的影响，我们报告了

传统 SIFT 和 SIFT3D 描述符的结果；

使用 D2-Net 损失 (P2[D2 Triplet]) [18] 训练的 P2-Net ；

使用 D3Feat 损失 (P2[D3 Contrastive]) [2] 训练的 P2-Net。

此外，为了证明 P2-Net 中 2D 分支的优越性，我们将其替换为 4) R2D2 网络 (P2[R2D2]) [40] 和 5) ASL 网络 (P2[ASL]) [31]。其他的训练或测试设置使用，与我们提出的损失 (P2[Full]) 训练的架构相同，以进行公平比较。其中，P2[R2D2] 和 P2[Full] 都采用 L2-Net 风格的 2D 特征提取器[50]，但后者通过我们的超宽接收机制进行了改进。

如表1中所示。传统的描述符无法匹配，因为手工设计的 2D 和 3D 描述符是异构的。P2[D2 Triplet] 和 P2[D3 Contrastive] 都不能保证像素和点的匹配任务收敛。

然而，当采用我们的损失时，由于 R2D2 和 ASL 的固有特征提取器限制，P2[R2D2] 和 P2[ASL] 模型不仅收敛，而且在大多数场景中表现出更好的性能，除了具有挑战性的楼梯场景。此外，P2[R2D2]和P2[Full]的比较也证明了超宽接收机制的有效性。总体而言，我们的 P2[Full] 在所有评估指标上始终表现更好，在所有场景中都远远优于所有的竞争方法。

检测器的比较。

为了证明联合学习检测器和描述符的重要性，我们报告了使用我们的圆形引导描述符损失，以及：

没有检测器但在推理过程中随机采样关键点（P2[w/o Det]），训练的 P2-Net 的结果；

没有检测器但具有传统的 SIFT 和 SIFT3D 关键点 (P2[Mixed])；

用原始的D2Net检测器（P2[D2 Det]）[18]；

使用 D3Feat 检测器 (P2[D3 Det]) [2]；

我们的 batch-hard检测器损失，但使用随机采样的关键点进行测试（P2[Rand]），用来表明我们提出的检测器的优越性。

从表1可以看出，当检测器没有与整个模型联合训练时，P2[w/o Det] 在所有评估指标和场景上表现最差。在引入传统检测器后，P2[Mixed]对此类指标略有改进。然而，当使用所提出的检测器时，P2[Rand] 比 P2[Mixed] 取得了更好的结果。

这些结果最终表明，检测器的联合学习也有利于加强描述符学习本身。在 P2[D2 Det] 和 P2[D3 Det] 中也可以观察到类似的改进。显然，如果我们的损失完全使用，我们的 P2[Full] 能够在所有评估指标方面保持有竞争力的匹配质量。值得一提的是，特别是在楼梯的场景中，P2[Full] 是唯一在所有指标上都达到出色匹配性能的方法。

相比之下，由于在这种具有挑战性的场景中高度重复的纹理，大多数其他竞争方法都失败了。这表明即使在具有挑战性的条件下，关键点也能被稳健地检测并匹配，这是可靠关键点拥有的理想属性。

定性结果。

图 1 显示了来自不同场景中，图像和点云的前1000个检测到的关键点。图像中检测到的像素（左，绿色）和点云中检测到的点（右，红色）显示在国际象棋和楼梯上。为清楚起见，我们随机突出显示一些好的匹配项（蓝色、橙色），以便更好地展示对应关系。

可以看出，通过我们提出的描述符，这些检测到的2D像素和3D点直接且稳健地关联，这对于现实世界的下游应用至关重要（例如，跨域信息检索和定位任务）。此外，由于我们的网络与检测器联合训练，因此关联能够绕过无法准确匹配的区域，例如重复模式。

更具体地说，我们的检测器主要关注具有几何意义的区域（例如：物体的角和边缘），而不是无特征区域（例如：地板、屏幕和桌面），因此在环境变化中表现出更好的一致性。

表 1：7Scenes 数据集上的比较 [21, 45]。评估指标在给定阈值时报告。

4.1.2 在视觉定位上的应用

为了进一步说明 P2-Net 的实际用途，我们在 7-Scenes 数据集上执行视觉定位的下游任务 [52, 28]。这里的关键定位挑战在于，在显着运动模糊、感知混叠和无纹理模式下，像素和点之间的细粒度匹配。我们针对基于 [48、55] 和场景坐标回归pipeline的 2D 特征匹配 [6、32、5、7、55、28] 来评估我们的方法。请注意，现有baseline只能定位 3D 地图中的查询图像，而我们的方法不受此限制，也可以通过反向查询从 3D 定位到 2D。进行以下实验，以显示我们方法的独特性：

在给定的 3D 地图（P2[3D Map]）中恢复查询图像的相机位姿；

在给定的 2D 中恢复查询点云的位姿地图（P2[2D 地图]）。

评估标准。

我们遵循 [42, 48, 55] 中使用的相同评估pipeline。该pipeline通常将输入作为查询图像和3D点云子图（例如：由 NetVLAD [1] 检索），并利用传统的手工制作的或预训练的深度描述符来建立像素和点之间的匹配。然后将此类匹配作为带有RANSAC [5] 的 PnP 的输入，以恢复最终的相机位姿。

在这里，我们采用 [55] 中的相同设置，来构建覆盖范围高达 49.6 厘米的 2D或3D 子图。由上可知，我们的目标是评估匹配质量对视觉定位的影响，因此我们假设子图已被检索，并更多地关注比较关键点的独特性。在测试期间，我们选择前10000个检测到的像素和点，用来生成用于相机姿态估计的匹配。

结果。

我们按照 [48, 55] 在 110 个测试帧上评估模型。定位精度是根据落在 (5cm, 5°) 阈值内的预测姿态的百分比来衡量的。如图 5 所示，在将 2D 特征与 3D 地图匹配时，我们的 P2[3D 地图] (68.8%) 分别比 InLoc [48] 和 SAMatch [55] 高 2.6% 和 5%，其中传统的特征匹配方法用于定位查询图像。

此外，我们的 P2[3D Map] 比大多数基于场景协调的方法（如 RF1 [6]、RF2[32]、DSAC [5] 和 SANet [55]）提供了更好的结果。DSAC* [8] 和 HSC-Net [28] 仍然表现出比我们更好的性能，因为它们专门针对单个场景进行了训练，并使用单个模型进行测试。相比之下，我们直接使用从 P2[Full] 训练的单一模型。

在将 3D 查询定位到 2D 地图中的独特应用场景中，我们的 P2[2D Map] 也显示出可观的性能，达到 65.1%。然而，其他baseline无法实现这种反向匹配。

图 5：视觉定位的比较。估计的相机位姿的百分比落在(5cm，5°) 范围内

4.2. 单域下匹配

在这个实验中，我们展示了提出的新的 P2-Loss ，如何极大地提高最先进的 2D和3D 匹配网络的性能。

表 2：HPatches 的比较。HEstimation、Precision 和 Recall

以 3 个像素的阈值计算。方法中最好的分数用下划线表示，损失之间较好的用粗体表示。

4.2.1 图像匹配

在图像匹配实验中，我们使用 HPatches 数据集 [3]，该数据集已被广泛用于评估图像匹配的质量 [33、16、40、30、51、38、53]。在 D2-Net [18] 和 ASLFeat [31] 之后，我们排除了 8 个高分辨率序列，分别留下 52 个和 56 个具有照明或视点变化的序列。

为了精确再现，我们直接使用两种最先进的局部特征联合描述和检测方法 ASLFeat 和 D2-Net ，用我们的方法替换它们的损失。Super-Point (SP) [16] 也是一种强大的图像匹配方法。然而，它采用了兴趣点预训练和自标记，需要合成形状和单应性适应，而我们的损失很难直接采用。

尽管如此，我们仍然在表2中报告了 Super-Point 的 2D 匹配结果。以更好地展示其他Baseline的增强功能。特别地是，我们在训练和测试中保持与原论文相同的评估设置。

HPatches 上的结果。

在这里，使用了三个指标[38]：

单应性估计（HEstimation），图像对之间正确单应性估计的百分比；

精度，正确匹配与可能匹配的比率；

Recall，正确预测匹配占所有真实匹配的百分比。

如表中所示。当使用我们的损失时，几乎所有指标，都可以在光照变化下看到明显的改进（高达 3.9%）。唯一的例外发生在 D2-Net 于Recall ，以及 ASLFeat 于 HEstimation，我们的损失几乎可以忽略不计。另一方面，可以在视图变化下的所有指标上观察到，我们方法的性能增益。这一增益范围从 1.2% 到 5.6%。我们提出的优化策略在视图变化下显示出比光照变化时更显着的改进。

4.2.2 点云配准

在 3D 域方面，我们使用 3DMatch [58]，这是一种流行的室内数据集，用于点云配准 [26、15、23、12、11、22、10]。我们遵循 [58] 中相同的评估协议，准备了训练数据和测试数据，54 个场景用于训练，其余 8 个场景用于测试。由于 D3Feat [2] 是唯一联合检测和描述 3D 局部特征的工作，我们将其损失替换为我们的损失进行了比较。为了更好地展示改进，还包括 FCGF [12] 的结果。

3DMatch 上的结果。

我们报告了三个评估指标的性能：1）配准召回（Reg），2）内部比率（IR）和3）特征匹配召回（FMR）。如表3中所示，当采用我们的 P2-Loss（D3 Ours）时，Reg 和 FMR 分别可以有 4% 和 3% 的改进（与 D3Feat 相比）。相比之下，FCGF 和 D3Feat 分别只有 2% 和 0% 的差异。特别是，对于 Inlier Ratio，我们的损失表现出更好的鲁棒性，比 D3Feat 高出 13%，与 FCGF 相当。总体而言，P2-Loss 在所有指标方面始终保持最佳性能。

表 3：3DMatch [58] 上的比较。Reg、FMR 和 IR 在阈值 0.2 m、5% 和 0.1 m 处进行评估。

4.3. 描述符损失的影响

最后，我们分析损失选择对同质或）和异质（2D3D）特征匹配的影响。基于方程式中的检测器损失公式。如图 9 所示，我们可以看到它的优化紧紧地依赖于描述符。因此，我们对描述符优化的三个主要度量学习损失，进行了全面研究，旨在回答：为什么圆形引导的描述符损失最适合特征匹配。

为此，我们使用各种损失公式和架构跟踪正相似度 dp 和最负相似度 dn* (max(dn)) 之间的差异。如图 6（左）显示，在单个/同质 2D或3D 域中，D2-Net 和 D3Feat 都可以逐渐学习独特的描述符。D2-Net始终确保收敛，无论选择的损失，而D3Feat失败时，hard-triplet损失被选择。这与[2]中的结论一致。

在跨域图像和点云匹配中（图6（右），我们比较了不同的损失和 2D 特征提取器。这压倒性地证明了hard-triplet和hard对比损失都不能在任何框架（ASL、R2D2 或P2-Net)。triplet和对比损失都是不灵活的，因为每个相似性的惩罚强度被限制为相等。

此外，它们的决策边界等价于 dp = dn，这会导致模糊收敛 [9, 33]。但是，我们的损失使所有架构都能够收敛，显示出学习独特描述符的可观趋势。由于引入了圆形决策边界，所提出的描述符损失为相似性分配了不同的梯度，从而促进了更稳健的收敛[47]。

有趣的是，我们可以观察到，与同质匹配不同，异构匹配的描述符的可区别性最初是倒置的。由于2D像素和3D点描述符最初是不同的，因此对于初始阶段的正匹配和负匹配，它们的相似性可能非常低。在这种情况下，相对于 dp 和 dn 范围在 [0, 1] 之间的 Abs（梯度）几乎分别接近 1和0 [47]。由于急剧的梯度差异，网络训练中的损失最小化倾向于过分强调 dp 的优化，而牺牲描述符的独特性。随着 dp 的增加，我们的损失减少了它的梯度，因此对 dn 施加了逐渐加强的惩罚，鼓励了 dp 和 dn 之间的独特性。

图 6：随着时间的推移，带有不同网络及损失的正相似度 dp 和最负相似度 dn* 之间的差异。左：单域匹配；右：跨域匹配。

五、结论

在这项工作中，我们提出了 P2-Net，这是一个双全卷积框架，结合超宽接收机制，共同描述并检测 2D和 D 局部特征，以实现2D像素和3D点之间的直接匹配。此外，提出一种新颖的损失函数 P2-Loss ，由圆形引导的描述符损失和 batch-hard的检测器损失组成，旨在明确地引导网络学习独特的描述符，并检测2D像素和3D点的可重复关键点。在2D像素和3D点匹配、视觉定位、图像匹配和点云配准方面的大量实验，不仅展示了我们 P2-Net 的有效性和实用性，还展示了我们的 P2-Loss 的泛化能力和优越性。

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉