0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

采用带有transformer的端到端框架获取对应集合结果

3D视觉工坊 来源:3D视觉工坊 作者:Zi Jian Yew,Gim Hee L 2022-10-09 14:37 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

1.摘要

最近将学习的方式引入点云配准中取得了成功,但许多工作都侧重于学习特征描述符,并依赖于最近邻特征匹配和通过RANSAC进行离群值过滤,以获得姿态估计的最终对应集合。在这项工作中,我们推测注意机制可以取代显式特征匹配和RANSAC的作用,从而提出一个端到端的框架来直接预测最终的对应集。我们使用主要由自注意力和交叉注意力的transformer层组成的网络架构并对其训练,以预测每个点位于重叠区域的概率及其在其他点云中的相应位置。然后,可以直接根据预测的对应关系估计所需的刚性变换,而无需进一步的后处理。尽管简单,但我们的方法在3DMatch和ModelNet基准测试中取得了一流的性能。我们的源代码可以在https://github.com/yewzijian/RegTR.

2.引言

刚性点云配准指找到对齐两个点云的最佳旋转和平移参数的问题。点云配准的通用解决方案流程如下:1)检测关键点,2)计算这些关键点的特征描述符,3)通过最近邻匹配获得假定的对应关系,4)通常使用RANSAC以稳健的方式估计刚性变换。近年来,研究人员将学习的方式应用于点云配准,这些工作中有许多侧重于学习特征描述符,也有包括关键点检测,且最后两个步骤通常保持不变,因为这些方法仍然需要最近邻匹配和RANSAC来获得最终转换。这些算法在训练过程中没考虑后处理,其性能对后处理的选择很敏感,以选择正确的对应关系,如RANSAC中采样的兴趣点或距离阈值。

一些方法通过使用从局部特征相似性得分计算的软对应来估计对齐方式,从而避免了不可微的最近邻匹配和RANSAC步骤。在这项工作中,我们采用了稍微不同的方法。我们注意到,这些工作中学习到的局部特色主要用于建立对应关系。因此,让网络直接预测一组清晰的对应关系,而不是学习好的特征。受到最近一系列工作的激励,这些工作利用transformer注意力层,以最少的后处理来预测各种任务的最终输出。虽然注意机制以前曾被用于点云和图像的配准中,但这些工作主要是利用注意力层来聚集上下文信息,以学习更多的区分性的特征描述符,后续的RANSAC或最优转换步骤仍然经常用来获得最终的对应关系。相比之下,Regis-tration Transformer(REGTR)利用注意力层直接输出一组一致的最终点对应关系,如图1所示。由于网络输出清晰的对应关系,可以直接估计所需的刚性转换,而不需要额外的近邻匹配和RANSAC步骤。

poYBAGNCbMuAYRZmAAOs94WL0KY415.png

图1 REGTR网络流程图

首先,REGTR主干使用点卷积来提取一组特征,同时对输入的点云进行下采样。这两个点云的特征被传递到多个transformer层,这些transformer层包含多头自注意力和交叉注意力,方便全局信息聚合。同时通过位置编码考虑点的位置,以允许网络利用刚性约束纠正不好的对应关系。然后,使用生成的特征预测下采样点的相应变换位置。此外,通过预测重叠概率分数来计算刚性变换时预测的对应关系。与常见的通过最近邻特征匹配计算对应关系的方法不同,该方法要求兴趣点位于两个点云中的相同位置,本文提出的网络经过训练可以直接预测出相应的点位置。因此,不需要对大量兴趣点或产生可重复点的关键点检测器进行采样,而是在简单的网格下采样点上建立对应关系。

尽管REGTR设计简单,但它在3DMatch和ModelNet数据集上实现了最先进的性能。由于不需要在大量假对应上运行RANSAC,因此运行时间也很快。总之,我们的贡献是:

•通过自注意力和交叉关注力直接预测一组一致的最终点对应,而不使用常用的RANSAC或最优转换层。

•对多个数据集进行了评估,虽然使用了少量对应关系,但仍实现了精确配准,并展示了最先进的性能。

3.定义问题

poYBAGNCbNeAEDSWAABPVreA39s033.png

4.方法设计

pYYBAGNCbOKAcJiHAAJnj9VKn18773.png

图2 REGTR网络整体结构

4.1 下采样和特征提取

poYBAGNCbOyAUFWXAADdJUDj3MA569.png

4.2 交叉编码的transformer层

前一节中的KPConv特征会线性投影到低维(d=256),然后馈入交叉编码的transformer层(L=6)。每个交叉编码的transformer有三个子层:1)分别在两个点云上运行的多头自注意力层;2)使用其他点云信息更新特征的多头交叉注意力层;3)位置型前馈网络。交叉注意力使网络能够比较来自两个不同点云的点,而自注意力允许点在预测其自身变换位置时与同一点云内的其他点交互。值得注意的是网络权重在两个点云之间共享,但在层之间不共享。

子层注意力。每个子层中多头注意力定义为:

pYYBAGNCbPaAEXsfAAC6hpFqQmo936.png

每个子层都应用残差连接和层归一化,并使用pre-LN排序,因为更容易优化。query,key,value设置在相同点云的自注意力层中,这能够关注到同一点云的其余部分。对于交叉注意力层,key和value被设置为来自其他点云的特征,这可以让每个点与其他点云中的点交互。

位置型前馈网络。该子层分别对每个关键点的特征进行操作。和通常的实现方式一样,在第一层后使用带ReLU激活函数的两层前馈网络,还应用了残差连接和层归一化。

位置编码。与以往使用注意力来学习区分特征的方案不同,本文的transformer层取代了RANSAC,即向每个transformer层的输入添加正弦位置编码来合并位置信息。

pYYBAGNCbQOAUD2pAAA_m19qh70333.png

4.3解码输出

现在约束特征可用于预测出转换的关键点坐标,因此使用两层MLP获取需要的坐标。

poYBAGNCbQ2AVLZ2AAFb03hpTtg354.png

4.4估计刚性变换

pYYBAGNCbR2AHY1zAADsZzq982M469.png

4.5损失函数

使用ground truth位姿进行端对端的训练网络,采用如下损失进行监督:

poYBAGNCbSqAVfSQAAMey-n4Mug508.png

图3一对点云(左),密集点对应的ground truth标签(中),下采样关键点(右)

对应关系损失。对重叠区域中关键点的预测变换位置应用L1损失:

poYBAGNCbTWASeMRAAKL3T5aCGM047.png

5.实验

本文以3DMatch和ModelNet40数据集进行实验与测试,以配准召回率(RR),相对旋转误差(RRE)和相对平移误差(RTE)为评价指标。配准结果

5.1数据集和结果

3DMatch。对比结果如表1所示,可以看出本文方法实现了跨场景的最高平均配准召回率,在3DMatch和3DLoMatch基准上都达到了最低的RTE和RRE,虽然只使用了少量的点进行位姿估计。

表1 在3DMatch和3DLoMatch数据集上的性能对比

poYBAGNCbXCAF46aAAEnNHZlzHI022.png

ModelNet40。跟基于对应关系的端对端的配准方法进行比较,在正常重叠(ModelNet)和低重叠(ModelLoNet)下, REGTR在所有指标上都大大优于所有对比方法。本文的注意力机制能够超越最佳转换(RPM-Net)和RANSAC步骤(Predator)。定性结果如图4所示。

表2 ModelNet40数据集评估结果

poYBAGNCbd6AW17cAAJkEJdtyN4362.png

图4 定性分析结果((a,b)为3DMatch,(c,d)为3DLoMatch, (e)为ModelNet40, (f)为ModelLoNet)

5.2分析对比

运行时间。将本文方法和表3中的方法进行对比,可以发现本文方法在100ms以下运行,可以应用于许多实时程序中。

表3 3DMatch测试集的运行时间对比(ms)

pYYBAGNCbVmAA4RaAACwEqZQ_cI090.png

注意力可视化。如图5所示,当该点位于非信息区域,因此该点会关注第一个transformer层中其他点云中的多个类似外观区域(图5a)。在第六层,该点确信其位置,并且主要关注其正确的对应位置(图5b)。自注意力(图5c)显示了利用丰富特征区域帮助定位到正确位置。

poYBAGNCbU6AbSLpAAISqKFbC2g231.png

图5 注意力权重可视化

5.3消融实验

本节进一步对3DMatch数据集进行消融实验研究,以了解各种成分的作用,结果如表4所示。

与RANSAC的比较。尝试将RANSAC应用于REGTR进行预测对应,以确定性能是否进一步提高。表4第7行显示的配准召回情况稍差。这表明RANSAC对已经与刚性变换一致的预测对应不再有益。

解码方案。将坐标解码为坐标的加权和(公式4)与使用MLP回归坐标的方法相比,将坐标计算为加权和可以获得更好的RTE和RRE,但配准召回率更低,见表4第2行和第6行。

消融损失。表4第3-6行显示了配置不同损失函数时的配准性能。在没有特征损失来指导网络输出的情况下,3DMatch和3DLoMatch的注册召回率分别降低了1.6%和2.9%,使用circle损失也表现不佳,因为网络无法有效地将位置信息合并到特征中。

表4 消融实验对比结果

poYBAGNCbUSAHZgFAADdZRQfYkk641.png

6.局限性

本文使用具有二次复杂度的transformer层阻止了它在大规模点云上使用,并且只能将其应用于下采样后的点云。虽然直接预测对应关系减轻了分辨率问题,但更精细的分辨率可能会导致更高的性能。我们尝试了具有线性复杂度的transformer层,但其性能较差,可能替代的解决方法包括使用稀疏注意力,或执行从粗到细的配准。

7.结论

本文提出了用于刚性点云配准的REGTR网络,它使用多个transformer层直接预测清晰的点对应关系,无需进一步的最近邻特征匹配或RANSAC步骤,即可根据对应关系估计刚性变换。直接预测对应关系克服了使用下采样特征带来的分辨率问题,并且我们的方法在场景和对象点云数据集上都达到了最先进的性能。

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 检测器
    +关注

    关注

    1

    文章

    926

    浏览量

    49669
  • 数据集
    +关注

    关注

    4

    文章

    1231

    浏览量

    26054

原文标题:REGTR:带有transformer的端对端点云对应(CVPR2022)

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何训练好自动驾驶模型?

    [首发于智驾最前沿微信公众号]最近有位小伙伴在后台留言提问:算法是怎样训练的?是模仿学习、强化学习和离线强化学习这三类吗?其实
    的头像 发表于 12-08 16:31 971次阅读
    如何训练好自动驾驶<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>模型?

    智驾模拟软件推荐——为什么选择Keymotek的aiSim?

    随着自动驾驶技术的快速发展,车企和科技公司对于模拟测试平台的需求越来越强。从L2/ADASL4/L5等级的自动驾驶,虚拟模拟已经成为其中的关键一环。特别是对于「」智驾(
    的头像 发表于 11-18 11:35 565次阅读

    Nullmax轨迹规划论文入选AAAI 2026

    11月8日,全球人工智能顶会 AAAI 2026 公布论文录用结果,Nullmax 研发团队的轨迹规划论文成功入选。该论文创新提出一种由粗
    的头像 发表于 11-12 10:53 551次阅读

    自动驾驶中仿真与基于规则的仿真有什么区别?

    在自动驾驶领域,“仿真”指的是将感知控制的整个决策链条视为一个整体,从而进行训练和验证的思路。
    的头像 发表于 11-02 11:33 1443次阅读

    自动驾驶中“一段式”和“二段式”有什么区别?

    [首发于智驾最前沿微信公众号]最近有小伙伴提问,一段式和二段式有什么区别。其实说到自
    的头像 发表于 10-24 09:03 642次阅读
    自动驾驶中“一段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”和“二段式<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>”有什么区别?

    蔚来模型化架构如何大幅提升安全上限

    2024年7月,蔚来将行业首个基于模型化架构的「自动紧急制动 AEB」推送上车,蔚来也成为了行业首家使用
    的头像 发表于 08-15 15:35 700次阅读

    Transformer自动驾驶架构中是何定位?

    状态的主观理解。随后,该模型再将理解结果交由行为规划子模块去执行,使得端过程具有一定结构化逻辑,从而兼顾可解释性与泛化能力。
    的头像 发表于 08-03 11:03 1120次阅读

    Nullmax自动驾驶最新研究成果入选ICCV 2025

    近日,国际计算机视觉大会 ICCV 2025 正式公布论文录用结果,Nullmax 感知团队在自动驾驶方向的最新研究成果《HiP-AD: Hierarchical
    的头像 发表于 07-05 15:40 1572次阅读
    Nullmax<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自动驾驶最新研究成果入选ICCV 2025

    为什么自动驾驶大模型有黑盒特性?

    [首发于智驾最前沿微信公众号]随着自动驾驶技术落地,(End-to-End)大模型也成为行业研究与应用的热门方向。相较于传统自动驾驶系统中的模块化结构,
    的头像 发表于 07-04 16:50 604次阅读
    为什么自动驾驶<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>大模型有黑盒特性?

    一文带你厘清自动驾驶架构差异

    [首发于智驾最前沿微信公众号]随着自动驾驶技术飞速发展,智能驾驶系统的设计思路也经历了从传统模块化架构大模型转变。传统模块化架构将感知、预测、规划和控制等子任务拆分开,分别由不
    的头像 发表于 05-08 09:07 794次阅读
    一文带你厘清自动驾驶<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>架构差异

    小米汽车智驾技术介绍

    后起之秀,小米在宣布造车前被非常多的人质疑,但在“真香”定律下,小米创下了很多友商所不能及的成就。作为科技企业,小米也在智能驾驶领域也不断研发及突破,并推送了自动驾驶系统。 小米
    的头像 发表于 03-31 18:17 4794次阅读
    小米汽车<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>智驾技术介绍

    动量感知规划的自动驾驶框架MomAD解析

    自动驾驶框架实现了感知与规划的无缝集成,但通常依赖于一次性轨迹预测,这可能导致控制不稳定,并且对单顿感知中的遮挡问题较为敏感。为解决这一问题,我们提出了动量感知驾驶
    的头像 发表于 03-18 09:31 1479次阅读
    动量感知规划的<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>自动驾驶<b class='flag-5'>框架</b>MomAD解析

    国产万兆以太网通信芯片提供的车载网络解决方案

    国产万兆以太网通信芯片提供的车载网络解决方案
    的头像 发表于 02-28 10:01 964次阅读
    国产万兆以太网通信芯片提供<b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>的车载网络解决方案

    自动驾驶技术研究与分析

    编者语:「智驾最前沿」微信公众号后台回复:C-0450,获取本文参考报告:《自动驾驶行业研究报告》pdf下载方式。 自动驾驶进入2024年,
    的头像 发表于 12-19 13:07 1527次阅读

    在自动泊车的应用

    与城市环境的复杂性和高速公路驾驶的风险相比,停车场景的特点是低速、空间有限和高可控性。这些特点为在车辆中逐步部署自动驾驶能力提供了可行的途径。最重要的是自动泊车对时间不敏感,而自动驾驶帧率至少
    的头像 发表于 12-18 11:38 1501次阅读
    <b class='flag-5'>端</b><b class='flag-5'>到</b><b class='flag-5'>端</b>在自动泊车的应用