0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于RGM的鲁棒且通用的特征匹配

3D视觉工坊 来源:计算机视觉工坊 2023-11-27 11:32 次阅读

作者:泡椒味的口香糖

0. 笔者个人体会

特征匹配包括稀疏匹配和稠密匹配,这方面的深度模型这两年很多了,效果也都很好。但是同时实现稀疏匹配和稠密匹配的通用模型还比较少,主要是因为联合训练会引入大量噪声,模型架构不好设计。而且相关的训练数据不好找,直接把几个数据集堆一起训练又会出现各种各样的域问题。

最近,浙大就开源了一项工作,以一个通用模型同时实现稀疏匹配和稠密匹配。笔者认为,这篇文章的意义不是提出了一个最新的匹配模型,而在于通用模型的设计+训练思路。学习了这种思路,就可以将这种框架泛化到其他任务上。

1. 效果展示

浙大最新发布的RGM实现了一个通用模型,具体效果是同时实现稠密匹配和稀疏匹配。这里面的稠密匹配也就是光流匹配,还可以根据匹配关系投影RGB图像做两视角重建。

与其他SOTA方法相比,RGM估计的光流更细腻,边缘更完整。

目前这篇文章已经开放了github,但是暂时代码还没有开源,感兴趣的小伙伴可以跟踪一下。下面来看一下具体的论文信息

2. 摘要

在一对图像中寻找匹配的像素是具有各种应用的基本计算机视觉任务。由于光流估计和局部特征匹配等不同任务的特定要求,以前的工作主要分为稠密匹配和稀疏特征匹配,侧重于特定的体系结构和特定任务的数据集,这可能在一定程度上阻碍了特定模型的泛化性能。在本文中,我们提出了一个稀疏和稠密匹配的深度模型,称为RGM (鲁棒通用匹配)。特别地,我们精心设计了一个级联的GRU模块,通过在多个尺度上迭代地探索几何相似性来进行细化,然后使用一个附加的不确定性估计模块来进行稀疏化。为了缩小合成训练样本和真实世界场景之间的差距,我们通过以更大的间隔生成光流监督,来构建具有稀疏匹配真值的新的大规模数据集。因此,我们能够混合各种稠密和稀疏匹配数据集,显著提高训练多样性。通过在大规模混合数据上以两阶段的方式学习匹配和不确定性估计,我们提出的RGM的泛化能力得到了极大的提高。跨多个数据集的zero-shot匹配和下游几何估计实现了卓越的性能,大大超过了以前的方法。

3. 算法解析

RGM这篇文章的目的是要设计一个统一的框架来同时实现稠密匹配和稀疏匹配,但本身两个任务的特性不同,直接设计多任务网络效果不好。所以作者的思想就很巧妙,先设计一个光流稠密匹配网络,再紧跟一个稀疏化网络。

整个Pipeline很直观,可以分成特征提取、稠密匹配、稀疏化三个部分。首先将输入图像利用CNN和Transformer提取特征金字塔,然后使用级联GRU的网络进行稠密匹配,之后通过不确定性估计来过滤得到稀疏匹配,匹配结果就可以直接用于位姿估计、两视角重建等下游任务。

c24f1346-7566-11ee-939d-92fbcf53809c.png

这里面还有几个细节需要注意:

1、为什么要提取特征金字塔,而不是使用某个特征层?

虽然感受野更大,但在1/8分辨率下会损失很多细节。作者这里使用的是{1/8,1/4,1/2}分辨率的三层金字塔,其中前两层使用Swin-Transformer的自我注意和交叉注意进行特征增强。

2、这个GRU模块是啥?

这里也是一个trick,就是不在每个尺度上都建立图像对的关联,而在金字塔的两个底层建立局部关联。对于1/8的低分辨率层执行点积运算:

c25acefc-7566-11ee-939d-92fbcf53809c.png

其中Fr和Ft是特征金字塔,D是维度。然后再用平均池化作为RAFT来构建相关金字塔,给定当前的光流估计f和半径r,就可以构建两个高分辨率的特征融合计算:

c25f0fa8-7566-11ee-939d-92fbcf53809c.png

给定相关性和上下文信息,就可以估计运动信息并将其馈送给GRU优化光流残差,然后迭代得优化光流:

c26702f8-7566-11ee-939d-92fbcf53809c.png

3、稀疏化如何实现?

在获得稠密匹配之后,可以直接冻结匹配网络并开始稀疏化。根据估计出的光流可以warp特征图和RGB图计算差异。然后将差值送给CNN计算损失,具体是根据mask真值计算的二进制交叉熵:

c26b4a7a-7566-11ee-939d-92fbcf53809c.png

4、为什么要解耦训练?

具体训练过程是先训练匹配网络,然后冻结这部分,再单独训练稀疏化网络。作者认为直接联合训练的话,会引入大量噪声,导致光流预测不准确。

4. 实验

RGM的训练分匹配学习+不确定学习两阶段进行,也就是所谓的解耦训练。

在匹配学习阶段,首先使用带稀疏匹配真值的MegaDepth(1.4 M对图像)来训练(200k次迭代),然后使用ScanNet+FlyingThings3D+TartanAir+MegaDepth的混合数据集(4 M对图像)进行增强学习(240k次迭代)。Batch size为16,学习率从2e-4余弦退火至1e-5。在不确定学习阶段,直接冻结稠密匹配网络的参数。在MegaDepth和ScanNet上训练了2个epoch,batch size为4,学习率固定1e-4。注意,为了平衡不同数据集之间的差异,还对TartanAir进行了大间距采样。

评估也是一个零样本泛化实验。匹配估计使用ETH3D+HPatches+KITTI+TUM数据集,位姿估计(下游任务)使用TUM+YFCC数据集,光流估计使用Sintel数据集。

首先是解耦训练和联合训练的对比,证明他们做提出的解耦训练是有效的。看到这里笔者也有个疑问,有的模型是联合训练效果更好,有的模型却是解耦训练更好,希望有小伙伴能传授一下经验。

c276b266-7566-11ee-939d-92fbcf53809c.png

训练使用数据集的对比,显然使用的数据集越多效果越好。

c27a937c-7566-11ee-939d-92fbcf53809c.png

特征匹配最直观的定性对比,相同颜色代表预测的匹配关系。相较于之前的SOTA方法可以取得更多的匹配关系,而且语义预测也更好(大部分匹配关系都集中在摩托车和人上)。

光流估计的对比,也是一个zero-shot实验。对比方案包括光流专用模型、稠密几何估计方法,还有通用匹配模型,RDM效果最优。这里也推荐「3D视觉工坊」新课程如何学习相机模型与标定?(代码+实战)》。

c28ecbee-7566-11ee-939d-92fbcf53809c.png

最后是一个在TUM和YFCC上进行位姿估计的zero-shot评估,也是匹配性能的进一步验证。

c29d6780-7566-11ee-939d-92fbcf53809c.png

5. 总结

一句话总结:RGM以一个通用模型同时实现了稀疏和稠密匹配。具体创新点是级联GRU细化模块+用于稀疏化的不确定性估计模块+解耦训练机制。除了评估特征匹配的精度,作者还做了很多下游任务的评估,比如位姿估计、两视角重建。感觉这篇文章还在审稿中,后续应该会上传新版本的文章和代码。

审核编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Gru
    Gru
    +关注

    关注

    0

    文章

    9

    浏览量

    7445
  • 特征提取
    +关注

    关注

    1

    文章

    29

    浏览量

    9763
  • 匹配网络
    +关注

    关注

    0

    文章

    12

    浏览量

    9534

原文标题:浙大最新开源RGM | 鲁棒且通用的特征匹配!

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    带有无穷分布时滞的不确定系统的H_∞滤波器设计

    ∞滤波器的设计方法.设计的H∞滤波器可以保证对于带有时变范数有界的参数不确定性的滤波误差系统是渐近稳定的,并且满足所给定的H∞性能指标.
    发表于 04-24 09:04

    基于QR分解和提升小波变换的音频水印方法

    本帖最后由 eehome 于 2013-1-5 10:04 编辑 利用QR分解的稳定性以及提升小波计算速度快的优良特性,给出一种基于QR分解和提升小波变换的盲数字音频水印方法.为了保护原始
    发表于 03-04 21:44

    0044《复杂相似组合系统的全息控制理论与设计》.pdf

    1000本电子专业书籍免费大放送https://bbs.elecfans.com/forum.php?mod=viewthread&tid=287358&fromuid=286650044《复杂相似组合系统的全息控制理论与设计》.pdf(2M)希望大家多顶顶,提升提升
    发表于 12-29 08:57

    集成信号和电源隔离提供紧凑的测量与控制

    Baoxing Chen精确的测量与控制对工业仪器仪表和过程控制应用十分重要。为了防止接地环路影响测量精度,以及避免瞬变电压永久性损坏仪表,诸如RTD或热电偶之类的各种工业传感器一般都需要输入
    发表于 10-16 21:03

    波形特征匹配算法

    一段作为模板2,计算波形与模板的差的平方和,当值最小时,即找到与模板特征匹配的起点索引3,计算波形与模板的差的平方和的值,产生如下波形,取出波谷所在索引即为所有匹配到的位置以下是代码实现演示附上源码`
    发表于 03-04 13:36

    基于联锁栅极驱动器提高三相逆变器的

    停工和生产损失。因此,VFD的可靠性和性是机器制造商和工厂业主的关键要求。图1所示的三相逆变器结构是VFD的核心,能够将整流后的电源电压转换为输出到电机的可变频率和可变电压。逆变器的
    发表于 07-12 07:11

    三相逆变器的性怎么提高?

    变频驱动器(VFD)是工业自动化机械的重要组成部分。它们能够高效地驱动泵、风扇、传送带、计算机数控机床和机器人自动化解决方案,有助于降低工厂的总能耗。若VFD发生故障会直接导致机器停机,进而造成工厂停工和生产损失。因此,VFD的可靠性和性是机器制造商和工厂业主的关键要
    发表于 08-09 08:13

    数据传输方案

    MS-2511:集成信号和电源隔离提供紧凑的测量与控制
    发表于 09-04 11:12

    特征点(角)检测与匹配

    特征点(角)检测与匹配,forstner corner detection
    发表于 05-06 13:18

    图像的深浅特征应用于人脸识别

    本文将HOG特征和PCANet网络提取的特征进行融合,不仅包含数据的浅层局部和数据分布信息,还包含深度判别性信息,在AR及Yale B人脸数据库的实验结果验证了本文算法的有效性和
    发表于 11-25 06:17

    模型预测控制(RMPC)是什么

    模型预测控制(RMPC)是一种设计不确定系统控制器的有效方法,在这种不确定系统中,每个可能的扰动实现都必须满足状态和输入约束。然而,在某些情况下,由于需要防止低概率异常值,这一要求可能会显著降低
    发表于 09-10 08:37

    如何巧妙利用定时器与串口中断进行耦合得到一种的接收?

    如何巧妙利用定时器与串口中断进行耦合得到一种的接收?
    发表于 12-07 07:37

    改进的特征匹配算法

    特征匹配是计算机视觉中的关键步骤,在很多领域中都有着的重要应用。通过对当前图像特征匹配方法的研究,提取一种基于特征点的灰度量和几何
    发表于 05-19 17:20 0次下载
    改进的<b class='flag-5'>特征</b>点<b class='flag-5'>匹配</b>算法

    基于局部特征匹配的目标跟踪研究

    针对目标跟踪中的特征提取和匹配问题进行分析,提出了一种基于局部特征匹配的目标跟踪方法,该算法基于Shape Context进行特征提取。首先
    发表于 12-06 15:15 32次下载
    基于局部<b class='flag-5'>特征</b><b class='flag-5'>匹配</b>的目标跟踪研究

    基于区域检测特征匹配方法设计研究

    针对传统特征匹配算法在实际的应用中存在搜索范围广、无关特征点多等问题,提出一种基于显著性区域检测特征匹配方法。首先利用显著性区域检测算法滤除
    发表于 10-28 11:01 0次下载