0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

预训练扩散大模型取得点云-图像配准SoTA!

CVer 来源:CVer 2023-10-29 17:14 次阅读

介绍一下我们最新开源的工作:FreeReg: Image-to-Point Cloud Registration Leveraging Pretrained Diffusion Models and Monocular Depth Estimators. 给定部分重叠的图像和点云,FreeReg能够估计可靠的像素-三维点同名关系并解算图像-点云相对位姿关系。值得注意的是,FreeReg不需要任何训练/微调!

基于FreeReg估计的准确的同名关系,我们可以把图像patch投影到点云的对应位置:

fb813244-7632-11ee-939d-92fbcf53809c.png

fba58694-7632-11ee-939d-92fbcf53809c.png

主页:https://whu-usi3dv.github.io/FreeReg/

代码:github.com/WHU-USI3DV/FreeReg

论文:https://arxiv.org/abs/2310.03420

太长不看(TL,DR):

区别于现有方法利用Metric Learning直接学习跨模态(图像和点云)一直特征,FreeReg提出首先进行基于预训练大模型的模态对齐,随后进行同模态同名估计:

  • Diffusion大模型实现点云到图像模态的统一并构建跨模态数据的粗粒度鲁棒语义特征,

  • 单目深度估计大模型实现图像到点云模态的统一并刻画跨模态数据的细粒度显著几何特征,

  • FreeReg通过融合两种特征,无需任何针对图像-点云配准任务的训练,实现室内外图像-点云配准SoTA表现。

任务概述:图像-点云(Image-to-point cloud, I2P)配准

fbcd02aa-7632-11ee-939d-92fbcf53809c.jpg
  • 输入:部分重叠的图像和点云

  • 输出:图像相机相对于点云的位置姿态

  • 典型框架:

    • Step I (关键) : 构建图像-点云跨模态一致特征

    • Step II: 基于特征一致性的 pixel(from 图像)-point(from 点云) 同名估计

    • Step III: 基于所构建同名匹配的相对姿态估计 (PnP+RANSAC)

FreeReg和现有方法的比较?
  • 现有方法往往是:用一个2D特征提取网络提取图像特征;用一个3D特征提取网络提取点云特征;然后根据pixel-to-point对应关系真值通过Metric Learning (Triplet/Batch hard/Circle loss/InfoCE...)的方式训练网络去提取跨模态一致的特征,这存在几个问题:

  • 图像和点云存在故有的模态差异:图像-纹理、点云-几何,这给网络可靠收敛带来了困难,而影响特征的鲁棒性(Wang et al, 2021);

  • 需要长时间的训练 (Pham,2020);

  • 场景间泛化能力弱 (Li,2023)。

  • FreeReg:

  • 通过预训练大模型实现模态对齐,消除模态差异,显著提升特征鲁棒性;

  • 不需要任何针对I2P配准任务的训练/微调;

  • 能够处理室内外等多类型场景。

FreeReg pipeline:

fbdb41bc-7632-11ee-939d-92fbcf53809c.jpg

Section I: FreeReg-D

在这一部分,我们首先利用Diffusion大模型将点云对齐到图像模态,然后基于图像模态下的特征进行同名估计。Naive Solution:利用现在图像生成大杀器的ControlNet (Zhang et al, 2023; depth-to-image diffusion model)实现从点云(深度图)中渲染出一个图像,然后和query图像做match不就行了?不行!如下图,一个depth map可能对应各种各样的RGB图像,ControlNet基于点云渲染出来的图像合理,但是和query input image差异忒大,match不起来。

fbea54e0-7632-11ee-939d-92fbcf53809c.jpg

但是,我们注意到,ControlNet虽然生成的纹理和query差异很大,但是语义很正确而且和query RGB是对应的,那么我们怎么提取这种跨模态一致的语义特征呢?受到相关研究的启发(Mingi et al, 2022)一种基于Diffusion大模型的多模特Diffusion Feature

fbf93d98-7632-11ee-939d-92fbcf53809c.jpg

Diffusion Feature提取
  • RGB image diffusion feature:预训练图像生成大模型Stable Diffusion (SD,Dhariwal et al,2022)能够通过迭代T步去噪的方式从纯噪声生成一张符合某种text-prompt(包含一些代表语义的名词)的图像,证明它能认识、区分和表征这些语义。而我们就把图像加上一些噪声让SD去处理,然后看看哪些SD深层特征具有语义性。

  • Depth diffusion feature:我们用预训练的ControlNet处理来自点云投影的深度图,并基于其引导SD的图像生成(迭代去噪)过程使生成的图像符合深度图,当去噪到某种程度时候我们把SD的中间层特征拿出来,看看哪些特征保证了生成图像不仅符合深度图而且语义性也是对的。

  • 如上图的c,我们发现,SD的0-6层输出特征具有可靠的语义性和跨模态一致性!后面的特征才关注纹理。所以我们之用0-6层的特征(我们最终选择concate0,4,6层的特征)作为我们的语义特征就好了,叫做Diffusion Feature!

Section II: FreeReg-G

在这一部分,我们利预训练的单目深度估计网络Zoe-Depth (Bhat et al, 2023)去恢复input RGB的深度,并将其恢复到3D点云分布,然后对RGB恢复的点云和input点云分别提取几何特征(Geometric feature, Choy et al, 2019)用于match。此外,由于match得到的同名关系存在于点云空间,我们的变换估计可以采用Kabsch算法而非PnP方法,Kabsch利用Zoe-depth预测深度的约束可以仅使用3对同名关系就实现变换解算,更高效、更可靠,但是受到Zoe的影响不太精准(具体可以间我们的原文)。

Section III: FreeReg = FreeReg-D + FreeReg-G

在这一部分,我们融合前面在不同模态空间中提取的Diffusion Feature和Geometric Feature,作为我们最终的跨模特特征。如下图所示:

fc0a6c1c-7632-11ee-939d-92fbcf53809c.jpg
  • Diffusion Feature具有很强的语义相关性和跨模特一致的可靠性,但是因为语义信息关联自图像的比较大的区域,这种大感受野使得基于特征相似性和双向最近邻筛选得到的pixel-to-point同名对准确但是稀疏。

  • Geometric Feature能够关注几何细节构建更加dense的pixel-to-point correspondences,但是很容易受到zoe-depth预测误差和噪声的影响,导致得到的pixel-to-point同名对存在大量的outliers

  • 通过Fuse两种特征(L2 normalization + weighted concatenate, Zhang et al, 2023),FreeReg特征兼具语义可靠性和几何显著性,得到了更加可靠且dense的pixel-to-point correspondences!

实验结果:

定性评价:得益于大模型模态对齐,FreeReg-D/G在没有任何训练和微调的情况下,就在室内外三个数据集上取得了SoTA表现,而FreeReg进一步提升算法表现,取得了平均20%的内点比例提升和48.6%的配准成功率提升!

fc2d10f0-7632-11ee-939d-92fbcf53809c.jpg

定量评价:

fc420f50-7632-11ee-939d-92fbcf53809c.jpg

更多的结果:实现细节、消融实验、精度评价、同模态配准表现(也是SoTA!)、和同期工作的比较(FreeReg更优)、尚存问题请见我们的论文!


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1063

    浏览量

    40041
  • 点云
    +关注

    关注

    0

    文章

    58

    浏览量

    3724
  • 大模型
    +关注

    关注

    2

    文章

    1516

    浏览量

    1104

原文标题:武大&港大提出FreeReg:预训练扩散大模型取得点云-图像配准SoTA!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于扩散模型图像生成过程

    近年来,扩散模型在文本到图像生成方面取得了巨大的成功,实现了更高图像生成质量,提高了推理性能,也可以激发扩展创作灵感。 不过仅凭文本来控制
    的头像 发表于 07-17 11:00 2110次阅读
    基于<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>的<b class='flag-5'>图像</b>生成过程

    如何在PyTorch中使用扩散模型生成图像

    除了顶尖的图像质量,扩散模型还带来了许多其他好处,包括不需要对抗性训练。对抗训练的困难是有据可查的。在
    发表于 11-22 15:51 335次阅读
    如何在PyTorch中使用<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>生成<b class='flag-5'>图像</b>

    一种新的轮廓提取方法及其在MR-CT中的应用

    医学影像技术的不断发展[1],出现了越来越多的成像方式,如解剖结构成像(CT和MR).解剖结构成像的空间分辨率高,能够提供人体的解剖形态信息;CT能够清晰的显示骨骼的结构影像,MR适合对软组织形态成像.为了充分利用这些成像方式,就要设法将这些医学图像信息进行
    发表于 04-24 09:53

    基于序贯相似性测算法的图像模板算法

    【作者】:肖鹏;殷实;刘平平;陈幼平;【来源】:《湖北工业大学学报》2010年01期【摘要】:图像准是很多图像处理应用中非常重要的一个环节.针对烟标印刷缺陷检测系统的模板
    发表于 04-24 10:02

    matlab 图像问题,有代码,区域是绿色的,想要的是灰度图像区域,求助大神?

    ','joint');title('完成');set(gca,'units','pixels','Visible','off');frame=getframe;im1=frame2im(frame
    发表于 03-21 16:49

      华为深度学习服务,让企业智能从此不求人

    模型训练时往往需要至少百万级别的训练图片。    但是,华为深度学习服务平台,对企业场景的算法模型进行了大量的优化,使得针对企业特定场景
    发表于 08-02 20:44

    Pytorch模型训练实用PDF教程【中文】

    本教程以实际应用、工程开发为目的,着重介绍模型训练过程中遇到的实际问题和方法。在机器学习模型开发中,主要涉及三大部分,分别是数据、模型和损失函数及优化器。本文也按顺序的依次介绍数据、
    发表于 12-21 09:18

    怎样使用PyTorch Hub去加载YOLOv5模型

    PyTorch Hub 加载训练的 YOLOv5s 模型,model并传递图像进行推理。'yolov5s'是最轻最快的 YOLOv5 型号。有关所有可用
    发表于 07-22 16:02

    图像插值的一个变指数变分模型

    为了消除插值图像在边缘的锯齿现象、在平坦区域的分块现象,提出了一种变指数变分模型图像插值方法。通过对变指数变分模型扩散特性的研究,引入了一
    发表于 11-30 15:35 0次下载

    基于波域调和滤波扩散模型图像去噪算法

    针对当前图像去噪算法缺乏对整体结构的分析以及运算量过大的不足,提岀了一种利用波域调和滤波扩散模型改进BM3D去噪技术的新算法。首先,利用传统的欧氏距离法将相似二维图像块合并,得到三维数
    发表于 05-18 15:39 4次下载

    如何改进和加速扩散模型采样的方法2

      事实上,扩散模型已经在深层生成性学习方面取得了重大进展。我们预计,它们可能会在图像和视频处理、 3D 内容生成和数字艺术以及语音和语言建模等领域得到实际应用。它们还将用于药物发现和
    的头像 发表于 05-07 14:38 2693次阅读
    如何改进和加速<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>采样的方法2

    使用NVIDIA DGX SuperPOD训练SOTA大规模视觉模型

    在这篇文章中,我们展示了在大规模人工智能超级计算机上训练 SOTA 大规模视觉 transformer 模型(如 VOLO \ u D5 )的主要技术和程序,如基于 NVIDIA DGX A100 的 DGX SuperPOD
    的头像 发表于 05-30 10:17 1930次阅读
    使用NVIDIA DGX SuperPOD<b class='flag-5'>训练</b><b class='flag-5'>SOTA</b>大规模视觉<b class='flag-5'>模型</b>

    CNN根本无需理解图像全局结构,一样也能SOTA

    好家伙,在CIFAR-10上,用16×16的图像碎片训练出来的模型,测试准确率能达到91%,而用完整的32×32尺寸图像训练出来的
    的头像 发表于 06-09 10:51 887次阅读

    蒸馏无分类器指导扩散模型的方法

    去噪扩散概率模型(DDPM)在图像生成、音频合成、分子生成和似然估计领域都已经实现了 SOTA 性能。同时无分类器(classifier-free)指导进一步提升了
    的头像 发表于 10-13 10:35 861次阅读

    DDFM:首个使用扩散模型进行多模态图像融合的方法

    近来去噪扩散概率模型 Denoising diffusion probabilistic model (DDPM)在图像生成中获得很多进步,通过对一张noise-corrupted图像
    的头像 发表于 09-19 16:02 1529次阅读
    DDFM:首个使用<b class='flag-5'>扩散</b><b class='flag-5'>模型</b>进行多模态<b class='flag-5'>图像</b>融合的方法