0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MAE再发力,跨模态交互式自编码器PiMAE席卷3D目标检测领域

3D视觉工坊 来源:将门创投 2023-04-21 09:36 次阅读

本文提出了一种基于MAE的跨模态交互式自编码器PiMAE,PiMAE同时具有强大的3D点云和RGB图像特征提取能力。作者通过三个方面的独特设计来促进多模态学习过程中的交互效果。并对提出的PiMAE进行了广泛的实验,该框架在多个下游任务上都展示出了非常出色的性能提升效果,这也侧面表明MAE模式在基础视觉感知任务上仍然不过时,具有进一步研究的价值。

29b14b20-dfd6-11ed-bfe3-dac502259ad0.png

论文链接: https://arxiv.org/abs/2303.08129 代码链接: https://github.com/BLVLab/PiMAE

从2021年kaiming大佬首次提出MAE(Masked Autoencoders)以来,计算机视觉社区已经出现了很多基于MAE的工作,例如将MAE建模拓展到视频序列中,或者直接对MAE原始结构进行改进,将MAE嵌入到层次的Transformer结构中等等。截止到现在,MAE原文在谷歌学术的引用量已经达到1613。

29dd02ba-dfd6-11ed-bfe3-dac502259ad0.png

MAE以其简单的实现方式、强大的视觉表示能力,可以在很多基础视觉任务中展现出良好的性能。但是目前的工作大多是在单一视觉模态中进行,那MAE在多模态数据融合方面表现如何呢?本文为大家介绍一项刚刚被视觉顶会CVPR2023接收的工作,在这项工作中,作者重点探索了点云数据和RGB图像数据,并且提出了一种基于MAE的自监督扩模态协同感知框架PiMAE。具体来说,PiMAE可以从三个方面来提升模型对3D点云和2D图像数据的交互性能:

1. PiMAE设计了一个多模态映射模块来对两个不同模态的masked和可见的tokens进行对齐,这一设计强调了mask策略在两个不同模态中的重要性。

2. 随后,作者为PiMAE设计了两个MAE支路和一个共享的解码器来实现masked tokens之间的跨模态交互。

3. 最后PiMAE通过一个新型的跨模态重建模块来进一步提升两个模态的表征学习效果。

作者在两个大规模多模态RGB-D场景理解基准(SUN RGB-D和ScannetV2)上对PiMAE进行了大量评估,PiMAE在3D目标检测、2D目标检测以及小样本图像分类任务上都展现出了优越的性能。

一、介绍

深度学习技术目前已经成为很多自动化装备的基础感知手段,例如工业机器人自动驾驶。在这些实际场景中,机器可以通过摄像头和众多传感器获得大量的3D或2D点云数据以及RGB图像数据。由于成对的2D像素和3D点云可以更全面的呈现同一场景的不同视角,将这些多模态信息高效的结合起来可以提高模型决策的准确性。在本文中,作者旨在探索这样一个问题:如何设计一个高效的多模态(3D点云和RGB模态)无监督交互学习框架,来实现更好的表征学习?为此,作者选用kaiming提出的MAE作为基础架构,MAE可以通过一种简单的自监督任务实现一个强大的ViT预训练框架。但是MAE在多种模态交互的情况下表现如何,仍然是未知的。

29f2d9c8-dfd6-11ed-bfe3-dac502259ad0.png

为了探索多模态3D点云和RGB图像数据交互融合性能,本文提出了PiMAE,这是一种简单而有效的多模态MAE框架,PiMAE可以通过交互机制来学习更鲁棒的3D和2D特征。PiMAE的整体框架如上图所示,具体来说,PiMAE将成对的3D点云和图像数据作为输入,并对两种输入做一种互补的mask操作。然后对其进行编码得到tokens,将3D点云token投影到RGB图像块中,明确对齐两种模态之间的Mask关系。作者认为通过这种mask策略可以帮助点云token从图像嵌入中获得互补信息,反之亦然。随后作者设计了一种对称的自动编码器结构来进行模态特征融合,自编码器由模态特定编码器(Specific Encoders)的独立分支和共享编解码器构成,PiMAE通过多模态重构任务(即点云重构和图像重构)来完成两种模态的交互和表征学习。

二、方法介绍

给定3D点云和RGB多模态数据后,PiMAE通过一种联合嵌入的方式来学习跨模态特征。在具体操作中,作者首先对点云数据进行采样并执行聚类算法将点云数据嵌入到token中,然后对点云token进行随机mask。mask后的token随后被转换到2D平面中,同时RGB图像块以互补mask的形式也嵌入到RGB token中。随后两个模态的token数据通过PiMAE的联合编解码器进行特征建模和融合。

29f2d9c8-dfd6-11ed-bfe3-dac502259ad0.png

PiMAE中的编码器-解码器架构同时整合了模态独立分支和模态共享分支,其中前者用来保持模型对特定模态的学习,后者鼓励模型通过跨模态的特征交互来实现模态之间的高效对齐。

2.1 token投影和对齐

在对点云和RGB图像进行处理时,作者遵循MAE和Point-M2AE[1]中的做法,对于RGB图像,作者将图像先分成不重叠的图像块,并且为每个块添加位置编码嵌入和模态嵌入,随后将他们送入到投影层。对于点云数据,先通过最远点采样(Farthest Point Sampling,FPS)和KNN算法提取聚类中心token,然后同样为每个中心token添加编码嵌入和模态嵌入,并送入到线性投影层。

2.1.1 投影

为了实现多模态token之间的对齐,作者通过将点云token投影到相机的2D图像平面上来建立 3D点云和RGB图像像素之间的嵌入联系。对于3D点云2a1f6ca4-dfd6-11ed-bfe3-dac502259ad0.png,可以使用下面定义的投影函数 Proj 计算出相应的2D坐标:

2a2b2daa-dfd6-11ed-bfe3-dac502259ad0.png

其中 K∈3×4,Rt∈4×4是相机的内在和外置参数矩阵。(x,y,z),(u,v)是点 P 的原始3D坐标和投影得到的2D坐标。

2.1.2 Mask对齐方式

由于点云token是由一系列聚类中心构成,作者随机从中选择一部分中心点作为采样区域。对于可见点云标记Tp,将它们的中心点2a3a56d6-dfd6-11ed-bfe3-dac502259ad0.png投影到相应的2D相机平面并获得其2D坐标 2a45842a-dfd6-11ed-bfe3-dac502259ad0.png 它可以自然地落入形状为 H×W(即图像形状)的区域内,可以通过以下方式来获得其相对应图像块的索引2a4ff22a-dfd6-11ed-bfe3-dac502259ad0.png

2a5c2356-dfd6-11ed-bfe3-dac502259ad0.png

其中 u 和 v表示二维坐标 p 的 x 轴值和 y 轴值,S 是图像块大小。

2a65d40a-dfd6-11ed-bfe3-dac502259ad0.png

在对每个可见点云token进行投影和索引后,就可以获得它们对应的图像块,如上图所示。随后作者使用了一种显示的mask策略来实现token对齐,具体来说,一个随机采样的点云区域(上图黑色圆圈处)被投影到图像块(蓝色方块)上,其他点云区域以类似的方式进行采样和投影(黄色方块),来构成正向Mask模式(Uniform)。相反,上图右下区域是相应的互补Mask模式(Complement)。

2.2 编码器和解码器

2.2.1 编码器

PiMAE的编码器遵循AIST++[2]的设计,由两个模块构成:模态特定编码器和跨模态编码器。前者用于更好地提取特定于当前模态的特征,后者用于进行跨模态特征之间的交互。在这一过程中,编码器侧重于保持不同模态特征的完整性,可以形式化表示为:

2a7e6a88-dfd6-11ed-bfe3-dac502259ad0.png

其中2a8ddc2a-dfd6-11ed-bfe3-dac502259ad0.png和 2a9bb214-dfd6-11ed-bfe3-dac502259ad0.png是特定于图像和特定于点云的编码器,2aa5047c-dfd6-11ed-bfe3-dac502259ad0.png 和 2ab2235a-dfd6-11ed-bfe3-dac502259ad0.png 是可见图像和点云token,2abc66a8-dfd6-11ed-bfe3-dac502259ad0.png 和 2ac99eea-dfd6-11ed-bfe3-dac502259ad0.png是图像和点云相应的嵌入空间。

2.2.2 解码器

原始MAE框架中的解码器是建立在一个具有统一表征能力的编码基础之上,但是本文的设定是编码器同时捕获图像和点云数据的特征表示。由于两种模态之间的差异,需要使用专门的解码器将这些特征解码为各自的模态。形式上,作者将PiMAE的共享解码器的输入表示为2ad4d94a-dfd6-11ed-bfe3-dac502259ad0.png,其中包括编码的可见特征和两种模态的mask tokens。随后共享解码器会对这些特征2ae2ff52-dfd6-11ed-bfe3-dac502259ad0.png执行跨模态交互:2aed7a18-dfd6-11ed-bfe3-dac502259ad0.png。然后,在单独模态的解码器阶段,解码器将特征重构回原始图像和点云空间 2af7705e-dfd6-11ed-bfe3-dac502259ad0.png

。其中2b0079ec-dfd6-11ed-bfe3-dac502259ad0.png 和2b08e29e-dfd6-11ed-bfe3-dac502259ad0.png 是图像特定和点云特定解码器,2b11163a-dfd6-11ed-bfe3-dac502259ad0.png 和 2b1a0308-dfd6-11ed-bfe3-dac502259ad0.png

是可见图像和点云区域,2b278136-dfd6-11ed-bfe3-dac502259ad0.png  和 2b35a8f6-dfd6-11ed-bfe3-dac502259ad0.png是图像和点云嵌入空间,重构过程的损失函数如下:

2b433d90-dfd6-11ed-bfe3-dac502259ad0.png

其中2b4cd184-dfd6-11ed-bfe3-dac502259ad0.png 是2b553112-dfd6-11ed-bfe3-dac502259ad0.pngChamfer Distance函数(倒角距离),2b5e0030-dfd6-11ed-bfe3-dac502259ad0.png表示解码器重构函数,2b6a72de-dfd6-11ed-bfe3-dac502259ad0.png 是点云嵌入表示,2b71ac02-dfd6-11ed-bfe3-dac502259ad0.png 是点云ground-truth(即点云输入)。

2.3 跨模态重构

本文使用三种不同的损失联合训练PiMAE:点云重建损失、图像重建损失和跨模式重建损失。在最后的重建阶段,作者利用先前对齐的关系来获得mask点云区域相应的二维坐标。然后,对重建的图像特征进行上采样,这样每个具有2D坐标的mask点云都可以与重建的图像特征相关联。最后,mask点云token通过一个跨模态预测头来恢复相应的可见图像特征。形式上,跨模式重建损失定义为:

2b79d800-dfd6-11ed-bfe3-dac502259ad0.png

其中2b8878ba-dfd6-11ed-bfe3-dac502259ad0.png 表示均方误差损失函数,2b91410c-dfd6-11ed-bfe3-dac502259ad0.png 是解码器的跨模态重建函数,2b9a42e8-dfd6-11ed-bfe3-dac502259ad0.png是点云表示,2ba29934-dfd6-11ed-bfe3-dac502259ad0.png 是图像表示。PiMAE通过联合以上损失来进行训练,通过这样的设计,PiMAE可以分别学习3D和2D特征,同时保持两种模态之间的强交互性。

2bafe35a-dfd6-11ed-bfe3-dac502259ad0.png

三、实验效果

本文的实验在两个大规模多模态RGB-D场景理解基准(SUN RGB-D和ScannetV2)上进行,作者先在SUN RGB-D训练集对PiMAE进行预训练,并在多个下游任务上对PiMAE进行评估,包括3D目标检测、3D单目目标检测、2D目标检测和小样本图像分类。

3.1 室内3D目标检测

对于室内的3D目标检测任务,作者将PiMAE的3D特征编码器加入到不同的backbone网络中来提高特征提取的能力,从而实现3D目标检测的能力。作者以两个SOTA模型3DETR和GroupFree3D来作为baseline模型,如下表所示,本文的PiMAE为两个模型都带来了显着的性能提升,在所有数据集上都超过了之前的基线方法。

2bbd72b8-dfd6-11ed-bfe3-dac502259ad0.png

3.2 室外单目3D目标检测

除了室内环境,作者也展示了更具挑战性的室外场景效果。与室内预训练数据相比,室外场景的数据具有很大的数据分布差距。如下图所示,本文方法对MonoDETR方法实现了实质性的改进,这证明,PiMAE预训练对室内和室外场景都具有很强的泛化能力。

2bd451ae-dfd6-11ed-bfe3-dac502259ad0.png

3.3 2D目标检测

对于2D目标检测任务,作者直接将PiMAE中的2D分支特征提取器部署在DETR上,并在ScanNetV2 2D检测数据集上进行评估。效果如下表所示,PiMAE预训练可以显著提高DETR的检测性能。

2be2ffd8-dfd6-11ed-bfe3-dac502259ad0.png

3.4 小样本图像分类

对于few-shot图像分类任务,作者选取了三个不同的基准来探索PiMAE图像编码器的特征提取能力。为了验证PiMAE的有效性,作者没有改动原有模型的分类器,仅在特征编码器中添加一个线性层,并基于[CLS] token作为输入来预测类别。下表展示了PiMAE在小样本图像分类任务上的结果。与从头开始训练的模型相比,经过PiMAE预训练的模型具有显著的性能提升。

2bf3e71c-dfd6-11ed-bfe3-dac502259ad0.png

此外,为了验证PiMAE跨模态交互设计的有效性,作者在下图中可视化了共享编码器中的注意力图。可以看到,PiMAE更专注于具有更高注意力值的更多前景目标,显示出较强的跨模态理解能力。

2c0686ba-dfd6-11ed-bfe3-dac502259ad0.png

四、总结

本文提出了一种基于MAE的跨模态交互式自编码器PiMAE,PiMAE同时具有强大的3D点云和RGB图像特征提取能力。作者通过三个方面的独特设计来促进多模态学习过程中的交互效果。首先,通过一种显示的点云图像对齐mask策略可以实现更好的特征融合。接下来,设计了一个共享解码器来同时对两种模态中的token进行处理。最后,跨模态重建机制可以高效的对整体框架进行优化。作者对提出的PiMAE进行了广泛的实验,PiMAE在多个下游任务上都展示出了非常出色的性能提升效果,这也侧面表明MAE模式在基础视觉感知任务上仍然不过时,具有进一步研究的价值。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1073

    浏览量

    40159
  • 编码器
    +关注

    关注

    41

    文章

    3361

    浏览量

    131555
  • 目标检测
    +关注

    关注

    0

    文章

    185

    浏览量

    15455

原文标题:CVPR 2023 | MAE再发力,跨模态交互式自编码器PiMAE席卷3D目标检测领域

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于GAC模型实现交互式图像分割的改进算法

    ]。  由于图像的类型和内容多种多样,自动分割方法对多目标或背景复杂的图像很难奏效。因此,往往需要一定的人工干预。目前,交互式图像分割方法在医疗及临床等领域有着广泛的应用。然而,通过人工目测的方式进行图像分割
    发表于 09-19 09:19

    绝对多极磁电轴角编码器的设计

    重构,得到标准角位移和霍尔信号映射关系,通过单片机的自编程技术将数据存储于主控芯片中固定地址以供查表;角位移检测状态下,根据霍尔信号查表得到绝对角位移。根据上述原理研制出12极磁电轴角编码器
    发表于 06-02 10:04

    交互式显示对零售领域的改变

    Perch系统包括内置的DLP投影仪,其他部分则包括3D传感、定制计算机和定制软件。 TI的Jesse Richuso从一开始接触Perch就发现了其所具有的巨大潜能。事实上,Jesse和Jared
    发表于 03-25 06:45

    基于变分自编码器的异常小区检测

    出来。  本文提出了一种基于变分自编码器的异常小区检测方法,其基本原理是利用异常小区的KPI数据在通过变分自编码器编码与解码过程中所产生的较大波动来实现异常
    发表于 12-03 15:06

    关于定时编码器的应用

    实验目的:刚开始接触关机电机检测领域,准备探索关于定时编码器的应用,用来检测脉冲数,从而进行转速的检测
    发表于 08-19 07:32

    嵌入3D视觉功能相关资料推荐

    如需在汽车工业等生产线使用3D相机自动检测目标体积或目标的多角度视图,则必须快速生成和处理高分辨率的3D数据。配备500万像素大尺寸传感
    发表于 12-23 07:20

    嵌入3D有何功能呢

    如需在汽车工业等生产线使用3D相机自动检测目标体积或目标的多角度视图,则必须快速生成和处理高分辨率的3D数据。配备500万像素大尺寸传感
    发表于 12-23 07:54

    如何在交互式人脸检测演示中将Web浏览流用作目标输入?

    无法将 Web 浏览流用作交互式人脸检测演示的目标输入。
    发表于 08-15 06:02

    基于深度自编码网络的慢速移动目标检测

    强杂波背景下的慢速目标检测存在低多普勒频移、杂波干扰严重、鲁棒性不足、特征提取困难与信息利用不充分等问题。为此,提出一种基于深度自编码网络的宽带信号目标
    发表于 03-29 11:29 0次下载
    基于深度<b class='flag-5'>自编码</b>网络的慢速移动<b class='flag-5'>目标</b><b class='flag-5'>检测</b>

    是什么让变分自编码器成为如此成功的多媒体生成工具呢?

    标准自编码器能学习生成紧凑的数据表达并重建输入数据,然而除了像去噪自编码器等为数不多的应用外,它的应用却极其有限。其根本原因在于自编码器将输入转换为隐含空间中的表达并不是连续的,使得其中的插值和扰动难以完成。
    的头像 发表于 04-19 16:48 1.3w次阅读
    是什么让变分<b class='flag-5'>自编码器</b>成为如此成功的多媒体生成工具呢?

    自编码器介绍

    自编码器若仅要求X≈Y,且对隐藏神经元进行稀疏约束,从而使大部分节点值为0或接近0的无效值,便得到稀疏自动编码算法。一般情况下,隐含层的神经元数应少于输入X的个数,因为此时才能保证这个网络结构的价值。
    发表于 06-11 15:07 4681次阅读

    自编码器基础理论与实现方法、应用综述

    、异常检测、数据生成等。该文对传统自编码基础理论、自编码方法、改进技术以及应用领域进行了比较全面的综述,首先,该文介绍传统自编码基础理论与实
    发表于 03-31 11:24 8次下载
    <b class='flag-5'>自编码器</b>基础理论与实现方法、应用综述

    一种多通道自编码器深度学习的入侵检测方法

      针对现有的入侵检测方法在检测准确率和误报率方面存在的不足,提岀了一种多通道自编码器深度学习的入侵检测方法。该方法分为无监督学习和有监督学习两个阶段:首先分别采用正常流量和攻击流量训
    发表于 04-07 15:23 7次下载
    一种多通道<b class='flag-5'>自编码器</b>深度学习的入侵<b class='flag-5'>检测</b>方法

    一种基于变分自编码器的人脸图像修复方法

    基于卷积神经网络的人脸图像修复技术在刑事侦破、文物保护及影视特效等领域有着重要的应用。但现有方法存在着图像修复结果不够清晰以及结果多样化不足等缺点,为此,提出了一种基于变分自编码器的人脸图像修复
    发表于 04-21 10:51 10次下载
    一种基于变分<b class='flag-5'>自编码器</b>的人脸图像修复方法

    自编码器神经网络应用及实验综述

    、异常检测、数据生成等。该文对传统自编码基础理论、自编码方法、改进技术以及应用领域进行了比较全面的综述。首先,该文介绍传统自编码基础理论与实
    发表于 06-07 16:38 7次下载