第一个大规模点云的自监督预训练MAE算法Voxel-MAE-电子发烧友网

作者：Chen Min， Xinli Xu， Dawei Zhao， Liang Xiao， Yiming Nie， Bin Dai

基于掩码的自监督预训练方法在图像和文本领域得到了成功的应用。但是，对于同样信息冗余的大规模点云，基于掩码的自监督预训练学习的研究还没有展开。在这篇文章中，我们提出了第一个将掩码自编码器引入大规模点云自监督预训练学习的方法：Voxel-MAE。不同于2D MAE采用RGB像素回归，3D点云数量巨大，无法直接学习每个点云的数据分布，因此Voxel-MAE将点云转成体素形式，然后进行体素内是否包含点云的二分类任务学习。这种简单但是有效的分类学习策略能使模型在体素级别上对物体形状敏感，进而提高下游任务的精度。即使掩蔽率高达90%，Voxel-MAE依然可以学习有代表性的特征，这是因为大规模点云的冗余度非常高。另外考虑点云随着距离增大变稀疏，设计了距离感知的掩码策略。2D MAE的Transformer结构无法处理大规模点云，因此Voxel-MAE利用3D稀疏卷积来构建encoder，其中position encoding同样可以只处理unmasked的体素。我们同时在无监督领域自适应任务上验证了Voxel-MAE的迁移性能。Voxel-MAE证明了对大规模点云进行基于掩码的自监督预训练学习，来提高无人车的感知性能是可行的。KITTI、nuScenes、Waymo数据集上，SECOND、CenterPoint和PV-RCNN上的充分的实验证明Voxel-MAE在大规模点云上的自监督预训练性能。

Voxel-MAE是第一个大规模点云的自监督掩码自编码器预训练方法。

不同于MAE中，Voxel-MAE为大规模点云设计了适合的体素二分类任务、距离感知的掩码策略和3D稀疏卷积构建的encoder等。

Voxel-MAE的自监督掩码自编码器预训练模型有效提升了SECOND、CenterPoint和PV-RCNN等算法在KITTI、nuScenes、Waymo数据集上的性能。

Voxel-MAE同时在无监督领域自适应3D目标检测任务上验证了迁移性能。

算法流程

图1 Voxel-MAE的整体框图：首先将大规模点云转成体素表示，然后采用距离感知的掩码策略对体素进行mask，再将unmasked的体素送入不对称的encoder-decoder网络，重建体素。最后，采用判断体素内是否包含点云的二分类交叉熵损失函数端到端训练整个网络。Encoder采用三维稀疏卷积网络构建，Decoder采用三维反卷积实现。

Range-aware Masking

遵循常见的3D点云目标检测的设置，我们将WXHXD范围内的大规模点云沿着XYZ方向分成大小为VWXVHXVD的体素。所有体素的个数为nl，包含点云的体素个数为nv。

不同于2D图像，3D点云的分布随着离激光雷达的距离增加越来越稀疏。因此不能对不同位置的点云采用相同的掩码策略。

对此我们设计了距离感知的掩码策略。即对近处稠密的点云masking多，对远处稀疏的点云masking少。具体我们将点云分成30米以内，30-50米，50米以外，然后分别采用r1，r2和r3三种掩码率来对点云体素进行随机掩蔽，其中r1》r2》r3。剩余的unmasked的体素个数为nun。对于所有包含点云的体素nl，我们将其点云体素分类目标设为1，其他设为0。

3D Sparse Convolutional Encoder

MAE论文中采用Transformer网络架构对训练集中的unmasked部分进行自注意力机制学习，不会被masked部分影响。但是由于unmasked的点云数量仍然很大，几十万级别，Transformer网络无法处理如此大规模unmasked的点云数据。研究者通常采用3D SparseConvolutions来处理大规模稀疏3D点云。因此不同于2D MAE，Voxel-MAE采用3D SparseConvolutions来构建MAE中的encoder，其采用positional encoding来只对unmasked的体素聚合信息，从而类似MAE中的Transformer结构，可以降低训练模型的计算复杂度。

3D Deconvolutional Decoder

Voxel-MAE采用3D反卷积构建decoder。最后一层输出每个体素包含点云的概率。decoder网络简单，只用于训练过程。

Voxel-MAE的encoder和decoder的结构如下：

Reconstruction Target

2D MAE中采用masked部分的RGB像素回归作为掩码自编码器自监督学习的目标，但是3D点云的数量很大，回归点云需要学习每个点云的数据分布，是难以学习的。

对于3D点云的体素表示，体素内是否包含点云非常重要。因此我们为Voxel-MAE设计了体素是否包含点云的二分类任务。目标是恢复masked的体素的位置信息。虽然分类任务很简单，但是可以学习到大规模点云的数据分布信息，从而提高预训练模型的性能。

实验结果

采用OpenPCDet算法基准库，在KITTI、nuScenes、Waymo数据集上进行了实验验证。

1.KITTI

2. Waymo

3. nuScenes

4. 3D点云无监督领域自适应任务验证迁移性能

5. 3D点云重建可视化图

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

编码器

编码器

+关注

关注
41

文章
3362

浏览量
131560
激光雷达

激光雷达

+关注

关注
961

文章
3662

浏览量
186767
数据集

数据集

+关注

关注
4

文章
1179

浏览量
24356

原文标题：Voxel-MAE: 第一个大规模点云的自监督预训练MAE算法

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

【书籍评测活动NO.30】大规模语言模型：从理论到实践

多种形式和任务。这个阶段是从语言模型向对话模型转变的关键，其核心难点在于如何构建训练数据，包括训练数据内部多个任务之间的关系、训练数据与预训练

发表于 03-11 15:16

一个大规模电路是怎么设计出来的？？？

组合成电路，比如一个电视机的电路板上电子元件纵横交错，怎么设计组合成那样的，还有各与器件参数大小怎么算的?数字电路的各个门，模拟电路的三极管，单个是简单，就是不明白怎么组合成大规模电路的。书上就那么几个简单的电路图，网上也查询过

发表于 12-24 20:34

【阿里云大学免费精品课】机器学习入门：概念原理及常用算法

的性能。2.机器学习是对能通过经验自动改进的计算机算法的研究。3.机器学习是用数据或以往的经验，以此优化计算机程序的性能标准。机器学习算法可以分成下面几种类别：•监督学习：从给定的训练

发表于 06-23 13:51

大规模MIMO的性能

轨迹产生的容量斜坡仍然比需求线平坦。面对此挑战，3GPP 标准实体近来提出了数据容量“到2020 年增长1000 倍”的目标，以满足演进性或革命性创意的需要。这种概念要求基站部署极大规模的天线阵

发表于 07-17 07:54

AU1200 MAE驱动程序的开发流程是什么？

随着移动多媒体终端的口益普及，功能的日益强大，人们已经不满足于自己的手持终端仅仅能够听MP3音乐，而是希望终端在播放音乐的同时能够播放高质量视频，并支持多种视频格式。AU 1200作为一

发表于 03-16 07:38

请问怎样去设计MAE前端驱动软件？

MAE是什么？MAE的开发环境如何去建立？怎样对MAE前端驱动软件进行设计及测试？

发表于 04-22 06:04

一个benchmark实现大规模数据集上的OOD检测

操作，感知的环境类别也更多。因此，针对大规模图像分类任务的OOD检测算法的开发和评估存在一个关键的gap。本文首先志在提出一

发表于 08-31 15:11

神经网络在训练时常用的一些损失函数介绍

是一个标准的高斯分布，说明我们的这个损失函数可能不是很适合这个问题。下图显示各训练轮次的对比MSE收敛得很好，但MSE可能过拟合了，因为它从20轮开始下降变得变换并且开始上升。MAE根

发表于 10-20 17:14

为什么MFR4310E1MAE40型号的丝印是1M63J而不是0M63J？

为什么MFR4310E1MAE40型号的丝印是1M63J而不是0M63J？说明书里有详细说明，怎么看？

发表于 04-14 06:09

AU 1200 MAE驱动程序开发流程

AU 1200作为一款基于MIPS架构的处理器，由于其片上集成了视频硬件设备(Media Accel-eration Engine，MAE)，使得该处理器无需配合其他视频解码芯片即可完成多种格式的视频解码功能 &nb

发表于 06-24 09:38 •575次阅读

联芯三大亮点闪耀MAE，推动3G/4G科技平民化

　为期三天的2013亚洲移动通信博览会（Mobile Asia Expo 2013，简称MAE）在上海落下帷幕，这次GSMA首次打出公开免费入场的“亲民牌”，这似乎从一个侧面反映出：在ARPU增长

发表于 07-03 16:59 •1141次阅读

乐华LED23C310A板号40-MS82VG-MAE2LG主芯

乐华LED23C310A板号40-MS82VG-MAE2LG主芯片MST6M181.182闪存W25Q32屏LC230EUE(SE)(A1) 软件

发表于 03-04 15:38 •7次下载

如何向大规模预训练语言模型中融入知识？

本文关注于向大规模预训练语言模型（如RoBERTa、BERT等）中融入知识。

发表于 06-23 15:07 •3609次阅读

MAE再发力，跨模态交互式自编码器PiMAE席卷3D目标检测领域

MAE以其简单的实现方式、强大的视觉表示能力，可以在很多基础视觉任务中展现出良好的性能。但是目前的工作大多是在单一视觉模态中进行，那MAE在多模态数据融合方面表现如何呢？本文

发表于 04-21 09:36 •610次阅读

基础模型自监督预训练的数据之谜：大量数据究竟是福还是祸？

。然而，在自监督预训练中，是否数据越多越好？数据增广是否始终有效？华为诺亚方舟实验室与香港科技大学的研究团队近期发现：主流自监督预训练方法如 Masked Autoencoder (

发表于 07-24 16:55 •293次阅读

搜索历史

第一个大规模点云的自监督预训练MAE算法Voxel-MAE

评论

【书籍评测活动NO.30】大规模语言模型：从理论到实践

一个大规模电路是怎么设计出来的？？？

【阿里云大学免费精品课】机器学习入门：概念原理及常用算法

大规模MIMO的性能

AU1200 MAE驱动程序的开发流程是什么？

请问怎样去设计MAE前端驱动软件？

一个benchmark实现大规模数据集上的OOD检测

神经网络在训练时常用的一些损失函数介绍

为什么MFR4310E1MAE40型号的丝印是1M63J而不是0M63J？

AU 1200 MAE驱动程序开发流程

联芯三大亮点闪耀MAE，推动3G/4G科技平民化

乐华LED23C310A板号40-MS82VG-MAE2LG主芯

如何向大规模预训练语言模型中融入知识？

MAE再发力，跨模态交互式自编码器PiMAE席卷3D目标检测领域

基础模型自监督预训练的数据之谜：大量数据究竟是福还是祸？