0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

5种前沿的点云分割网络

新机器视觉 来源:新机器视觉 作者:泡椒味的泡泡糖 2022-06-21 11:08 次阅读

众所周知,点云的有效分割是许多应用的前提,例如在三维重建领域,需要对场景内的物体首先进行分类处理,然后才能进行后期的识别和重建。传统的点云分割主要依赖聚类算法和基于随机采样一致性的分割算法,在很多技术上得到了广泛应用,但当点云规模不断增大时,传统的分割算法已经很难满足实际需要,这时就需要结合深度学习进行分割。因此,本文将重点介绍5种前沿的点云分割网络,包括PointNet/PointNet++、PCT、Cylinder以及JSNet网络,最后介绍5中常用的点云分割数据集。

“点云分割是根据空间、几何和纹理等特征对点云进行划分,使得同一划分内的点云拥有相似的特征。”

01PointNet/PointNet++

说起点云分割网络,就不得不介绍PointNet,它来源于CVPR的论文“Deep Learning on Point Sets for 3D Classification and Segmentation”。PointNet是首个输入3D点云输出分割结果的深度学习网络,属于开山之作,成为了后续很多工作的BaseLine,网络的总体结构如图1所示。

c0b02f18-f09a-11ec-ba43-dac502259ad0.png

图1 PointNet网络

整体的PointNet网络中,除了点云的感知以外,还有T-Net,即3D空间变换矩阵预测网络,这主要是由于点云分类的旋转不变性,当一个N×D在N的维度上随意的打乱之后,其表述的其实是同一个物体,因此针对点云的置换不变性,其设计的网络必须是一个对称的函数。

在PointNet网络中,对于每一个N×3的点云输入,网络先通过一个T-Net将其在空间上对齐(旋转到正面),再通过MLP将其映射到64维的空间上,再进行对齐,最后映射到1024维的空间上。这时对于每一个点,都有一个1024维的向量表征,而这样的向量表征对于一个3维的点云明显是冗余的,因此这个时候引入最大池化操作,将1024维所有通道上都只保留最大的那一个,这样得到的1×1024的向量就是N个点云的全局特征。

PointNet网络在ShapeNet数据集上的实验效果如表1所示,可以看出,大多数分割都取得了SOAT效果。部分分割结果如图2所示,可以看出分割结果相当平稳,并且具有很强的鲁棒性。

c0d5b03a-f09a-11ec-ba43-dac502259ad0.png

表1 PointNet在ShapeNet上的分割效果对比

c0e1ff5c-f09a-11ec-ba43-dac502259ad0.png

图2 PointNet部分分割结果

PointNet++主要是为了克服PointNet自身的一些缺点,其中最大的缺点就是缺失局部特征。由于PointNet直接暴力地将所有的点最大池化为一个全局特征,因此局部点与点之间的联系并没有被网络学习到。在分类和物体的Part Segmentation中,这样的问题还可以通过中心化物体的坐标轴部分地解决,但在场景分割中,这就会导致效果变差。

为了克服PointNet的缺点,作者在PointNet++中主要借鉴了CNN的多层感受野的思想。CNN通过分层不断地使用卷积核扫描图像上的像素并做内积,使得越到后面的特征图感受野越大,同时每个像素包含的信息也越多。而PointNet++就是仿照了这样的结构,先通过在整个点云的局部采样并划一个范围,将里面的点作为局部的特征,用PointNet进行一次特征的提取。因此,通过了多次这样的操作以后,原本的点的个数变得越来越少,而每个点都是有上一层更多的点通过PointNet提取出来的局部特征,也就是每个点包含的信息变多了。

PointNet++的网络结构如图3所示,同时作者对比了PointNet和PointNet++的分割效果如图4所示,可见PointNet++的效果全面优于PointNet。

c0f65d08-f09a-11ec-ba43-dac502259ad0.png

图3 PointNet++网络结构

c1055fec-f09a-11ec-ba43-dac502259ad0.png

图4 PointNet++分割结果

02PCT网络

近年来,NLP领域的Transformer大火,同时也有大量学者将其从NLP领域迁移到图像和点云领域。清华大学将Transformer应用于3D点云分割技术,设计了全新的PCT(Point Cloud Transformer)网络,其网络结构如图5所示。

c112b142-f09a-11ec-ba43-dac502259ad0.png

图5 PCT网络结构

PCT应用Transformer进行点云分割的具体原理如图6所示,其中星号代表Transformer的查询向量,黄色到蓝色代表注意力权重逐渐增加,最后一列代表分割结果。

c12572b4-f09a-11ec-ba43-dac502259ad0.png

图6 PCT点云分割原理

为了更好地捕获点云中的local context,作者在最远点采样和最近邻居搜索的支持下增强了输入嵌入,同时Transformer在点云分割领域的成功,也逐渐打通了NLP、图像、点云等不同领域的壁垒,对于“模型大一统”具有重要意义。PCT点云分割与其他分割算法的对比如图7所示,大量的实验表明,PCT在形状分类,part分割和法向量估算任务方面达到了最先进的性能。

c13a88f2-f09a-11ec-ba43-dac502259ad0.png

图6 PCT点云分割效果与其他算法对比

03Cylinder网络

Cylinder网络来源于CVPR论文“Cylindrical and Asymmetrical 3D Convolution Networks for LiDAR Segmentation”,Cylinder网络结构如图7所示。Cylinder网络由圆柱坐标体素划分和非对称3D卷积网络组成,作者认为圆柱分割可以有效提高分割精度,此外作者还引入了一个point-wise模块来改进体素块输出,提高辨识精度。

c14aaa0c-f09a-11ec-ba43-dac502259ad0.png

图7 Cylinder网络结构

作者认为基于柱坐标的voxel的划分,可以与激光雷达扫描过程保持一致。进而有效地减少空voxel的比率。此外,作者将Cylinder网络在两个大型室外场景数据集(SemanticKITTI和nuScenes)上进行了评估,评估效果对比如表2和表3所示。评估显示,在SemanticKITTI数据集上,Cylinder网络排名第一。在nuScenes数据集上,新方法的表现也大大超过了之前的方法。

c16225ce-f09a-11ec-ba43-dac502259ad0.png

表2 Cylinder网络在SemanticKITTI数据集上的对比效果

c1736708-f09a-11ec-ba43-dac502259ad0.png

表3 Cylinder网络在nuScenes数据集上的对比效果

04JSNet网络

JSNet来源于AAAI论文“JSNet: Joint Instance and Semantic Segmentation of 3D Point Clouds”,JSNet可以同时解决3D点云的实例和语义分割问题,其网络结构如图8所示。

c191bf50-f09a-11ec-ba43-dac502259ad0.png

图8JSNet网络结构

JSNet首先建立有效的骨干网络,以从原始点云数据中提取鲁棒的特征。其次为了获得更多的判别特征,提出了一种点云特征融合模块来融合骨干网的不同层特征。此外,JSNet开发了联合实例语义分割模块以将语义特征转换为实例嵌入空间,然后将转换后的特征进一步与实例特征融合以促进实例分割。同时,该模块还将实例特征聚合到语义特征空间中,以促进语义分割。最后,JSNet通过对实例嵌入应用简单的均值漂移聚类来生成实例预测。

如表4和表5所示是JSNet网络在大型3D室内点云数据集S3DIS上的评估结果,图9是JSNet网络的分割效果。实验结果表明,JSNet网络在3D实例分割中的性能优于最新方法,在3D语义预测方面有重大改进,同时有利于零件分割。

c1a1b2e8-f09a-11ec-ba43-dac502259ad0.png

表4 JSNet网络在S3DIS数据集上的实例分割结果

c1b60478-f09a-11ec-ba43-dac502259ad0.png

表5 JSNet网络在S3DIS数据集上的语义分割结果

c1cb7dc6-f09a-11ec-ba43-dac502259ad0.png

图9 JSNet网络的分割效果

05点云分割数据集

深度神经网络的训练往往需要大量的数据集,同时深度神经网络性能的优劣也往往是在公开数据集上进行评估,因此选择合适的数据集至关重要。常用的点云分割数据集主要有如下几个:

5.1 Semantic3D

经典的大型室外场景点云分割数据集,由激光雷达扫描周围场景得到。Semantic3D提供了一个带有大标签的自然场景的3D点云数据集,总计超过40亿个点,8个类别标签。

数据集包含了各种城市和乡村场景,如农场,市政厅,运动场,城堡和广场。该数据集包含15个训练数据集和15个测试数据集,另外还包括4个缩减了的测试数据集。数据集中的点都含有RGB和深度信息,并被标记为8个语义类别,分别是1:人造地形;2:自然地形;3:高植被;4:低植被;5:建筑物;6:硬景观;7:扫描人工制品,8:汽车,附加标签0:未标记点,标记没有地面真值的点。

数据集地址:http://www.semantic3d.net/

c1f49a6c-f09a-11ec-ba43-dac502259ad0.png

c206cc0a-f09a-11ec-ba43-dac502259ad0.png

5.2 S3DIS

S3DIS数据集是斯坦福大学开发的带有像素级语义标注的语义数据集,是常用的室内场景分割数据集,使用Matterport相机收集数据,包含6个Area,13个语义元素,11种场景。

其中13个语义元素分别包括:天花板ceiling、地板floor、墙壁wall、梁beam、柱column、窗window、门door、桌子table、椅子chair、沙发sofa、书柜bookcase、板board、混杂元素(其他)clutter;11种场景分别包括办公室office、会议室conference room、走廊hallway、礼堂auditorium、开放空间open space、大堂lobby、休息室lounge、储藏室pantry、复印室copy room、储藏室storage和卫生间WC。

数据集地址:http://buildingparser.stanford.edu/dataset.html

c21b58f0-f09a-11ec-ba43-dac502259ad0.png

c229fce8-f09a-11ec-ba43-dac502259ad0.png

5.3 SemanticKITTI

SemanticKITTI数据集是一个基于KITTI Vision Benchmark里程计数据集的大型户外点云数据集,显示了市中心的交通、住宅区,以及德国卡尔斯鲁厄周围的高速公路场景和乡村道路。原始里程计数据集由22个序列组成,作者将序列00到10拆分为训练集,将11到21拆分为测试集,并且为了与原始基准保持一致,作者对训练和测试集采用相同的划分,采用和KITTI数据集相同的标定方法,这使得该数据集和KITTI数据集等数据集可以通用。

SemanticKITTI数据集作者提供了精确的序列扫描注释,并且在点注释中显示了前所未有的细节,包含28个类,确保了类与Mapillary Visiotas数据集和Cityscapes数据集有很大的重叠,并在必要时进行了修改,以考虑稀疏性和垂直视野。

数据集地址:http://www.semantic-kitti.org/index.html

5.4 ShapeNet

ShapeNet数据集是一个由对象的三维CAD模型表示的形状存储库,注释丰富,规模较大。ShapeNet包含来自多种语义类别的3D模型,并按照WordNet分类法组织,能够完成部件分割任务,即不仅知道这个点云数据大的分割,还要将它的小部件进行分割。它总共包括十六个大的类别,每个大的类别有可以分成若干个小类别,十六个类别具体包括:飞机Airplane、包Bag、帽子Cap、汽车Car、椅子Chair、耳机Earphone、吉他Guitar、刀Knife、灯Lamp、电脑Laptop、摩托车Motorbike、杯子Mug、手枪Pistol、火箭Rocket、滑板Skateboard、桌子Table。

数据集地址:https://www.shapenet.org/

c2663f14-f09a-11ec-ba43-dac502259ad0.png

c287de3a-f09a-11ec-ba43-dac502259ad0.png

5.5 PartNet

PartNet数据集是用于细粒度和分层零件级3D对象理解的大规模基准。数据集包含573585个零件实例,涵盖26671个3D模型,涵盖24个对象类别。PartNet数据集启用并充当许多任务的催化剂,例如形状分析,动态3D场景建模和仿真,可负担性分析等。数据集建立了用于评估3D零件识别的三个基准测试任务:细粒度语义分割,分层语义分割和实例分割。

数据集地址:https://shapenet.org/download/parts

c29bb7e8-f09a-11ec-ba43-dac502259ad0.png

06结论

近年来,随着自动驾驶和三维重建技术的不断发展,需要处理的点云规模越来越庞大,传统的聚类算法和基于随机采样一致性的分割算法较难满足实时性和精度要求。而基于深度学习的点云分割网络较好地解决了上述问题,本文重点介绍了几种前沿的点云分割网络,包括PointNet/PointNet++、PCT、Cylinder以及JSNet网络,并介绍了5种常用的点云分割数据集。读者在应用深度学习进行点云分割或设计点云分割网络时,要根据自身需求和实际工况,有针对地选择合适的点云分割网络和数据集。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 函数
    +关注

    关注

    3

    文章

    3868

    浏览量

    61308
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24349
  • 深度学习
    +关注

    关注

    73

    文章

    5237

    浏览量

    119904

原文标题:基于深度学习的点云分割网络及点云分割数据集

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    三项SOTA!MasQCLIP:开放词汇通用图像分割网络

    MasQCLIP在开放词汇实例分割、语义分割和全景分割三项任务上均实现了SOTA,涨点非常明显。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。
    的头像 发表于 12-12 11:23 277次阅读
    三项SOTA!MasQCLIP:开放词汇通用图像<b class='flag-5'>分割</b>新<b class='flag-5'>网络</b>

    机器视觉图像分割的方法有哪些?

    现有的图像分割方法主要分以下几类:基于阈值(threshold)的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法
    发表于 11-02 10:26 371次阅读
    机器视觉图像<b class='flag-5'>分割</b>的方法有哪些?

    机器视觉(六):图像分割

    基于阈值的分割方法是一种应用十分广泛的图像分割技术,其实质是利用图像的灰度直方图信息获取用于分割的阈值,一个或几个阈值将图像的灰度级分为几个部分,认为属于同一部分的像素是同一个物体。
    的头像 发表于 10-22 11:34 514次阅读
    机器视觉(六):图像<b class='flag-5'>分割</b>

    有限状态机分割设计

    有限状态机分割设计,其实质就是一个状态机分割成多个状态机
    的头像 发表于 10-09 10:47 352次阅读

    allgero重新导网表之后铜皮出现分割现象是什么原因呢?

    allgero重新导网表之后铜皮没有自动避让其他网络过孔,并且整块铜皮被分割,删除重新铺铜也还是一样的结果
    发表于 10-08 11:38

    只要MLP就能实现的三维实例分割

    实例分割问题,主要障碍在于点云本身是无序、非结构化和非均匀的。广泛使用的卷积神经网络需要对三维点云进行体素化处理,从而产生高昂的计算和内存成本。
    发表于 09-26 10:13 201次阅读
    只要MLP就能实现的三维实例<b class='flag-5'>分割</b>!

    用于资产跟踪的基于Amazon的网络应用

    DSH-ASSETRACKING 控制面板是由 Amazon 网络服务(AWS)提供技术支持的应用它提供直观功能强大的界面,定制收集来自姿态和环境等传感器(如温度、湿度和压力)的资产跟踪位置数据
    发表于 09-13 06:01

    使用PyTorch加速图像分割

    使用PyTorch加速图像分割
    的头像 发表于 08-31 14:27 485次阅读
    使用PyTorch加速图像<b class='flag-5'>分割</b>

    什么是图像分割?图像分割的体系结构和方法

    图像分割(Image Segmentation)是计算机视觉领域中的一项重要基础技术,是图像理解中的重要一环。前端时间,数据科学家Derrick Mwiti在一篇文章中,就什么是图像分割、图像分割架构、图像
    的头像 发表于 08-18 10:34 2589次阅读
    什么是图像<b class='flag-5'>分割</b>?图像<b class='flag-5'>分割</b>的体系结构和方法

    5G:网络的产业基础集成架构

    5G提供数据传输、设备连接和处理各种行业的能力,通过公共或私人网络。对于垂直行业的用户来说,公网的优势在于在其较高的频谱效率,从而导致更高的效率在基于5g的服务实现,降低成本。 目前,
    发表于 08-04 07:06

    KiCad中如何分割平面?

    填充,区域定义完成后使用快捷键 “B”进行填充操作。 分割电源平面 如果需要分割电源平面,比如在同一层上存在5V、3.3V两个电源平面,则必须分别进行两次敷铜操作。 敷铜选项中,可以设置敷铜的“优先级
    发表于 06-26 11:50

    人体分割识别图像技术的原理及应用

    人体分割识别图像技术是一种将人体从图像中分割出来,并对人体进行识别和特征提取的技术。该技术主要利用计算机视觉和图像处理算法对人体图像进行预处理、分割、特征提取和识别等操作,以实现自动化的身份认证
    的头像 发表于 06-15 17:44 686次阅读

    SAM分割模型是什么?

    SAM是一类处理图像分割任务的通用模型。与以往只能处理某种特定类型图片的图像分割模型不同,SAM可以处理所有类型的图像。
    的头像 发表于 05-20 09:30 1561次阅读

    AI算法说-图像分割

    语义分割是区分同类物体的分割任务,实例分割是区分不同实例的分割任务,而全景分割则同时达到这两个目标。全景
    的头像 发表于 05-17 14:44 882次阅读
    AI算法说-图像<b class='flag-5'>分割</b>

    没你想的那么难 | 一文读懂图像分割

    来源:图灵Topia(ID:turingtopia)图像分割(ImageSegmentation)是计算机视觉领域中的一项重要基础技术,是图像理解中的重要一环。近日,数据科学家
    的头像 发表于 05-16 09:21 608次阅读
    没你想的那么难 | 一文读懂图像<b class='flag-5'>分割</b>