0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用于处理三维点云的深度学习方法的分析

3D视觉工坊 来源:arxiv 作者:Yulan Guo, Hanyun Wan 2022-11-02 15:07 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

3D点云学习( Point Clouds)作为近年来的研究热点之一,受到了广泛关注,每年在各大会议上都有大量的相关文章发表。当前,点云上的深度学习变得越来越流行,人们提出了许多方法来解决这一领域的不同问题。国防科技大学郭裕兰老师课题组新出的这篇论文对近几年点云深度学习方法进行了全面综述,是第一篇全面涵盖多个重要点云相关任务的深度学习方法的综述论文,包括三维形状分类、三维目标检测与跟踪、三维点云分割等,并对点云深度学习的机制和策略进行全面的归纳和解读,帮助读者更好地了解当前的研究现状和思路。也提供了现有方法在几个可公开获得的数据集上的全面比较,最后也介绍了未来的研究方向。

a98b47ca-4ca5-11ed-a3b6-dac502259ad0.png

对于3D点云,数据正在迅速增长。大有从2D向3D发展的趋势,比如在opencv中就已经慢慢包含了3D点云的处理的相关模块,在数据方面点云的获取也是有多种渠道, 无论是源于CAD模型还是来自LiDAR传感器或RGBD相机的扫描点云,无处不在。另外,大多数系统直接获取3D点云而不是拍摄图像并进行处理。因此,在深度学习大火的年代,应该如何应用这些令人惊叹的深度学习工具,在3D点云上的处理上达到对二维图像那样起到很好的作用呢?

3D点云应用深度学习面临的挑战。首先在神经网络上面临的挑战:

(1)非结构化数据(无网格):点云是分布在空间中的XYZ点。没有结构化的网格来帮助CNN滤波器

(2)不变性排列:点云本质上是一长串点(nx3矩阵,其中n是点数)。在几何上,点的顺序不影响它在底层矩阵结构中的表示方式,例如, 相同的点云可以由两个完全不同的矩阵表示。如下图所示:

(3)点云数量上的变化:在图像中,像素的数量是一个给定的常数,取决于相机。然而,点云的数量可能会有很大的变化,这取决于各种传感器。

a99ae824-4ca5-11ed-a3b6-dac502259ad0.png

在点云数据方面的挑战:

(1)缺少数据:扫描的模型通常被遮挡,部分数据丢失。
(2)噪音:所有传感器都是嘈杂的。有几种类型的噪声,包括点云扰动和异常值。这意味着一个点有一定的概率位于它被采样的地方(扰动)附近的某一半径范围内,或者它可能出现在空间的任意位置(异常值)。
(3)旋转:一辆车向左转,同一辆车向右转,会有不同的点云代表同一辆车。

a9bc9942-4ca5-11ed-a3b6-dac502259ad0.png

点云学习近年来受到越来越多的关注,因为它在许多领域都有广泛的应用,比如计算机视觉自动驾驶机器人技术。作为人工智能的主要技术之一,深度学习已经成功地用于解决各种二维视觉问题。然而,由于使用深度神经网络处理点云所面临的独特挑战,对点云的深度学习仍处于起步阶段。最近,点云上的深度学习变得越来越流行,人们提出了许多方法来解决这一领域的不同问题。为了激发未来的研究,本文对点云深度学习方法的最新进展进行了综述。它涵盖了三个主要任务,包括三维形状分类,三维目标检测和跟踪以及三维点云分割。我们还提供了一些可公开获得的数据集的比较结果,以及有见地的观察和启发性的未来研究方向。

引言

3D数据在不同的领域有许多应用,包括自动驾驶、机器人、遥感、医疗和设计行业[4]。近年来,深度学习技术在计算机视觉、语音识别、自然语言处理(NLP)、生物信息学等研究领域占据主导地位。但是,在三维点云上进行深度学习仍然面临数个重大挑战[5],例如数据集规模小,维数高和三维点云的非结构化性质。在此基础上,本文重点分析了用于处理三维点云的深度学习方法。

一些公开的数据集也被发布,例如ModelNet [6],ShapeNet [7],ScanNet [8],Semantic3D [9]和KITTI Vision Benchmark Suite[10]。这些数据集进一步推动了对三维点云的深度学习研究,提出了越来越多的方法来解决与点云处理相关的各种问题,包括三维形状分类、三维目标检测与跟踪、三维点云分割等。

这篇论文是第一个专门针对点云的深度学习方法的综述。此外,论文全面涵盖了分类,检测,跟踪和分割等不同应用。图1显示了三维点云的现有深度学习方法的分类。

a9ee28f4-4ca5-11ed-a3b6-dac502259ad0.png

图1:三维点云深度学习方法分类。

这项工作的主要贡献可以概括如下:

· 1)据我们所知,这是第一篇全面涵盖多个重要点云相关任务的深度学习方法的综述论文,包括三维形状分类、三维目标检测与跟踪、三维点云分割等。

·2)相对于已有的综述[11],[12],我们特别关注三维点云的深度学习方法,而不是所有类型的三维数据。

· 3)本文介绍了点云深度学习的最新进展。因此,它为读者提供了最先进的方法。

·4)提供了现有方法在几个可公开获得的数据集上的全面比较(例如,表1、2、3、4),并提供了简要的总结和深入的讨论。

本文的结构如下。第2节回顾了三维形状分类的方法。第3节概述了现有的三维目标检测和跟踪方法。第4节介绍了点云分割的方法,包括语义分割、实例分割和部件分割。最后,第5节总结了论文。

论文还在以下网址上提供了定期更新的项目页面:

https://github.com/QingyongHu/SoTA-Point-Cloud

aa0112f2-4ca5-11ed-a3b6-dac502259ad0.png

图2:三维形状分类网络的时间顺序概览。

aa0c5c70-4ca5-11ed-a3b6-dac502259ad0.png

图3:PointNet的体系结构。

aa29f758-4ca5-11ed-a3b6-dac502259ad0.png

图4:点的局部邻居的连续和离散卷积的图解。(a)代表一个局部邻居;(b)和(c)分别表示三维连续卷积和离散卷积。

aa31cb18-4ca5-11ed-a3b6-dac502259ad0.png

图5:基于图的网络的图解。

aa36f8c2-4ca5-11ed-a3b6-dac502259ad0.png

表1:在ModelNet10/40基准上比较三维形状分类结果。这里,我们只关注基于点的网络,“#params”表示相应模型的参数数量。“OA”表示总体精度,“mAcc”表示表中的平均精度。符号“-”表示结果不可用。

aa5fe07a-4ca5-11ed-a3b6-dac502259ad0.png

图6:按时间顺序概述的最相关的基于深度学习的三维目标检测方法。

aa7d59b6-4ca5-11ed-a3b6-dac502259ad0.png

图7:三类三维目标检测方法的典型网络。从上到下:(a)基于多视图,(b)基于分割,(c)基于视锥的方法。

aab5ab86-4ca5-11ed-a3b6-dac502259ad0.png

表2:在KITTI测试三维检测基准上的三维目标检测结果对比。

aad4ce6c-4ca5-11ed-a3b6-dac502259ad0.png

表3:在KITTI test BEV检测基准上三维目标检测结果对比。

ab10723c-4ca5-11ed-a3b6-dac502259ad0.png

图8:按时间顺序概述了一些最相关的基于深度学习的点云语义分割方法。

ab2c5cea-4ca5-11ed-a3b6-dac502259ad0.png

图9:基于投影方法的中间表示图。

ab9ae250-4ca5-11ed-a3b6-dac502259ad0.png

图10:PointNet++[27]框架的示意图。

aba1da10-4ca5-11ed-a3b6-dac502259ad0.png

图11:有代表性的三维点云实例分割方法的年代概述。

未来方向

表4展示了现有方法在公共基准测试上的结果,包括S3DIS[176]、Semantic3D[9]、ScanNet[102]、SemanticKITTI[177]。需要进一步研究的问题有:

·基于点的网络是最常被研究的方法。然而,点表示自然不具有显式的邻近信息,现有的大多数基于点的方法不得不借助于昂贵的邻近搜索机制(如KNN[52]或ball query [27])。这从本质上限制了这些方法的效率,因为邻居搜索机制既需要很高的计算成本,又需要不规则的内存访问[214]。

·从不平衡数据中学习仍然是点云分割中一个具有挑战性的问题。虽然有几种的方法取得了显著的综合成绩[42]、[170]、[182],但它们在类标很少的情况下表现仍然有限。例如,RandLA-Net[95]在Semantic3D的reduced-8子集上获得了76.0%的整体IoU,而在hardscape类上获得了41.1%的非常低的IoU。

·大多数现有的方法[5]、[27]、[52]、[170]、[171]都适用于小点云(如1m*1m,共4096个点)。在实际中,深度传感器获取的点云通常是巨大的、大规模的。因此,有必要进一步研究大规模点云的有效分割问题。

·已有少数文献[145]、[146]、[167]开始研究动态点云的时空信息。预期时空信息可以帮助提高后续任务的性能,如三维目标识别、分割和完成。

abd31800-4ca5-11ed-a3b6-dac502259ad0.png

表4:S3DIS(包括Area5和6-fold cross validation)[176]、Semantic3D(包括semantic-8和reduced-8子集)[9]、ScanNet[8]和SemanticKITTI[177]数据集的语义分割结果对比。

结论

本文介绍了最先进的三维理解方法,包括三维形状分类,三维目标检测和跟踪,以及三维场景和目标分割。对这些方法进行了全面的分类和性能比较。介绍了各种方法的优缺点,并提出了今后的研究方向。

作者:Yulan Guo, Hanyun Wang, Qingyong Hu, Hao Liu, Li Liu, and Mohammed Bennamoun

审核编辑:郭婷

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7836

    浏览量

    93444
  • 自动驾驶
    +关注

    关注

    794

    文章

    14976

    浏览量

    181349
  • 深度学习
    +关注

    关注

    73

    文章

    5603

    浏览量

    124609

原文标题:3D点云分割、目标检测、分类

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    三维感知赋能千行百业——深度相机的技术解析与应用全景

    在数字化转型与智能化升级的浪潮中,感知技术作为连接物理世界与数字世界的重要桥梁,正推动着各行业的变革与创新。深度相机,作为具备三维空间感知能力的新型成像设备,打破了传统2D相机只能捕捉平面信息的局限
    的头像 发表于 04-17 14:40 77次阅读
    <b class='flag-5'>三维</b>感知赋能千行百业——<b class='flag-5'>深度</b>相机的技术解析与应用全景

    深度相机:从技术突破到全场景落地,解锁三维感知新可能

    推动各行业智能化转型的关键设备。不同于传统2D相机只能捕捉平面图像,深度相机能够精确获取场景或物体的三维空间信息,输出深度图与数据,让设
    的头像 发表于 04-15 15:04 237次阅读
    <b class='flag-5'>深度</b>相机:从技术突破到全场景落地,解锁<b class='flag-5'>三维</b>感知新可能

    双目深度相机:模拟人眼视觉,解锁三维感知新可能

    独特优势,成为中远距离三维感知场景的首要方案。它借鉴人类双眼视物的原理,通过两颗平行布置的相机捕捉场景图像,结合复杂算法计算空间深度,无需主动发射光线即可实现精
    的头像 发表于 04-13 14:50 181次阅读
    双目<b class='flag-5'>深度</b>相机:模拟人眼视觉,解锁<b class='flag-5'>三维</b>感知新可能

    VirtualLab:光学系统的三维可视化

    用于检查元件和探测器的位置,以及快速了解光在系统内的传播。所应用的三维视图建模技术可与经典的光线追迹相媲美。 **如何生成一个系统视图文档 ** 一个光学系统的三维视图可以通过两种不同的方式生成
    发表于 04-13 09:04

    深度学习驱动的超构表面设计进展及其在全息成像中的应用

    当前,深度学习技术与超构表面(metasurface)全息成像技术的融合,有力推动了光学成像领域的发展。得益于超构表面对光波特性的精准调控,全息成像技术经处理后可生成对应的三维图像。因
    的头像 发表于 04-09 13:55 101次阅读
    <b class='flag-5'>深度</b><b class='flag-5'>学习</b>驱动的超构表面设计进展及其在全息成像中的应用

    【OFDR】实时感知、动态重构与历史状态回溯!昊衡科技-三维场重构软件

    路径映射三维螺旋路径映射支持TCP实时数据传输,支持导入本地TXT数据,对试验过程进行回溯分析,方便后期数据复盘与优化。数据回放功能界面从实时数据采集到三维场可视化,再
    的头像 发表于 01-29 17:40 1456次阅读
    【OFDR】实时感知、动态重构与历史状态回溯!昊衡科技-<b class='flag-5'>三维</b>场重构软件

    OFDR技术与三维重构的协同价值

    模型上,让结构缺陷位置、应变分布等信息一目了然,为实时监测和精准决策提供了可视化支撑。三维重构软件核心功能解析数据交互与模型导入软件支持两种数据处理模式:通过
    的头像 发表于 11-14 17:36 1455次阅读
    OFDR技术与<b class='flag-5'>三维</b>重构的协同价值

    一文读懂 | 三维视觉领域国家级制造业单项冠军——先临三维的品牌布局

    ,推动高精度三维视觉技术的普及应用。2024年,先临三维营业收入超12亿元,业务遍及全球100+个国家和地区。 先临三维的高精度三维视觉技术深度
    的头像 发表于 11-11 14:55 890次阅读
    一文读懂 | <b class='flag-5'>三维</b>视觉领域国家级制造业单项冠军——先临<b class='flag-5'>三维</b>的品牌布局

    构建适用于三维集成系统的互连线长分布模型

    三维集成电路设计中,TSV技术通过垂直互连显著优化了互连线长分布特性。基于伦特定律的经典分析框架,可构建适用于三维集成系统的互连线长分布模型。
    的头像 发表于 08-21 10:41 1301次阅读
    构建适<b class='flag-5'>用于</b><b class='flag-5'>三维</b>集成系统的互连线长分布模型

    AI 驱动三维逆向:降噪算法工具与机器学习建模能力的前沿应用

    三维逆向工程领域,传统方法处理复杂数据和构建高精度模型时面临诸多挑战。随着人工智能(AI)技术的发展,降噪算法工具与机器
    的头像 发表于 08-20 10:00 845次阅读
    AI 驱动<b class='flag-5'>三维</b>逆向:<b class='flag-5'>点</b><b class='flag-5'>云</b>降噪算法工具与机器<b class='flag-5'>学习</b>建模能力的前沿应用

    请帮帮我:AutoCAD三维显示问题,和人正常视角相背

    AutoCAD三维显示问题,和人正常视角相背 AutoCAD三维显示问题,和人正常视角相背
    发表于 08-14 09:50

    ARM入门学习方法分享

    。 以下是一些入门学习方法的分享: 一、 理解基本概念:首先,了解ARM是什么以及它的基本概念是很重要的。ARM(Advanced RISC Machines)指的是一种精简指令集计算机(RISC
    发表于 07-23 10:21

    航天宏图全栈式3DGS实景三维重建系统解决方案

    “实景三维中国”作为国家推进数字中国建设、提升空间地理信息服务能力的重要战略性工程,正在深度融入低空经济、智能交通、智慧城市、数字文旅和应急指挥等关键领域。三维重建是实现真实世界“实景三维
    的头像 发表于 06-27 09:28 1940次阅读
    航天宏图全栈式3DGS实景<b class='flag-5'>三维</b>重建系统解决方案

    VirtualLab:光学系统的三维可视化

    摘要 为了对光学系统的性质有一个基本的了解,对其组件的可视化和光传播的提示是非常有帮助的。为此,VirtualLab Fusion提供了一个工具来显示光学系统的三维视图。这些工具可以进一步用于检查
    发表于 05-30 08:45

    自动驾驶中常提的“”是个啥?

    啥?对自动驾驶有何影响? 是个啥? (Point Cloud)是一种在三维空间中由大量离散
    的头像 发表于 05-21 09:04 1345次阅读
    自动驾驶中常提的“<b class='flag-5'>点</b><b class='flag-5'>云</b>”是个啥?