0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习在3D计算机视觉当中的应用

新机器视觉 来源:博客园 作者:Mike 2020-08-28 10:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一.导论

目前深度学习已经在2D计算机视觉领域取得了非凡的成果,比如使用一张图像进行目标检测,语义分割,对视频当中的物体进行目标跟踪等任务都有非常不错的效果。传统的3D计算机视觉则是基于纯立体几何来实现的,而目前我们使用深度学习在3D计算机视觉当中也可以得到一些不错的效果,目前甚至有超越传统依靠立体几何识别准确率的趋势。因此咱们现在来介绍一下深度学习在3D计算机视觉当中的应用吧!本博文参考了前几天斯坦福大学最新出的CS231n课程(2020/8/11新出),新课增加了3D计算机视觉和视频/动作分类的lecture,同时丰富了生成对抗网络(GAN)的内容,但暂时国内还无人翻译,因此小编将其翻译整理成博文的形式供大家参考,如有错误之处,请大家见谅,同时欢迎大家讨论。

二.3D计算机视觉训练集以及表示方法

在3D计算机视觉当中,我们可以采用于训练的模型共有以上几种,分别是:

1.Depth Map(深度图)

2.Voxel Grid(翻译过来很奇怪,因此就保留原英语)

3.Implicit Surface(隐表面)

4.PointCloud(三维点云)

5.Mesh

那么什么是Depth Map(深度图)呢?咱们来看看

三.Depth Map(深度图)

深度图的图像如下所示:

在左上角有一张关于斯坦福大学寝室的图片,我们可以将其转化为右上角的深度图,其中深度图当中不同的颜色表示了不同物体距离摄像头的距离,距离摄像头的距离越大,则显示出来的颜色则越红。我们假设有一个神经网络,我们只需要输入一张图片,就可以得到图片当中的所有位置距离摄像头的距离,这样是不是很酷呢?那么我们如何使用神经网络对一系列的图片训练成为深度图的形式呢?一些研究人员便立马想到可以使用全卷积神经网络(Fully convolutional Network)来实现这个过程,全卷积神经网络(Fully convolutional Network)是我们之前在2D计算机视觉当中所采用的用于图像分割的神经网络,之前图像分割得到的是每一个像素点显示的是属于某一个物体类别的概率值,而现在我们把同样的神经网络用于深度图当中就可以得到图像当中某一个像素距离摄像头的远近大小。这样就可以完美得到咱们的深度图训练模型了,我们甚至可以把这个全卷积神经网络替换成U-net以期在一些特定数据集上得到更好的效果。模型如下所示:

这个模型首先也是输出一个3通道的彩色图片,经过一个全卷积神经网络(FCN)然后对深度图进行估计,输出的深度图仅仅具有两个维度,因为第三个维度为1,意味着我们输出的深度图实际上是黑白的,用黑色或者白色的深度来表示距离摄像头的距离,图像当中使用了彩色仅仅是因为看起来更加方便。同时这里的loss使用了L2距离进行损失函数的编写。

但是!!!!细心的同学肯定会发现其中有一定的问题,那就是同一个物体,拥有不同的大小,他们如果仅仅通过一张图片来判定他们离摄像头的距离是不一定准确的。因为图片当中并没有包含物体有关深度的信息。

比如我们有两只形状完全相同的鸟,但是其中一只鸟是另一只鸟大小的2倍,我们把小鸟放到离摄像头更近的位置,将大鸟放到离摄像头更远的位置,那么仅仅通过一张图片我们就会认为这两只鸟离我们的摄像头距离是一样大的!如下图所示:

那么这样我们又该如何解决呢?聪明的研究人员设计了一个具有尺寸不变特征的的loss function来解决了这个问题,这个loss function的写法如下:

至于这个公式为什么会让图片的深度信息得以保留,这里不再赘述,感兴趣的同学可以翻看一下提出这个loss的论文,在2016年的世界顶级人工智能会议论文NIPS上发表,于纽约大学(New York University)提出,论文的链接如下:https://papers.nips.cc/paper/5539-depth-map-prediction-from-a-single-image-using-a-multi-scale-deep-network.pdf

同时呢,在深度图当中还有一种图叫做垂直表面法向量图,它的图像如下所示:

最后输出图像当中的不同颜色代表了这个物体的表面所朝空间当中的方向,比如绿色代表这个物体的表面是朝向右边的,而红色则代表这个物体的表面是朝向左边的。我们也可以使用全卷积神经网络(Fully convolutional Network)对这种输出的图像进行处理,其中的结构如下所示:

最后的Loss采用了(x*y)/(|x|*|y||)的方法,因为我们所预测的图像具备图像的方向和深度的信息,而图像的方向和大小正好可以由向量表示,岂不美哉?每一个训练集当中的图片的其中一个像素点都可以由一个向量来表示,同时具备深度(长度)和方向的信息。而原图当中某个像素点的大小可以表示为向量x,通过神经网络推测之后的同一个像素点则可以表示为向量y,因此我们可以使用公式(x*y)/(|x|*|y||)来衡量这两个向量之间的差距,其中(x*y)中的乘法使用了点乘,因此上下相除可得cos(theta)也就是图片当中某个像素点所具备的loss的大小,将整个图片当中所有像素点的大小加起来则可以得到整个图像当中loss的大小了。

四.Voxel Grid网格表示法

如上图所示,我们可以将一张二维的图片转为一张三维的Voxel grid图,什么是Voxel grid图呢?Voxel grid图就是在一个三维的,大小为V*V*V的空间立体当中,由一系列1*1*1正方体网格堆砌出来的三维立体图形,Voxel grid图当中的每一个网格只具有两个值,1或者0,1表示这个地方有正方体,0表示这个地方没有正方体。一个Mesh图当中只保留物体的形状和大小信息,而不保留物体的颜色以及纹理的信息。

我们先来看一个有趣的问题,用什么方法可以对三维Voxel grid图进行分类呢?我们暂时不考虑将二维图像恢复到三维Voxel grid图的情况的话,常见的手段是使用立体3D卷积,如下图所示:

3D立体卷积和我们的2D卷积有一点不同之处,那就是卷积核的神奇之处是它竟然是一个正立方体!而不是一个二维的平面!在上图当中,我们的输入是一个四通道的1*30*30*30的Voxel grid图,输入的图像可能是一个椅子,也可能是一个床。我们通过三维卷积,不断地进行卷积以及池化的操作,接着使用全连接神经网络将其展开,最后使用softmax函数将其继续拧分类。我们使用3D卷积能够对立体图像的特征进行更为有效的检测,因为一个立体的图像不仅仅有长和宽上面的信息,还有其有关深度的相关信息,因此需要采用3D卷积。3D卷积的动态图如下所示,这个例题动态图当中卷积核的大小为3*3*3:

再回到我们刚才的问题,如何将一个二维的图像转化为Voxel grid图呢,我们可以采用的卷积神经网络如下所示:

首先我们将二维的图像首先送入到一个2D卷积神经网络当中,用于提取这个二维图像的特征,然后通过全连接神经网络或者Flatten层将其展平一个一维的向量,这样就可以更加方便地转化reshape为四通道进行三维卷积的形式,前面我们已经说过三维卷积能够更好地抽象地还原和提取到图像在三维空间上的个特征,因此我们对刚才二维图像抽象出来的特征通过三维卷积进行还原,这是一个通过三维卷积进行上采样的过程。最后输出的结果就可以得到我们的Voxels grid图啦!

但是使用三维卷积常常就会用更为昂贵的代价来换取更为准确的结果,因为三维卷积使用的参数过多,如下图所示:

我们仅仅储存1024^3个Voxels grid网格就需要电脑4GB的显存,实在是太大了!好多电脑的显存还没有这么大呢!因此有些研究人员则直接使用二维卷积对图像进行三维的还原,当然效果肯定没这么好啦,如下图所示:

这个思想就很和我们的自编码器(Auto-Encoders)很像了。

五.采用隐函数

我们还可以采用物体在三维空间当中的函数图像来表示一个立体物体,我们再用神经网络来重新拟合出这个函数就好啦,个人觉得在这种方法不太合理,如下所示:

六.采用3D点云

采用3D点云应该是目前比较靠谱的方案,

在3D点云当中每一个点,都有三个参数,分别是每个点在x,y,z轴上的位置,对3D点云进行分类的话和对Mesh分类的方法差不多,也是经过一定的神经网络再经过softmax函数就可以得到最后的分类了!如下图所示:

这就是今天小编给大家分享的全部内容啦!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机视觉
    +关注

    关注

    9

    文章

    1714

    浏览量

    47454
  • 3D视觉
    +关注

    关注

    4

    文章

    471

    浏览量

    29018
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123907

原文标题:一文入门当今最火的3D视觉

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何深度学习机器视觉的应用场景

    检测应用 微细缺陷识别:检测肉眼难以发现的微小缺陷和异常 纹理分析:对材料表面纹理进行智能分析和缺陷识别 3D表面重建:通过深度学习进行高精度3D建模和检测 电子行业应用 PCB板复杂
    的头像 发表于 11-27 10:19 55次阅读

    奥比中光领跑韩国机器人3D视觉市场

    近日,国际权威行业研究机构Interact Analysis发布《韩国商用及工业移动机器人3D视觉市场分析》报告(以下简称“报告”)。数据显示,奥比中光在韩国商用和工业移动机器人3D视觉
    的头像 发表于 10-23 16:27 471次阅读

    如何在机器视觉中部署深度学习神经网络

    人士而言往往难以理解,人们也常常误以为需要扎实的编程技能才能真正掌握并合理使用这项技术。事实上,这种印象忽视了该技术为机器视觉(乃至生产自动化)带来的潜力,因为深度学习并非只属于计算机
    的头像 发表于 09-10 17:38 693次阅读
    如何在机器<b class='flag-5'>视觉</b>中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    季丰电子邀您相约2025国际3D视觉感知与应用大会

    9月20日 - 21日,国际3D视觉感知与应用大会将在苏州太湖国际会议中心盛大启幕,大会议题涵盖3D成像与测量、3D视觉
    的头像 发表于 09-08 15:03 809次阅读

    iTOF技术,多样化的3D视觉应用

    视觉传感器对于机器信息获取至关重要,正在从二维(2D)发展到三维(3D),某些方面模仿并超越人类的视觉能力,从而推动创新应用。
    发表于 09-05 07:24

    【作品合集】赛昉科技VisionFive 2单板计算机开发板测评

    赛昉科技VisionFive 2单板计算机开发板测评作品合集 产品介绍: 昉·星光 2是全球首款集成了3D GPU的高性能量产RISC-V单板计算机,搭载昉·惊鸿-7110(型号:JH-7110
    发表于 09-04 09:08

    翌视科技3D视觉再升级

    近日,2025翌视科技LVM3000系列新品发布会以线上直播形式举行,超万名合作伙伴共同见证国产3D视觉技术的突破性进展。此次发布的LVM3000系列不仅展现了其“超规格” 实力,更宣告了国产3D
    的头像 发表于 08-12 14:44 1636次阅读

    易控智驾荣获计算机视觉顶会CVPR 2025认可

    近日,2025年国际计算机视觉与模式识别顶级会议(IEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2025)美国田纳西州纳什维尔召开。
    的头像 发表于 07-29 16:54 981次阅读

    3D视觉引领工业变革

    随着工业智能化的推进,3D视觉技术正为制造业带来变革。市场规模逐年扩大,技术应用与市场竞争日益激烈。
    的头像 发表于 07-07 11:08 440次阅读
    <b class='flag-5'>3D</b><b class='flag-5'>视觉</b>引领工业变革

    海伯森3D闪测传感器,工业检测领域的高精度利器

    随着信息技术的飞速进步,第四次视觉革命深度融合“人”“机”“物”,基于光学原理的3D视觉检测技术迎来爆发式发展,成为工业生产中更高效的检测利器。3D
    的头像 发表于 06-20 17:46 1301次阅读
    海伯森<b class='flag-5'>3D</b>闪测传感器,工业检测领域的高精度利器

    NVIDIA助力影眸科技3D生成工具Rodin升级

    AI、计算机视觉技术大众娱乐市场的推广应用,其 3D 生成工具 Rodin(Hyper3d.ai)去年 6 月发布后迅速突破了百万用户量
    的头像 发表于 04-27 15:09 1012次阅读

    英飞凌边缘AI平台通过Ultralytics YOLO模型增加对计算机视觉的支持

    计算机视觉的支持,扩大了当前对音频、雷达和其他时间序列信号数据的支持范围。增加这项支持后,该平台将能够用于开发低功耗、低内存的边缘AI视觉模型。这将给诸多应用领域的机器
    的头像 发表于 03-11 15:11 656次阅读
    英飞凌边缘AI平台通过Ultralytics YOLO模型增加对<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>的支持

    AR和VR中的计算机视觉

    ):计算机视觉引领混合现实体验增强现实(AR)和虚拟现实(VR)正在彻底改变我们与外部世界的互动方式。即便是引人入胜的沉浸式
    的头像 发表于 02-08 14:29 2128次阅读
    AR和VR中的<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>

    多维精密测量:半导体微型器件的2D&amp;3D视觉方案

    精密视觉检测技术有效提升了半导体行业的生产效率和质量保障。友思特自研推出基于深度学习平台和视觉扫描系统的2D
    的头像 发表于 01-10 13:54 1243次阅读
    多维精密测量:半导体微型器件的2<b class='flag-5'>D</b>&amp;<b class='flag-5'>3D</b><b class='flag-5'>视觉</b>方案

    从2D走向3D视觉传感器

    视觉传感器开始向3D发展,带给家用场景下更丰富和完善的功能。   视觉传感器的发展   视觉传感器的概念最早在20世纪50年代后期开始形成,并随着
    的头像 发表于 12-27 00:22 3289次阅读