0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习不是万灵药 神经网络3D建模其实只是图像识别

DPVg_AI_era 来源:yxw 2019-06-17 11:21 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

随着深度学习的大热,许多研究都致力于如何从单张图片生成3D模型。但近期一项研究表明,几乎所有基于深度神经网络的3D中重建工作,实际上并不是重建,而是图像分类。深度学习并不是万能的!

深度学习并不是万灵药。

近几年,随着深度学习的大热,许多研究攻克了如何从单张图片生成3D模型。从某些方面似乎再次验证了深度学习的神奇——doing almost the impossible。

但是,最近一篇文章却对此提出了质疑:几乎所有这些基于深度神经网络的3D重建的工作,实际上并不是进行重建,而是进行图像分类。

arXiv地址:

https://arxiv.org/pdf/1905.03678.pdf

在这项工作中,研究人员建立了两种不同的方法分别执行图像分类和检索。这些简单的基线方法在定性和定量上都比最先进的方法产生的结果要更好。

正如伯克利马毅教授评价:

几乎所有这些基于深度神经网络的3D重建的工作(层出不穷令人眼花缭乱的State of the Art top conferences 论文),其实还比不上稍微认真一点的nearest neighbor baselines。没有任何工具或算法是万灵药。

至少在三维重建问题上,没有把几何关系条件严格用到位的算法,都是不科学的——根本谈不上可靠和准确。

并非3D重建,而只是图像分类?

基于对象(object-based)的单视图3D重建任务是指,在给定单个图像的情况下生成对象的3D模型。

如上图所示,推断一辆摩托车的3D结构需要一个复杂的过程,它结合了低层次的图像线索、有关部件结构排列的知识和高层次的语义信息。

研究人员将这种情况称为重建和识别:

重构意味着使用纹理、阴影和透视效果等线索对输入图像的3D结构进行推理。

识别相当于对输入图像进行分类,并从数据库中检索最合适的3D模型。

虽然在其它文献中已经提出了各种体系结构和3D表示,但是用于单视图3D理解的现有方法都使用编码器——解码器结构,其中编码器将输入图像映射到潜在表示,而解码器执行关于3D的非平凡(nontrivial)推理,并输出空间的结构。

为了解决这一任务,整个网络既要包含高级信息,也要包含低级信息。

而在这项工作中,研究人员对目前最先进的编解码器方法的结果进行了分析,发现它们主要依靠识别来解决单视图3D重建任务,同时仅显示有限的重建能力。

为了支持这一观点,研究人员设计了两个纯识别基线:一个结合了3D形状聚类和图像分类,另一个执行基于图像的3D形状检索。

在此基础上,研究人员还证明了即使不需要明确地推断出物体的3D结构,现代卷积网络在单视图3D重建中的性能是可以超越的。

在许多情况下,识别基线的预测不仅在数量上更好,而且在视觉上看起来更有吸引力。

研究人员认为,卷积网络在单视图3D重建任务中是主流实验程序的某些方面的结果,包括数据集的组成和评估协议。它们允许网络找到一个快捷的解决方案,这恰好是图像识别。

纯粹的识别方法,性能优于先进的神经网络

实验基于现代卷积网络,它可以从一张图像预测出高分辨率的3D模型。

方法的分类是根据它们的输出表示对它们进行分类:体素网格(voxel grids)、网格(meshes)、点云和深度图。为此,研究人员选择了最先进的方法来覆盖主要的输出表示,或者在评估中已经清楚地显示出优于其他相关表示。

研究人员使用八叉树生成网络(Octree Generating Networks,OGN)作为直接在体素网格上预测输出的代表性方法。

与早期使用这种输出表示的方法相比,OGN通过使用八叉树有效地表示所占用的空间,可以预测更高分辨率的形状。

还评估了AtlasNet作为基于表面的方法的代表性方法。AtlasNet预测了一组参数曲面,并在操作这种输出表示的方法中构成了最先进的方法。它被证明优于直接生成点云作为输出的唯一方法,以及另一种基于八叉树的方法。

最后,研究人员评估了该领域目前最先进的Matryoshka Networks。该网络使用由多个嵌套深度图组成的形状表示,,这些深度图以体积方式融合到单个输出对象中。

对于来自AtlasNet的基于IoU的表面预测评估,研究人员将它们投影到深度图,并进一步融合到体积表示。 对于基于表面的评估指标,使用移动立方体算法从体积表示中提取网格。

研究人员实现了两个简单的基线,仅从识别的角度来处理问题。

第一种方法是结合图像分类器对训练形状进行聚类;第二个是执行数据库检索。

在聚类方面的基线中,使用K-means算法将训练形状聚类为K个子类别。

在检索基线方面,嵌入空间由训练集中所有3D形状的两两相似矩阵构造,通过多维尺度将矩阵的每一行压缩为一个低维描述符。

研究人员根据平均IoU分数对所有方法进行标准比较。

研究人员发现,虽然最先进的方法有不同体系结构的支持,但在执行的时候却非常相似。

有趣的是,检索基线是一种纯粹的识别方法,在均值和中位数IoU方面都优于所有其他方法。简单的聚类基线具有竞争力,性能优于AtlasNet和OGN。

但研究人员进一步观察到,一个完美的检索方法(Oracle NN)的性能明显优于所有其他方法。值得注意的是,所有方法的结果差异都非常大(在35%到50%之间)。

这意味着仅依赖于平均IoU的定量比较不能提供这种性能水平的全貌。 为了更清楚地了解这些方法的行为,研究人员进行了更详细的分析。

每类mIoU比较。

总的来说,这些方法在不同的类之间表现出一致的相对性能。检索基线为大多数类生成最佳重构。所有类和方法的方差都很大。

mIoU与每个类的训练样本数量。

研究人员发现一个类的样本数量和这个类的mIoU分数之间没有相关性。所有方法的相关系数c均接近于零。

定性的结果

聚类基线产生的形状质量与最先进的方法相当。 检索基线通过设计返回高保真形状,但细节可能不正确。 每个样本右下角的数字表示IoU。

左:为所选类分配IoU。 基于解码器的方法和显式识别基线的类内分布是类似的。 Oracle NN的发行版在大多数类中都有所不同。 右图:成对Kolmogorov-Smirnov检验未能拒绝两个分布的无效假设的类数的热图。

研究中的一些问题

参照系的选择

我们尝试使用视角预测网络对聚类基线方法进行扩展,该方法将重点回归摄像头的方位角和仰角等规范框架,结果失败了,因为规范框架对每个对象类都有不同的含义,即视角网络需要使用类信息来解决任务。我们对检索基线方法进行了重新训练,将每个训练视图作为单独样本来处理,从而为每个单独的对象提供空间。

量度标准

平均IoU通常在基准测试中被用作衡量单视图图像重建方法的主要量化指标。如果将其作为最优解的唯一衡量指标,就可能会出现问题,因为它在对象形状的质量值足够高时才能有效预测。如果该值处于中低水平,表明两个对象的形状存在显着差异。

如上图所示,将一个汽车模型与数据集中的不同形状的对象进行了比较,只有 IoU分数比较高(最右两张图)时才有意义,即使IoU=0.59,两个目标可能都是完全不同的物体,比较相似度失去了意义。

倒角距离(Chamfer distance)

如上图所示,两者目标椅子与下方的椅子的下半部分完美匹配,但上半部分完全不同。但是根据得分,第二个目标要好于第一个。由此来看,倒角距离这个量度会被空间几何布局显著干扰。为了可靠地反映真正的模型重建性能,好的量度应该具备对几何结构变化的高鲁棒性。

F-score

我们绘制了以观察者为中心的重建方式的F分数的不同距离阈值d(左)。在 d =重建体积边长的2%的条件下,F分数绝对值与当前范围的 mIoU分数相同,这并不能有效反映模型的预测质量。

因此,我们建议将距离阈值设为重建模型体积边长的1%以下来考察F值。如上图(右)中所示,在阈值d = 1%时,F分数为0.5以上。只有一小部分模型的形状被精确构建出来,预设任务仍然远未解决。我们的检索基线方法不再具有明显的优势,进一步表明使用纯粹的识别方法很难解决这个问题。

现有的基于CNN的方法在精度上表现良好,但丢失了目标的部分结构

未来展望

在这项研究中,研究人员通过重建和识别来推断单视图3D重建方法的范围。

工作展示了简单的检索基线优于最新、最先进的方法。分析表明,目前最先进的单视图3D重建方法主要用于识别,而不是重建。

研究人员确定了引起这种问题的一些因素,并提出了一些建议,包括使用以视图为中心的坐标系和鲁棒且信息量大的评估度量(F-score)。

另一个关键问题是数据集组合,虽然问题已经确定,但没有处理。研究人员正努力在以后的工作中纠正这一点。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像识别
    +关注

    关注

    9

    文章

    529

    浏览量

    39840
  • 3D建模
    +关注

    关注

    0

    文章

    36

    浏览量

    10130
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123907

原文标题:深度学习不是万灵药!神经网络3D建模其实只是图像识别?

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶中常提的卷积神经网络是个啥?

    在自动驾驶领域,经常会听到卷积神经网络技术。卷积神经网络,简称为CNN,是一种专门用来处理网格状数据(比如图像)的深度学习模型。CNN在
    的头像 发表于 11-19 18:15 1835次阅读
    自动驾驶中常提的卷积<b class='flag-5'>神经网络</b>是个啥?

    NMSIS神经网络库使用介绍

    (q7_t) 和 16 位整数 (q15_t)。 卷积神经网络示例: 本示例中使用的 CNN 基于来自 Caffe 的 CIFAR-10 示例。神经网络3 个卷积层组成,中间散布着 ReLU
    发表于 10-29 06:08

    构建CNN网络模型并优化的一般化建议

    :Dropout层随机跳过神经网络模型中某些神经元之间的连接,通过随机制造缺陷进行训练提升整个神经网络的鲁棒性。 6)指定合理的学习率策略:一旦
    发表于 10-28 08:02

    在Ubuntu20.04系统中训练神经网络模型的一些经验

    模型。 我们使用MNIST数据集,训练一个卷积神经网络(CNN)模型,用于手写数字识别。一旦模型被训练并保存,就可以用于对新图像进行推理和预测。要使用生成的模型进行推理,可以按照以下步骤进行操作: 1.
    发表于 10-22 07:03

    如何在机器视觉中部署深度学习神经网络

    图 1:基于深度学习的目标检测可定位已训练的目标类别,并通过矩形框(边界框)对其进行标识。 在讨论人工智能(AI)或深度学习时,经常会出现“神经网络
    的头像 发表于 09-10 17:38 693次阅读
    如何在机器视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b><b class='flag-5'>神经网络</b>

    【嘉楠堪智K230开发板试用体验】01 Studio K230开发板Test2——手掌,手势检测,字符检测

    CanMV K230 的核心计算单元,专门用于处理需要高计算量的复杂图像识别任务。其作用类似于电脑中的 GPU,专注于提供强大的视觉处理算力。 KPU 的核心优势在于: 神经网络处理能力: 它采用神经网络
    发表于 07-10 09:45

    BP神经网络与卷积神经网络的比较

    BP神经网络与卷积神经网络在多个方面存在显著差异,以下是对两者的比较: 一、结构特点 BP神经网络 : BP神经网络是一种多层的前馈神经网络
    的头像 发表于 02-12 15:53 1308次阅读

    如何优化BP神经网络学习

    优化BP神经网络学习率是提高模型训练效率和性能的关键步骤。以下是一些优化BP神经网络学习率的方法: 一、理解学习率的重要性
    的头像 发表于 02-12 15:51 1424次阅读

    BP神经网络的优缺点分析

    BP神经网络(Back Propagation Neural Network)作为一种常用的机器学习模型,具有显著的优点,同时也存在一些不容忽视的缺点。以下是对BP神经网络优缺点的分析: 优点
    的头像 发表于 02-12 15:36 1586次阅读

    什么是BP神经网络的反向传播算法

    神经网络(即反向传播神经网络)的核心,它建立在梯度下降法的基础上,是一种适合于多层神经元网络学习算法。该算法通过计算每层网络的误差,并将这
    的头像 发表于 02-12 15:18 1278次阅读

    BP神经网络深度学习的关系

    BP神经网络深度学习之间存在着密切的关系,以下是对它们之间关系的介绍: 一、BP神经网络的基本概念 BP神经网络,即反向传播
    的头像 发表于 02-12 15:15 1341次阅读

    BP神经网络图像识别中的应用

    BP神经网络图像识别中发挥着重要作用,其多层结构使得网络能够学习到复杂的特征表达,适用于处理非线性问题。以下是对BP神经网络
    的头像 发表于 02-12 15:12 1188次阅读

    深度学习入门:简单神经网络的构建与实现

    深度学习中,神经网络是核心模型。今天我们用 Python 和 NumPy 构建一个简单的神经网络神经网络由多个
    的头像 发表于 01-23 13:52 846次阅读

    人工神经网络的原理和多种神经网络架构方法

    所拟合的数学模型的形式受到大脑中神经元的连接和行为的启发,最初是为了研究大脑功能而设计的。然而,数据科学中常用的神经网络作为大脑模型已经过时,现在它们只是能够在某些应用中提供最先进性能的机器
    的头像 发表于 01-09 10:24 2252次阅读
    人工<b class='flag-5'>神经网络</b>的原理和多种<b class='flag-5'>神经网络</b>架构方法

    ANN神经网络——器件建模

    随着半导体行业的新材料、新工艺、新器件的不断发展,人工神经网络作为一种替代方法已经被引入器件建模领域。本文介绍了ANN神经网络建模的起源、优势、实现方式和应用场景。   随着半导体行业
    的头像 发表于 01-06 13:41 1667次阅读
    ANN<b class='flag-5'>神经网络</b>——器件<b class='flag-5'>建模</b>