基于单目图像的深度估计算法，大幅度提升基于单目图像深度估计的精度-电子发烧友网

基于视觉的自动驾驶系统需要基于单目摄像头获取的图像，判断当前车辆与周围车辆、行人和障碍物的距离，距离判断的精度对自动驾驶系统的安全性有着决定性的影响，商汤科技在CVPR 2018发表亮点报告（Spotlight）论文，提出基于单目图像的深度估计算法，大幅度提升基于单目图像深度估计的精度，进一步提升自动驾驶系统的安全性。该论文由商汤科技见习研究员罗越在研究院研究员任思捷指导下完成。本文为商汤科技CVPR 2018论文解读第5期。

简介

基于单目图像的深度估计算法具有方便部署、计算成本低等优点，受到了学术界和工业界日益增长的关注。现有的单目深度估计方法通常利用单一视角的图像数据作为输入，直接预测图像中每个像素对应的深度值，这种解决方案导致现有方法通常需要大量的深度标注数据，而这类数据通常需要较高的采集成本。近年来的改进思路主要是在训练过程中引入隐式的几何约束，通过几何变换，使用一侧摄像机图像（以下称右图）监督基于另一侧摄像机图像（以下称左图）预测的深度图，从而减少对数据的依赖。但这类方法在测试过程中仍然缺乏显式的几何约束。为了解决上述问题，本文提出单视图双目匹配模型(Single View Stereo Matching, SVS)，该模型把单目深度估计分解为两个子过程，视图合成过程和双目匹配过程，其算法框架如图1所示。

图1：

单视图双目匹配模型的示意图

通过这样的分解，使得提出的模型有如下两个优点：

极大地减少深度标注数据的依赖；

在测试阶段显式地引入几何约束。

实验证明，本文提出的模型仅用少量的深度标注数据就可以在KITTI数据集上超过之前的所有单目深度估计方法，并首次仅靠单目图像数据就超过了双目匹配算法Block Matching的深度估计精度。

SVS模型

现有基于深度学习的单目深度估计方法，通常把CNN作为黑盒使用，学习图像块至深度值的直接映射，这类方法完全依赖高级语义信息作为预测深度的依据，尽管有些方法在损失函数上引入一些特殊的约束条件，学习这样的语义信息仍然是非常困难的。另一方面，即使这样的映射能够被成功训练，算法通常也需要大量带深度值标签的真实数据，而这类数据的采集成本非常高且耗时，极大的限制了这类技术的适用场景。

基于上述分析，本文方法提出了一种新颖的面向单目深度估计的算法框架，把单目深度估计分解为两个过程，即视图合成过程和双目匹配过程。模型的主要设计思路在于：

把双目深度估计模型中有效的几何约束显式地结合到单目深度估计模型中，提高模型的可解释性；

减少使用难以采集的真实深度数据，从而扩大模型的适用范围；

整个模型以端到端的的方式训练，从而提升深度估计准确性。

模型的视图合成过程由视图合成网络完成，输入一张左图，网络合成该图像对应的右图；而双目匹配过程由双目匹配网络完成，接收左图以及合成的右图，预测出左图每一个像素的视差值,详细的网络结构（如图2所示）。

图2：

算法网络结构图

上半部分网络对应视图合成网络

下半部分网络对应双目匹配网络

视图合成网络：

一般情况下，左图中的像素均可以在右图中找到匹配的像素，因此可以首先把左图平移多个不同像素距离，得到多张不同的图片，再使用神经网络预测组合系数，把多张平移后的左图和预测的系数组合得到预测的右图。具体地，视图合成网络基于Deep3D [1] 模型，图2 中的上半部分展示了视图合成网络的示意图。输入一张左图，首先主干网络对其提取不同尺度的特征，再经过上采样层把不同尺度的特征统一至同一个尺寸，然后经过累加操作融合成输出特征并预测出概率视差图，最后经过选择模块（selection module）结合概率视差图以及输入的左图，得到预测的右图。本文采用L1 损失函数训练这个网络。

双目匹配网络：

双目匹配需要把左图像素和右图中其对应像素进行匹配，再由匹配的像素差算出左图像素对应的深度，而之前的单目深度估计方法均不能显式引入类似的几何约束。由于深度学习模型的引入，双目匹配算法的性能近年来得到了极大的提升。本文的双目匹配网络基于DispNetC [2] 模型, 该模型目前在KITTI双目匹配数据集上能够达到理想的精度，其网络如图2的下半部分所示，左图以及合成的右图经过几个卷积层之后，得到的特征会经过1D相关操作（correlation）。相关操作被证明在双目匹配深度学习算法中起关键性的作用，基于相关操作，本文方法显式地引入几何约束；其得到的特征图和左图提取到的特征图进行拼接作为编码-解码网络（encoder-decoder network）的输入，并最终预测视差图。该网络的训练也同样使用L1损失函数。

实验结果

本文在KITTI公开数据集上对提出的模型进行验证，遵循Eigen等人[3]的实验设置，把697张图片作为测试图片，其余的数据作为训练图片，从定量和定性两方面对所提出的模型进行验证。

数值结果

表1总结了本文模型和其他现有方法结果的对比，可以看出，本文模型在大多数指标上均达到世界领先水平。其中，就ARD指标来说，提出的模型比之前最好的方法误差减小16.8%（0.094 vs. 0.113）；表中同时也显示，经过端到端优化之后，SVS模型的性能能够进一步得到提升。

表1：

KITTI数据集上SVS模型和其他方法的数值结果

表中加粗表示性能最好的结果

可视化结果对比

图3显示了在KITTI Eigen测试集上的深度估计结果的可视化效果，从图中可以看出本文提出的SVS模型能够得到更加精准的深度图。

图3：

在KITTI Eigen测试集上的深度估计结果的可视化

提出的SVS模型能够得到更加准确的深度图

在其他数据集上结果的可视化

为了验证SVS模型在其他数据集上的泛化能力，本文将在KITTI数据集上训练好的SVS模型直接应用至Cityscape和 Make3D数据集上，结果可视化效果分别展示在图4及图5中。可以看到即使在训练数据集中没有出现过的场景，本文方法仍然可以得到合理准确的深度估计结果，证实了本文方法较为强大的泛化能力。

图4：

在Cityscape数据集上深度估计结果的可视化

SVS模型能够生成理想的深度图

图5：

在Make3D数据集上深度估计结果的可视化

本文提出的SVS模型可以得到较为准确的结果

与双目匹配算法Block-Matching的对比：

为了进一步确认目前性能最优异的单目深度估计方法和双目深度估计方法的差距，本文在KITTI 2015双目匹配测试集上对比了SVS模型与现有最优性能的单目深度估计方法以及双目匹配Block-Matching方法 (OCV-BM)，相关结果总结在表2中，本文的SVS模型首次超越了双目匹配Block-Matching算法。

表2：

在KITTI 2015双目匹配测试集上的数值结果

技术潜在应用

单目深度估计对比双目深度估计具有方便部署、成本低等优点，在很多领域有着丰富的潜在应用场景，如三维重建、增强现实等。

a) 三维重建

b) 增强现实

结论

本文提出一种简单而有效的单目深度估计模型——单视图双目匹配(SVS)。该模型通过把单目深度估计问题分解为两个子问题，即视图合成问题和双目匹配问题，避免把神经网络模型直接作为黑盒使用，提高了模型的可解释性。同时，为了更好的解决这两个子问题，显式地把几何变换编码到两个子网络中，提升网络模型的表达能力。实验结果表明，该方法仅使用少量带深度标签的训练数据，就能够超越所有之前的单目深度估计方法，并且首次仅使用单目数据就超过双目匹配算法Block-Matching的性能，在众多领域中有着丰富的潜在应用。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

图像

图像

+关注

关注
2

文章
1063

浏览量
40035
深度学习

深度学习

+关注

关注
73

文章
5234

浏览量
119892
商汤科技

商汤科技

+关注

关注
8

文章
410

浏览量
35877

原文标题：CVPR 2018 | 商汤科技Spotlight论文详解：单目深度估计技术

文章出处：【微信号：SenseTime2017，微信公众号：商汤科技SenseTime】欢迎添加关注！文章转载请注明出处。

基于空子载波的信噪比估计算法

【作者】：蔡梦;张科峰;邹雪城;吴兰春;【来源】：《华中科技大学学报(自然科学版)》2010年03期【摘要】：为了解决传统信噪比估计算法在多径信道下性能显著降低且复杂度较高的问题,提出一种基于空子

发表于 04-23 11:51

单目摄像头和FPGA的ADAS产品原型系统

。其中基于深度学习的图像处理算法，对硬件的计算性能、功耗、以及成本把控都会提出更高要求。为了减轻对硬件压力，算法本身的优化将成为重中之重。本

发表于 01-06 18:09

基于深度学习和3D图像处理的精密加工件外观缺陷检测系统

当中常规人工检测手段检测效率低、漏检率高的问题，能大幅度提高生产效率，更好地控制生产质量，节约大量的检测劳动力与人力成本。创新点一：使用3d图像深度信息，结合2d图像处理，与被测对象联

发表于 03-08 13:59

一种高效的基音估计算法

分析已有的一些基音估计算法，对比其优缺点，提出一种可大大提高计算速度的高效基音估计算法。该算法是利用平均幅度差（MAMDF）法提取若干个可能

发表于 12-31 17:21 •0次下载

基于FFT的高精度频率估计算法

介绍一种适用于估计高斯白噪声背景下的信号频率的快速、高精度估计算法,以及算法原理、设计思想、流程,并使用Matlab进行仿真,给出计算机仿真

发表于 02-08 15:30 •47次下载

基于FFT的高<b class='flag-5'>精度</b>频率<b class='flag-5'>估计算法</b>

基于单目深度估计的红外图像彩色化方法_戈曼

发表于 03-17 10:13 •0次下载

如何使用平稳小波域深度残差CNN进行低剂量CT图像估计

针对低剂量计算机断层扫描（ LDCT）重建图像中存在大量噪声的问题，提出了一种平稳小波的深度残差卷积神经网络（ SWT-CNN）模型，可以从LDCT图像

发表于 12-19 10:39 •6次下载

如何使用平稳小波域<b class='flag-5'>深度</b>残差CNN进行低剂量CT<b class='flag-5'>图像</b><b class='flag-5'>估计</b>

微软、中科大开源基于深度高分辨表示学习的姿态估计算法

作者在官网指出，深度高分辨率网络不仅对姿态估计有效，也可以应用到计算机视觉的其他任务，诸如语义分割、人脸对齐、目标检测、图像分类中，期待更多具有说服力的结果公布。

发表于 03-05 09:55 •2637次阅读

微软、中科大开源基于<b class='flag-5'>深度</b>高分辨表示学习的姿态<b class='flag-5'>估计算法</b>

利用图像中水体的反射光来辅助算法进行深度估计和三维重建

下图展示了这种方法的主要流程，首先需要从图像中抽取目标和对应的反射区域，而后对特征进行匹配，并基于这些信息进行水面法向量估计和和反射场景的辐射估计，最后进行立体匹配和深度计算；针对有波

发表于 08-02 14:54 •3882次阅读

利用<b class='flag-5'>图像</b>中水体的反射光来辅助<b class='flag-5'>算法</b>进行<b class='flag-5'>深度</b><b class='flag-5'>估计</b>和三维重建

基于多孔卷积神经网络的图像深度估计模型

针对在传统机器学习方法下单幅图像深度估计效果差、深度值获取不准确的问题，提出了一种基于多孔卷积神经网络（ACNN）的深度

发表于 09-29 16:20 •5次下载

基于多孔卷积神经网络的<b class='flag-5'>图像</b><b class='flag-5'>深度</b><b class='flag-5'>估计</b>模型

基于全局背景光估计和颜色校正的图像增强算法

计算色彩饱和度方差，选取方差最小的区域作为背景光的预估图像。针对原始的背景光估计方法所得图像偏白的问题，通过最小值滤波处理，同时利用 Retinex

发表于 03-19 11:00 •6次下载

采用自监督CNN进行单图像深度估计的方法

为了提高利用深度神经网络预测单图像深度信息的精确度，提出了一种采用自监督卷积神经网络进行单图像深度估计

发表于 04-27 16:06 •13次下载

基于深度学习的二维人体姿态估计算法

，更能充分地提取图像信息，获取更具有鲁棒性的特征，因此基于深度学习的方法已成为二维人体姿态估计算法研究的主流方向。然而，深度学习尚在发展中，仍存在训练规模大等问题，研究者们主要从设络以

发表于 04-27 16:16 •7次下载

介绍第一个结合相对和绝对深度的多模态单目深度估计网络

单目深度估计分为两个派系，metric depth estimation(度量深度估计，也称绝对深度估计

发表于 03-21 18:01 •2281次阅读

单目深度估计开源方案分享

可以看一下单目深度估计效果，这个深度图的分辨率是真的高，物体边界分割的非常干净！这里也推荐工坊推出的新课程《单目深度估计方法：

发表于 12-17 10:01 •461次阅读

搜索历史

基于单目图像的深度估计算法，大幅度提升基于单目图像深度估计的精度

评论