深度学习在各种计算机视觉任务上都取得了重大的突破-电子发烧友网

智源导读：近年来，深度学习在各种计算机视觉任务上都取得了重大的突破，其中一个重要因素就是其强大的非线性表示能力，能够理解图像更深层次的信息。本文针对CV+Deep Learning未来的走向进行了展望，其中包括CV与Learning之间的关系、CV面向不同场景以及Learning面向不同场景等多方面的延展。

「Learning-based CV」to 「CV-based Learning」

得益于神经网络较强的学习能力，很多视觉任务都被丢入一个黑盒中，然而神经网络直接从像素上对场景进行感知是不够的。对于具体的任务，我们需要利用CV中的原理和技术点对其进行解剖和建模，然后再利用深度学习中的网络架构/工具进行相应的特征提取与任务决策。
这里举个例子，CV中有一个很具有挑战性的任务是3D from Monocular Vision，即从单目图像进行三维重建与感知。目前很多方案都是通过强监督学习方式直接对深度信息进行预测或者直接在2D图像上进行3D任务。在计算机视觉中，我们知道，从三维世界坐标系到二维相机坐标系是经过了一个透视变换的，因此不同深度的物体才被投影到了同一个平面上（如图1所示）。如果利用这种变换关系去显示地指导神经网络学习或者利用可逆网络去学习这种变换关系，会更加贴合真实场景中的应用。如Marr Vision所描述的，对于一个图像/场景的感知需要经过"2D-2.5D-3D"的过程，然而在Learning-based CV中，诸如此类的视觉原理都被简单粗暴的2D Convolutional Kernel给卷掉了。因此，CV + Deep Learning整个体系的后续发展应该会从Learning-based CV转到CV-based Learning，对于不同的视觉任务融入相应的CV原理并建模Learning方式。

图1：Ideal Projection of a 3D Object on A 2D Image

「Clean CV」to「Wild CV」

目前热门的视觉任务如目标检测、语义分割、深度估计等都已被“卷er”们刷爆各大榜单，其中所用到的大多数数据集都是非常干净的。然而在真实场景中，常见的噪声如径向畸变、光照、运动模糊、雨雾等都会通过改变物体的纹理结构而改变其语义特征，因此造成算法的泛化性不强、换个数据集就崩的现象。一个很直接的解决方案是Image Restoration + CV Task，即在做具体CV任务之前直接还原一个干净的场景。但是有一点需要注意的是目前Image Restoration很多都是基于图像生成式，在去噪的过程中常常会引入新的图像信息，这种顾此失彼的操作对很多下游任务是不能接受的。对人来说，我们的日常视觉任务很少经过Image Restoration这一步，而是直接在存在各种噪声的情况下进行感知与决策。其中一个最主要的原因是我们已经见过各种场景下的相同物体，即人通过视觉系统所提取到的特征对于噪声具备较好的不变性。相比之下，目前Clean CV所做的事情可能更多关注的是提取对具体任务有帮助的特征，而这种Feature Bias会影响算法的泛化功能。

「Single-Frame CV」to「Sequence CV」

Video Understanding是一个未来可期的方向，近些年兴起的“小视频”等新消遣方式大大增加了该方向的人才需求，一些大厂如阿里、腾讯等也在悄然布局。先抛开工业界需求不说，来聊一些具体的技术点。视频相较于图像而言具有一个绝佳的优势——时序性。这一优势产生的前后帧相关性能够促使弱监督学习和自监督学习等得以更好地应用，人类也是在这样一个动态的世界里利用仅有的标签信息不断地学习与认知。同时，在Sequence CV中，Frame之间的“迁移学习”也是值得探索的，即如何利用少量前序帧中学习到的知识去启发大量的后序帧。对于视频的海量数据对显卡资源产生的负担，视频浓缩（Video Synopsis）等技术可能会带来新的突破。

图2：Video Synopsis

「General Pre-training CV」to「Specific Pre-training CV」

众所周知，Pre-training on ImageNet在CV中是一个通用且有效的策略。但是，一些工作表明这种策略对不同CV任务的作用是不同的，原因大致有两点：Data Gap和Task Gap。首先在ImageNet数据集中，大多数图片都是无噪声的，并且场景较为单一，前景、背景易于剥离，这与其他不同的数据集存在数据上的差异；其次，ImageNet所面向的主要任务是图像分类，所以预载入模型中的参数大多与益于分类的特征相关，对于一些位置信息要求更加精细的任务却启发有限。那么我们如何学习一个更好的Prior去启发后续视觉任务呢？再来联系一下人类的学习过程，对于不同的任务/课程，我们是有特定的Warm-up阶段。比如在学习乒乓球和篮球的过程中，对于乒乓球一开始我们需要练习的是简单的推挡和发球动作，而对于篮球，我们则是在一开始练习基础的运球和投篮动作，这两个Pre-training显然是不同的。回到CV中，对于不同任务比如深度估计和语义分割，也应该给予不同且更加精细的预学习课程：深度估计——三维成像先验，语义分割——场景类别先验等。

图3：Pre-training on ImageNet

「Learning-ImplicitCV」to「Learning-Friendly CV」

如何评价一个任务是否易于网络学习，或者说这个任务是否对神经网络学习友好？很直观的一点就是去看图像特征与学习目标之间有无显示关联。例如在目标检测中，图像特征与Bounding Box之间的关联是肉眼可见的。而对于另一些任务，例如从一幅图像中直接预测对应拍摄相机的相机参数，那么图像特征与相机参数之间的关联就显得格外隐式了。此外，学习目标的同质性（Homogeneity）和异质性（Heterogeneity）也会影响神经网络的学习。如果对相机参数进一步细化的话，我们可以发现其中还包含了相机光心、焦距、畸变参数等不同的参数，这些参数之间的异质性以及相差甚远的取值范围会很容易导致回归的不平衡问题。相比之下，Bounding Box中均为描述位置信息的顶点且取值范围相近，那么我们就可以说学习Bounding Box对神经网络是友好的。后续的Center-based目标检测又进一步优化了所学习的目标表示。从显示性与同质性这两点出发，我个人在学习相机参数这一个小点上提出了一个Learning-Friendly Representation（如下图所示），去代替传统的隐式和异质的相机参数，具体细节可参考论文A Deep Ordinal Distortion Estimation Approach for Distortion Rectification (IEEE TIP 2021)。除了相机参数，CV中还存在很多对神经网络并不是很友好的学习目标，相信后续工作会做好CV与神经网络之间的Trade-off，不会让神经网络太过为难。

图4：A Learning-friendly Representation for the Camera Intrinsic Parameters 综上，近年CV + Deep Learning虽在众多任务上得以革新，但二者相互作用的关系仍需要根据不同任务进行省视，而且面向Wild、Dynamic、Specific、Learning-Friendly等场景的进阶之路道阻且长。作者简介：廖康，北京交通大学信息科学研究所2018级博士生，师从林春雨教授，读博期间主要从事图像生成、图像修复、3D视觉等研究，相关成果发表至IEEE Transactions on Image Processing (TIP), IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE Transactions on Intelligent Transportation Systems (TITS), IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)等会议及期刊。

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4570

浏览量
98706
计算机视觉

计算机视觉

+关注

关注
8

文章
1592

浏览量
45602
深度学习

深度学习

+关注

关注
73

文章
5232

浏览量
119889

原文标题：计算机视觉未来走向：视频理解等5大趋势详解

文章出处：【微信号：vision263com，微信公众号：新机器视觉】欢迎添加关注！文章转载请注明出处。

深度解析深度学习下的语义SLAM

随着深度学习技术的兴起，计算机视觉的许多传统领域都取得了突破性进展，例如目标的检测、识别和分类等

发表于 04-23 17:18 •36次阅读

<b class='flag-5'>深度</b>解析<b class='flag-5'>深度</b><b class='flag-5'>学习</b>下的语义SLAM

【量子计算机重构未来 | 阅读体验】+ 初识量子计算机

大语言模型训练会是一个怎样的情景。。。。。。希望量子计算机尽快走出实验室，能够早日进入寻常百姓家，更希望我国的量子计算机取得突破，蓬勃发展，也能遥遥领先！今天先研读至此，后续所读所

发表于 03-05 17:37

量子计算机未来希望

自己从事语音识别产品设计开发，而量子技术和量子计算机必将在自然语言处理方面实现重大突破，想通过此书学习量子计算技术，储备知识，谢谢！

发表于 02-01 12:51

什么是计算机视觉？计算机视觉的三种方法

计算机视觉是指通过为计算机赋予人类视觉这一技术目标，从而赋能装配线检查到驾驶辅助和机器人等应用。计算机缺乏像人类一样凭直觉产生

发表于 11-16 16:38 •3109次阅读

什么是<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>？<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>的三种方法

最适合AI应用的计算机视觉类型是什么？

计算机视觉是指为计算机赋予人类视觉这一技术目标，从而赋能装配线检查到驾驶辅助和机器人等应用。计算机缺乏像人类一样凭直觉产生

发表于 11-15 16:38 •232次阅读

最适合AI应用的<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>类型是什么？

用于计算机视觉的经典机器学习应用分析

深度学习是指在大部分未处理或“原始”数据上运行的非常大的神经网络模型。深度学习通过将特征提取操作拉入模型本身，对计算机

发表于 11-07 10:11 •160次阅读

用于<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>的经典机器<b class='flag-5'>学习</b>应用分析

如何使用OpenVINO Python API部署FastSAM模型

当今，深度学习技术在计算机视觉领域取得了巨大的突破，使得各种

发表于 10-27 11:04 •313次阅读

反思深度学习与传统计算机视觉的关系

某种程度上，深度学习最大的优势就是自动创建没有人会想到的特性能力。如今，深度学习在众多领域都有一席之地，尤其是在计算机

发表于 09-12 08:29 •398次阅读

计算机视觉中的九种深度学习技术

计算机视觉中仍有许多具有挑战性的问题需要解决。然而，深度学习方法正在针对某些特定问题取得最新成果。在最基本的问题上，最有趣的不仅仅是

发表于 08-21 09:56 •357次阅读

在各种检测器的所有模块实现无监督预训练

近年来，大规模预训练后微调优化方法在计算机视觉中取得了重大进展。一系列预训练算法被设计出来，以学习特定领域的或

发表于 08-01 11:42 •546次阅读

计算机视觉的概念和主要任务

作为人工智能的关键领域之一的计算机视觉近期再次成为了热点，那么你真的了解什么是计算机视觉吗？

发表于 07-17 11:20 •881次阅读

谷歌披露量子计算机新突破

谷歌披露量子计算机新突破量子计算越加被看重，很多的科技巨头包括IBM、谷歌和微软等以及众多的初创公司都在量子计算研究方面取得了

发表于 07-05 18:17 •1185次阅读

谷歌量子计算机新突破可几秒内完成47年的任务

谷歌内部的研究人员在ArXiv上发布了一篇论文，宣布在量子计算领域取得了重大突破。他们声称，谷歌最新的量子计算技术已经超越了现有的经典超级计算机

发表于 07-05 17:51 •1353次阅读

浅谈深度学习在计算机视觉领域的三大瓶颈

深度学习能够实现的前提是大量经过标注的数据，这使得计算机视觉领域的研究人员倾向于在数据资源丰富的领域搞研究，而不是去重要的领域搞研究。

发表于 06-11 10:22 •266次阅读

理解如何处理计算机视觉和深度学习中的图像数据

在过去几年从事多个计算机视觉和深度学习项目之后，我在这个博客中收集了关于如何处理图像数据的想法。对数据进行预处理基本上要比直接将其输入深度

发表于 04-26 11:57 •495次阅读