0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习在各种计算机视觉任务上都取得了重大的突破

新机器视觉 来源:新机器视觉 作者:新机器视觉 2021-04-18 10:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

智源导读:近年来,深度学习在各种计算机视觉任务上都取得了重大的突破,其中一个重要因素就是其强大的非线性表示能力,能够理解图像更深层次的信息。本文针对CV+Deep Learning未来的走向进行了展望,其中包括CV与Learning之间的关系、CV面向不同场景以及Learning面向不同场景等多方面的延展。

01

「Learning-based CV」to 「CV-based Learning」

得益于神经网络较强的学习能力,很多视觉任务都被丢入一个黑盒中,然而神经网络直接从像素上对场景进行感知是不够的。对于具体的任务,我们需要利用CV中的原理和技术点对其进行解剖和建模,然后再利用深度学习中的网络架构/工具进行相应的特征提取与任务决策。
这里举个例子,CV中有一个很具有挑战性的任务是3D from Monocular Vision,即从单目图像进行三维重建与感知。目前很多方案都是通过强监督学习方式直接对深度信息进行预测或者直接在2D图像上进行3D任务。 在计算机视觉中,我们知道,从三维世界坐标系到二维相机坐标系是经过了一个透视变换的,因此不同深度的物体才被投影到了同一个平面上(如图1所示)。如果利用这种变换关系去显示地指导神经网络学习或者利用可逆网络去学习这种变换关系,会更加贴合真实场景中的应用。如Marr Vision所描述的,对于一个图像/场景的感知需要经过"2D-2.5D-3D"的过程,然而在Learning-based CV中,诸如此类的视觉原理都被简单粗暴的2D Convolutional Kernel给卷掉了。因此,CV + Deep Learning整个体系的后续发展应该会从Learning-based CV转到CV-based Learning,对于不同的视觉任务融入相应的CV原理并建模Learning方式。

a34068ac-9fbb-11eb-8b86-12bb97331649.png

图1:Ideal Projection of a 3D Object on A 2D Image

02

「Clean CV」to「Wild CV」

目前热门的视觉任务如目标检测、语义分割、深度估计等都已被“卷er”们刷爆各大榜单,其中所用到的大多数数据集都是非常干净的。然而在真实场景中,常见的噪声如径向畸变、光照、运动模糊、雨雾等都会通过改变物体的纹理结构而改变其语义特征,因此造成算法的泛化性不强、换个数据集就崩的现象。一个很直接的解决方案是Image Restoration + CV Task,即在做具体CV任务之前直接还原一个干净的场景。但是有一点需要注意的是目前Image Restoration很多都是基于图像生成式,在去噪的过程中常常会引入新的图像信息,这种顾此失彼的操作对很多下游任务是不能接受的。 对人来说,我们的日常视觉任务很少经过Image Restoration这一步,而是直接在存在各种噪声的情况下进行感知与决策。其中一个最主要的原因是我们已经见过各种场景下的相同物体,即人通过视觉系统所提取到的特征对于噪声具备较好的不变性。相比之下,目前Clean CV所做的事情可能更多关注的是提取对具体任务有帮助的特征,而这种Feature Bias会影响算法的泛化功能。

03

「Single-Frame CV」to「Sequence CV」

Video Understanding是一个未来可期的方向,近些年兴起的“小视频”等新消遣方式大大增加了该方向的人才需求,一些大厂如阿里、腾讯等也在悄然布局。先抛开工业界需求不说,来聊一些具体的技术点。 视频相较于图像而言具有一个绝佳的优势——时序性。这一优势产生的前后帧相关性能够促使弱监督学习和自监督学习等得以更好地应用,人类也是在这样一个动态的世界里利用仅有的标签信息不断地学习与认知。同时,在Sequence CV中,Frame之间的“迁移学习”也是值得探索的,即如何利用少量前序帧中学习到的知识去启发大量的后序帧。对于视频的海量数据对显卡资源产生的负担,视频浓缩(Video Synopsis)等技术可能会带来新的突破。

a392f180-9fbb-11eb-8b86-12bb97331649.png

图2:Video Synopsis

04

「General Pre-training CV」to「Specific Pre-training CV」

众所周知,Pre-training on ImageNet在CV中是一个通用且有效的策略。但是,一些工作表明这种策略对不同CV任务的作用是不同的,原因大致有两点:Data Gap和Task Gap。首先在ImageNet数据集中,大多数图片都是无噪声的,并且场景较为单一,前景、背景易于剥离,这与其他不同的数据集存在数据上的差异;其次,ImageNet所面向的主要任务是图像分类,所以预载入模型中的参数大多与益于分类的特征相关,对于一些位置信息要求更加精细的任务却启发有限。 那么我们如何学习一个更好的Prior去启发后续视觉任务呢?再来联系一下人类的学习过程,对于不同的任务/课程,我们是有特定的Warm-up阶段。比如在学习乒乓球和篮球的过程中,对于乒乓球一开始我们需要练习的是简单的推挡和发球动作,而对于篮球,我们则是在一开始练习基础的运球和投篮动作,这两个Pre-training显然是不同的。回到CV中,对于不同任务比如深度估计和语义分割,也应该给予不同且更加精细的预学习课程:深度估计——三维成像先验,语义分割——场景类别先验等。

a45c3f40-9fbb-11eb-8b86-12bb97331649.png

图3:Pre-training on ImageNet

05

「Learning-ImplicitCV」to「Learning-Friendly CV」

如何评价一个任务是否易于网络学习,或者说这个任务是否对神经网络学习友好?很直观的一点就是去看图像特征与学习目标之间有无显示关联。例如在目标检测中,图像特征与Bounding Box之间的关联是肉眼可见的。而对于另一些任务,例如从一幅图像中直接预测对应拍摄相机的相机参数,那么图像特征与相机参数之间的关联就显得格外隐式了。此外,学习目标的同质性(Homogeneity)和异质性(Heterogeneity)也会影响神经网络的学习。如果对相机参数进一步细化的话,我们可以发现其中还包含了相机光心、焦距、畸变参数等不同的参数,这些参数之间的异质性以及相差甚远的取值范围会很容易导致回归的不平衡问题。 相比之下,Bounding Box中均为描述位置信息的顶点且取值范围相近,那么我们就可以说学习Bounding Box对神经网络是友好的。后续的Center-based目标检测又进一步优化了所学习的目标表示。从显示性与同质性这两点出发,我个人在学习相机参数这一个小点上提出了一个Learning-Friendly Representation(如下图所示),去代替传统的隐式和异质的相机参数,具体细节可参考论文A Deep Ordinal Distortion Estimation Approach for Distortion Rectification (IEEE TIP 2021)。除了相机参数,CV中还存在很多对神经网络并不是很友好的学习目标,相信后续工作会做好CV与神经网络之间的Trade-off,不会让神经网络太过为难。

a4a1a436-9fbb-11eb-8b86-12bb97331649.png

图4:A Learning-friendly Representation for the Camera Intrinsic Parameters 综上,近年CV + Deep Learning虽在众多任务上得以革新,但二者相互作用的关系仍需要根据不同任务进行省视,而且面向Wild、Dynamic、Specific、Learning-Friendly等场景的进阶之路道阻且长。 作者简介:廖康,北京交通大学信息科学研究所2018级博士生,师从林春雨教授,读博期间主要从事图像生成、图像修复、3D视觉等研究,相关成果发表至IEEE Transactions on Image Processing (TIP), IEEE Conference on Computer Vision and Pattern Recognition (CVPR), IEEE Transactions on Intelligent Transportation Systems (TITS), IEEE Transactions on Circuits and Systems for Video Technology (TCSVT)等会议及期刊。

责任编辑:lq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106787
  • 计算机视觉
    +关注

    关注

    9

    文章

    1714

    浏览量

    47450
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123900

原文标题:计算机视觉未来走向:视频理解等5大趋势详解

文章出处:【微信号:vision263com,微信公众号:新机器视觉】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用NVIDIA技术驱动的超级计算机助力开放科学研究

    五个备受瞩目的 HPC 奖决赛入围项目凭借 Alps、JUPITER 和 Perlmutter 超级计算机的支持气候建模、流体模拟等领域取得了重大突破
    的头像 发表于 11-25 11:17 423次阅读

    如何在机器视觉中部署深度学习神经网络

    人士而言往往难以理解,人们也常常误以为需要扎实的编程技能才能真正掌握并合理使用这项技术。事实,这种印象忽视了该技术为机器视觉(乃至生产自动化)带来的潜力,因为深度学习并非只属于
    的头像 发表于 09-10 17:38 678次阅读
    如何在机器<b class='flag-5'>视觉</b>中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    自动化计算机的功能与用途

    工业自动化是指利用自动化计算机来控制工业环境中的流程、机器人和机械,以制造产品或其部件。工业自动化的目的是提高生产率、增加灵活性,并提升制造过程的质量。工业自动化汽车制造中体现得最为明显,其中许多任务
    的头像 发表于 07-15 16:32 527次阅读
    自动化<b class='flag-5'>计算机</b>的功能与用途

    中软国际能源化工行业大模型项目取得重大突破

    近日,中软国际签约某大型石油企业大模型开发项目。作为中国能源化工行业首个备案的大模型,此次签约标志着中软国际能源化工行业人工智能领域取得了重大突破。根据项目规划,中软国际将针对输送管质量检测、常减压工艺运行优化、设备预测性维护
    的头像 发表于 07-05 17:03 1201次阅读

    NVIDIA驱动的现代超级计算机如何突破速度极限并推动科学发展

    现代高性能计算不仅使得更快的计算成为可能,它正驱动着 AI 系统解锁更多领域的科学突破。 高性能计算经历了多次迭代,每一次源于对技术的创造
    的头像 发表于 06-26 19:39 967次阅读
    NVIDIA驱动的现代超级<b class='flag-5'>计算机</b>如何<b class='flag-5'>突破</b>速度极限并推动科学发展

    中国科学院西安光机所在计算成像可解释性深度学习重建方法取得进展

    图1 MDFP-Net网络结构 近日,中国科学院西安光机所空间光学技术研究室计算成像可解释性深度学习重建方法研究取得创新性进展。相关研究成
    的头像 发表于 06-09 09:27 506次阅读
    中国科学院西安光机所在<b class='flag-5'>计算</b>成像可解释性<b class='flag-5'>深度</b><b class='flag-5'>学习</b>重建方法<b class='flag-5'>取得</b>进展

    CADENAS 2025 年金字塔公司联系博览会上取得圆满成功

    上展示了目前的招聘信息,很多人都很乐意将这些信息带走。如果您想了解更多信息,也可以我们的职业网页找到所有信息。 无论是学习商业信息学、建筑学、计算机科学还是国际管理等专业的学生,
    发表于 06-04 14:32

    利用边缘计算和工业计算机实现智能视频分析

    人工智能和物联网取得重大进步的时代,智能视频分析(IVA)正在通过整合先进的人工智能技术来改变视频监控和分析。这项革命性的技术增强了视觉智能,是关键行业创新解决方案的驱动因素。
    的头像 发表于 05-16 14:37 631次阅读
    利用边缘<b class='flag-5'>计算</b>和工业<b class='flag-5'>计算机</b>实现智能视频分析

    一文带你了解工业计算机尺寸

    一项艰巨的任务。本博客将指导您了解关键的工业计算机尺寸、使用案例。关键工业计算机外形要素及其使用案例一、工业微型PC尺寸范围:宽度:100毫米-180毫米深度:10
    的头像 发表于 04-24 13:35 790次阅读
    一文带你了解工业<b class='flag-5'>计算机</b>尺寸

    中科驭数DPU助力大模型训练和推理

    随着深度学习技术的快速发展,大模型(如GPT、BERT等)自然语言处理、计算机视觉等领域取得了
    的头像 发表于 02-19 09:48 1068次阅读
    中科驭数DPU助力大模型训练和推理

    Quantinuum“Reimei”量子计算机RIKEN正式运行

    )成功安装并全面投入运行。 此次合作中,RIKEN为“Reimei”量子计算机提供了世界级的基础设施,包括为其量身定制的设计、准备及交付工作。这一里程碑式的成就不仅标志着Quantinuum量子计算领域的持续
    的头像 发表于 02-17 10:21 786次阅读

    爱立信电信领域取得重大进展

    近日,爱立信宣布电信领域取得了一项重大进展——将大幅提高移动运营商管理不同环境中的用户连接体验的能力。
    的头像 发表于 02-12 10:34 7120次阅读

    黄仁勋:我们正重新发明计算机

    ,人工智能技术的突破,为计算机领域带来了前所未有的变革。这是一项停滞了60多年的重大技术进展,它打破了传统计算机的局限,为我们开辟了新的可能。他指出,自IBM推出System 360以
    的头像 发表于 01-21 10:08 674次阅读

    国外科研团队X射线科学领域取得了重大突破

    近日,据《自然·光子学》报道,欧洲X射线自由电子激光装置(XFEL)和德国电子同步加速器研究中心团队X射线科学领域取得了重大突破。他们成功生成了前所未有的高功率、阿秒级硬X射线脉冲,且重复频率达到
    的头像 发表于 12-20 09:11 673次阅读

    谷歌量子芯片实现计算领域重大突破

    近日,全球科技巨头谷歌宣布,其新一代芯片在量子计算领域取得了前所未有的重大突破。据悉,谷歌成功地短短五分钟内解决了一个传统计算机需要耗费比
    的头像 发表于 12-13 11:10 1139次阅读