0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度学习在计算机视觉领域的瓶颈已至

悟空智能科技 来源:lq 2019-02-18 14:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一片欣欣向荣背后,深度学习计算机视觉领域的瓶颈已至。提出这个观点的,不是外人,正是计算机视觉奠基者之一,约翰霍普金斯大学教授Alan Yuille,他还是霍金的弟子。

他说,现在做AI不提神经网络,成果都很难发表了,这不是个好势头。

如果人们只追神经网络的潮流,抛弃所有老方法;如果人们只会刷榜,不去想怎样应对深度网络的局限性,这个领域可能很难有更好的发展。

面对深度学习的三大瓶颈,Yuille教授给出两条应对之道:靠组合模型培养泛化能力,用组合数据测试潜在的故障。

观点发表之后,引发不少的共鸣。Reddit话题热度快速超过200,学界业界的AI科学家们也纷纷在Twitter上转发。

Reddit网友评论道,以Yuille教授的背景,他比别人更清楚在深度学习在计算机视觉领域现状如何,为什么出现瓶颈。

深度学习的三大瓶颈

Yuille指出,深度学习虽然优于其他技术,但它不是通用的,经过数年的发展,它的瓶颈已经凸显出来,主要有三个:

需要大量标注数据

深度学习能够实现的前提是大量经过标注的数据,这使得计算机视觉领域的研究人员倾向于在数据资源丰富的领域搞研究,而不是去重要的领域搞研究。

虽然有一些方法可以减少对数据的依赖,比如迁移学习、少样本学习、无监督学习和弱监督学习。但是到目前为止,它们的性能还没法与监督学习相比。

过度拟合基准数据

深度神经网络在基准数据集上表现很好,但在数据集之外的真实世界图像上,效果就差强人意了。比如下图就是一个失败案例。

一个用ImageNet训练来识别沙发的深度神经网络,如果沙发摆放角度特殊一点,就认不出来了。这是因为,有些角度在ImageNet数据集里很少见。

在实际的应用中, 如果深度网络有偏差,将会带来非常严重的后果。

要知道,用来训练自动驾驶系统的数据集中,基本上从来没有坐在路中间的婴儿。

对图像变化过度敏感

深度神经网络对标准的对抗性攻击很敏感,这些攻击会对图像造成人类难以察觉的变化,但可能会改变神经网络对一个物体的认知。

而且,神经网络对场景的变化也过于敏感。比如下面的这张图,在猴子图片上放了吉他等物体,神经网络就将猴子识别成了人类,吉他识别成了鸟类。

背后的原因是,与猴子相比,人类更有可能携带吉他,与吉他相比,鸟类更容易出现在丛林中。

这种对场景的过度敏感,原因在于数据集的限制。

对于任何一个目标对象,数据集中只有有限数量的场景。在实际的应用中,神经网络会明显偏向这些场景。

对于像深度神经网络这样数据驱动的方法来说,很难捕捉到各种各样的场景,以及各种各样的干扰因素。

想让深度神经网络处理所有的问题,似乎需要一个无穷大的数据集,这就给训练和测试数据集带来了巨大的挑战。

为什么数据集会不够大?

这三大问题,还杀不死深度学习,但它们都是需要警惕的信号

Yuille说,瓶颈背后的原因,就是一个叫做“组合爆炸”的概念:

就说视觉领域,真实世界的图像,从组合学观点来看太大量了。任何一个数据集,不管多大,都很难表达出现实的复杂程度。

那么,组合学意义上的大,是个什么概念?

大家想象一下,现在要搭建一个视觉场景:你有一本物体字典,要从字典里选出各种各样的物体,把它们放到不同的位置上。

说起来容易,但每个人选择物体、摆放物体的方法都不一样,搭出的场景数量是可以指数增长的。

就算只有一个物体,场景还是能指数增长。因为,它可以用千奇百怪的方式被遮挡;物体所在的背景也有无穷多种。

人类的话,能够自然而然适应背景的变化;但深度神经网络对变化就比较敏感了,也更容易出错:

△是的,前面出现过了

也不是所有视觉任务都会发生组合爆炸(Combinatorial Explosion) 。

比如,医学影像就很适合用深度网络来处理,因为背景少有变化:比如,胰腺通常都会靠近十二指肠。

但这样的应用并不常见,复杂多变的情况在现实中更普遍。如果没有指数意义上的大数据集,就很难模拟真实情况。

而在有限的数据集上训练/测试出来的模型,会缺乏现实意义:因为数据集不够大,代表不了真实的数据分布。

那么,就有两个新问题需要重视:

1、怎样在有限的数据集里训练,才能让AI在复杂的真实世界里也有很好的表现?

2、怎样在有限的数据集里,高效地给算法做测试,才能保证它们承受得了现实里大量数据的考验?

组合爆炸如何应对?

数据集是不会指数型长大的,所以要试试从别的地方突破。

可以训练一个组合模型,培养泛化能力。也可以用组合数据来测试模型,找出容易发生的故障。

总之,组合是关键。

训练组合模型

组合性 (Compositionality) 是指,一个复杂的表达,它的意义可以通过各个组成部分的意义来决定。

这里,一个重要的假设就是,一个结构是由许多更加基本的子结构,分层组成的;背后有一些语法规则。

这就表示,AI可以从有限的数据里,学会那些子结构和语法,再泛化到各种各样的情景里。

与深度网络不同,组合模型 (Compositional Models) 需要结构化的表示方式,才能让结构和子结构更明确。

组合模型的推断能力,可以延伸到AI见过的数据之外:推理、干预、诊断,以及基于现有知识结构去回答不同的问题。

引用Stuart German的一句话:

The world is compositional or God exists.

世界是组合性的,不然,上帝就是存在的。

虽然,深度神经网络也有些组合性:高级特征是由低级特征的响应组成的;但在本文所讨论的意义上,深度神经网络并不是组合性的。

组合模型的优点已经在许多视觉任务里面体现了:比如2017年登上Science的、用来识别CAPTCHA验证码的模型。

还有一些理论上的优点,比如可解释,以及可以生成样本。这样一来,研究人员就更加容易发现错误在哪,而不像深度神经网络是个黑盒,谁也不知道里面发生了什么。

但要学习组合模型,并不容易。因为这里需要学习所有的组成部分和语法;

还有,如果要通过合成 (Synthesis) 来作分析,就需要有生成模型(Generative Models) 来生成物体和场景结构。

就说图像识别,除了人脸、字母等等少数几种很有规律的图案之外,其他物体还很难应付:

从根本上说,要解决组合爆炸的问题,就要学习3D世界的因果模型(Causal Models) ,以及这些模型是如何生成图像的。

有关人类婴儿的研究显示,他们是通过搭建因果模型来学习的,而这些模型可以预测他们生活环境的结构。

对因果关系的理解,可以把从有限数据里学到的知识,有效扩展到新场景里去。

在组合数据里测试模型

训练过后,该测试了。

前面说过,世界那么复杂,而我们只能在有限的数据上测试算法。

要处理组合数据 (Combinatorial Data) ,博弈论是一种重要的方法:它专注于最坏情况(Worst Case) ,而不是平均情况 (Average Case) 。

就像前面讨论过的那样,如果数据集没有覆盖到问题的组合复杂性,用平均情况讨论出的结果可能缺乏现实意义。

而关注最坏情况,在许多场景下都是有意义的:比如自动驾驶汽车的算法,比如癌症诊断的算法。因为在这些场景下,算法故障可能带来严重的后果。

如果,能在低维空间里捕捉到故障模式 (Failure Modes) ,比如立体视觉的危险因子 (Hazard Factors) ,就能用图形和网格搜索来研究这些故障。

但是对于大多数视觉任务,特别是那些涉及组合数据的任务,通常不会有能找出几个危险因子、隔离出来单独研究的简单情况。

△对抗攻击:稍稍改变纹理,只影响AI识别,不影响人类

有种策略,是把标准对抗攻击(Adversarial Attacks) 的概念扩展到包含非局部结构(Non-Local Structure) ,支持让图像或场景发生变化的复杂运算,比如遮挡,比如改变物体表面的物理性质,但不要对人类的认知造成重大改变。

把这样的方法应用到视觉算法上,还是很有挑战性的。

不过,如果算法是用组合性(Compositional) 的思路来写,清晰的结构可能会给算法故障检测带来很大的帮助。

关于Alan Yuille

Alan Yuille,目前就职于约翰霍普金斯大学,是认知科学和计算机科学的杰出教授。

1976年,在剑桥大学数学专业获得学士学位。之后师从霍金,在1981年获得理论物理博士学位。

毕业之后,转而开拓计算机视觉领域。并先后就职于麻省理工学院的人工智能实验室,哈佛大学计算机系等等学术机构。

2002年加入UCLA,之后担任视觉识别与机器学习中心主任,同时也在心理学系,计算机系,精神病学和生物行为学系任客座教授。

2016年,加入约翰霍普金斯大学。

他曾获得ICCV的最佳论文奖,2012年,担任计算机视觉顶级会议CVPR的主席,计算机视觉界的奠基人之一。

此外,Alan Yuille也直接影响了中国AI的发展,其嫡系弟子朱珑博士学成后,回国创办了AI公司依图科技,现在也是中国CV领域最知名的创业公司之一。

这篇文章中的观点,出自Yuille在2018年5月发表的一篇论文,共同作者是他的博士生Chenxi Liu,在今年一月份,他们对这篇论文进行了更新。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4827

    浏览量

    106797
  • 计算机视觉
    +关注

    关注

    9

    文章

    1714

    浏览量

    47454
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123907

原文标题:三大瓶颈扼住深度学习咽喉

文章出处:【微信号:WUKOOAI,微信公众号:悟空智能科技】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    行业市场具备深度学习能力的视觉系统占比突破40%,催生大量复合型技术岗位需求: • 岗位缺口:视觉算法工程师全国缺口15万+,缺陷检测专项
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战可(11大系列课程,共5000+分钟)

    、锂电池产线的视觉检测工位。 二、职业发展: 目前行业市场具备深度学习能力的视觉系统占比突破40%,催生大量复合型技术岗位需求: • 岗位
    发表于 12-03 13:50

    工控机与普通计算机的核心差异解析

    工业自动化和智能制造领域计算机设备作为核心控制单元,其选择直接影响整个系统的稳定性与可靠性。工控机与普通计算机虽同属计算设备,但其设计目
    的头像 发表于 11-25 14:45 1144次阅读
    工控机与普通<b class='flag-5'>计算机</b>的核心差异解析

    2025中国计算机大会DPU技术论坛成功举办

    近日,备受瞩目的第22届中国计算机大会(CNCC2025)哈尔滨开幕。本届大会注册人数突破1.2万人,汇聚了来自全球计算机领域的顶尖学者、产业领袖、青年学子及国际组织代表。大会以“数
    的头像 发表于 11-02 09:29 382次阅读

    摩尔线程亮相2025中国计算机大会

    10月23日25日,第二十二届中国计算机大会(CNCC2025)哈尔滨成功举办。大会以“数智赋能,无限可能”为主题,汇聚了来自全球计算机领域
    的头像 发表于 10-27 17:46 706次阅读

    如何在机器视觉中部署深度学习神经网络

    人士而言往往难以理解,人们也常常误以为需要扎实的编程技能才能真正掌握并合理使用这项技术。事实上,这种印象忽视了该技术为机器视觉(乃至生产自动化)带来的潜力,因为深度学习并非只属于计算机
    的头像 发表于 09-10 17:38 693次阅读
    如何在机器<b class='flag-5'>视觉</b>中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    易控智驾荣获计算机视觉顶会CVPR 2025认可

    近日,2025年国际计算机视觉与模式识别顶级会议(IEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2025)美国田纳西州纳什维尔召开。
    的头像 发表于 07-29 16:54 981次阅读

    自动化计算机的功能与用途

    工业自动化是指利用自动化计算机来控制工业环境中的流程、机器人和机械,以制造产品或其部件。工业自动化的目的是提高生产率、增加灵活性,并提升制造过程的质量。工业自动化汽车制造中体现得最为明显,其中许多
    的头像 发表于 07-15 16:32 532次阅读
    自动化<b class='flag-5'>计算机</b>的功能与用途

    一文带你了解工业计算机尺寸

    一项艰巨的任务。本博客将指导您了解关键的工业计算机尺寸、使用案例。关键工业计算机外形要素及其使用案例一、工业微型PC尺寸范围:宽度:100毫米-180毫米深度:10
    的头像 发表于 04-24 13:35 790次阅读
    一文带你了解工业<b class='flag-5'>计算机</b>尺寸

    英飞凌边缘AI平台通过Ultralytics YOLO模型增加对计算机视觉的支持

    计算机视觉的支持,扩大了当前对音频、雷达和其他时间序列信号数据的支持范围。增加这项支持后,该平台将能够用于开发低功耗、低内存的边缘AI视觉模型。这将给诸多应用
    的头像 发表于 03-11 15:11 656次阅读
    英飞凌边缘AI平台通过Ultralytics YOLO模型增加对<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>的支持

    Arm KleidiCV与OpenCV集成助力移动端计算机视觉性能优化

    生成式及多模态人工智能 (AI) 工作负载的广泛增长,推动了对计算机视觉 (CV) 技术日益高涨的需求。此类技术能够解释并分析源自现实世界的视觉信息,并可应用于人脸识别、照片分类、滤镜处理及增强现实
    的头像 发表于 02-24 10:15 877次阅读

    Quantinuum“Reimei”量子计算机RIKEN正式运行

    )成功安装并全面投入运行。 此次合作中,RIKEN为“Reimei”量子计算机提供了世界级的基础设施,包括为其量身定制的设计、准备及交付工作。这一里程碑式的成就不仅标志着Quantinuum量子计算
    的头像 发表于 02-17 10:21 791次阅读

    AR和VR中的计算机视觉

    ):计算机视觉引领混合现实体验增强现实(AR)和虚拟现实(VR)正在彻底改变我们与外部世界的互动方式。即便是引人入胜的沉浸式
    的头像 发表于 02-08 14:29 2128次阅读
    AR和VR中的<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>

    云端超级计算机使用教程

    云端超级计算机是一种基于云计算的高性能计算服务,它将大量计算资源和存储资源集中在一起,通过网络向用户提供按需的计算服务。下面,AI部落小编为
    的头像 发表于 12-17 10:19 948次阅读

    AI模型部署边缘设备的奇妙之旅:如何在边缘端部署OpenCV

    力的研究工具。深度学习中,我们会经常接触到两个名称,图像处理和计算机视觉,它们之间有什么区别呢?图像处理(ImageProcessing)
    的头像 发表于 12-14 09:10 1264次阅读
    AI模型部署边缘设备的奇妙之旅:如何在边缘端部署OpenCV