0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

计算机视觉的解决方案

mK5P_AItists 来源:人工智能头条 2020-05-11 11:02 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

经过一段漫长时期的沉寂之后,人工智能正在进入一个蓬勃发展的新时期,这主要得益于深度学习和人工神经网络近年来取得的长足发展。更准确地说,人们对深度学习产生的新的兴趣在很大程度上要归功于卷积神经网络(CNNs)的成功,卷积神经网络是一种特别擅长处理视觉数据的神经网络结构。

但是,如果有人告诉你卷积神经网络存在根本性的缺陷,你会怎么看呢?而这一点是被誉为“深度学习鼻祖”和“神经网络之父”的Geoffrey Hinton教授在2020年度人工智能顶级会议 – AAAI大会上作的主题演讲中提出的,AAAI(译注:AAAI全称为美国人工智能协会)大会是每年主要的人工智能会议之一。

Hinton,与Yann LeCun和Yoshua Bengio一起出席了这次会议,这三大深度学习巨头,图灵奖的获得者,被业界并称为“深度学习教父”。Hinton谈到了卷积神经网络(CNNs)和胶囊网络的局限性,并提出这是他在人工智能领域的下一个突破方向。

和他所有的演讲一样,Hinton深入探讨了许多技术细节,这些细节使得卷积神经网络与人类视觉系统相比越来显得效率低下而且不同。本文将会详细阐述他在大会上提出的一些要点。但在我们接触这些要点之前,让我们像以往一样,了解关于人工智能的一些基础知识,以及为什么卷积神经网络(CNNs)对人工智能社区来说如此重要的背景和原因。

01

计算机视觉的解决方案

在人工智能的早期,科学家们试图创造出一种计算机,它能像人类一样“看”世界。这些努力导致了一个全新的研究领域的产生,这就是计算机视觉。

计算机视觉的早期研究涉及到符号人工智能的使用,其中的每个规则都必须由人类程序员指定。但是问题在于,并不是人类视觉设备的每一个功能都可以用明确的计算机程序规则来分解。所以,这种方法的使用率和成功率都非常有限。

另一种不同的方法是机器学习。与符号人工智能相反,机器学习算法被赋予了一个通用的结构,并通过对训练实例的检验来开发自己的行为能力。然而,大多数早期的机器学习算法仍然需要大量的人工,来设计用来检测图像相关特征的部件。

卷积神经网络(CNNs),与以上两种方法不同,这是一种端到端的人工智能模型,它开发了自己的特征检测机制。一个训练有素的多层次卷积神经网络会以一种分层的方式自动识别特征,从简单的边角到复杂的物体,如人脸、椅子、汽车、狗等等。

卷积神经网络(CNNs)最早是在20世纪80年代由LeCun引入,当时他在多伦多大学的Hinton实验室做博士后研究助理。但是,由于卷积神经网络对计算和数据的巨大需求,它们被搁置了下来,它在那个时间获得的采用非常有限。而后,经过三十年的发展,并且借助计算硬件和数据存储技术取得的巨大进步,卷积神经网络开始充分发挥其强大的潜力。

今天,得益于大型的计算集群、专用的硬件和海量的数据,卷积神经网络在图像分类和对象识别方面已经得到了广泛而且有益的应用。

卷积神经网络的每一层都将从输入图像中提取特定的特征。

02

卷积神经网络(CNNs)与人类视觉的区别

在AAAI大会的演讲中,Hinton指出:“卷积神经网络(CNNs)充分利用了端对端的学习方式。事实证明,如果一项功能在某个地方不错,那么在其他地方也会很不错,因此他们赢得了巨大的成功。这使得它们可以结合证据,并很好地在不同位置进行泛化。然而,它们与人类的感知非常不同。”

计算机视觉的关键挑战之一是处理现实世界中的数据差异。我们的视觉系统可以从不同的角度、不同的背景和不同的光照条件下识别物体。当物体被其他物体部分遮住或以古怪的方式着色时,我们的视觉系统利用线索和其他知识来填补缺失的信息以及我们这样看的理由。

事实证明,创建能够复制相同对象识别功能的人工智能非常困难。

Hinton说:“卷积神经网络(CNNs)是为解决物体的平移问题而设计的”。这意味着一个训练有素的卷积神经网络可以识别一个对象,而不管其在图像中的位置如何。但是他们并不能很好地处理视点变化的其他效果,例如旋转和缩放。

根据Hinton的说法,解决这个问题的一种方法是使用4D或6D地图来训练人工智能,然后执行对象检测。他补充道:“但这实在是令人望而却步。”。

目前,我们最好的解决方案是收集大量的图像,在不同的位置显示每个对象。然后,我们在这个庞大的数据集上训练卷积神经网络,希望它能看到足够多的对象示例以进行泛化,并且能够在真实世界中以可靠的准确度来检测对象。诸如ImageNet这样的数据集包含超过1,400万个带有注释的图像,目的就是旨在实现这一目标。

Hinton说道:“这不是很有效。我们希望卷积神经网络能够毫不费力地推广到新的视点。如果他们学会了识别某些东西,而你把它放大10倍并旋转60度,那么这根本不会给他们带来任何问题。我们知道计算机图形学就是这样,我们希望卷积神经网络更像这样。”

事实上,ImageNet已经被证明是有缺陷的,它目前是评估计算机视觉系统的首选基准。尽管数据集庞大,但是它无法捕获对象的所有可能角度和位置。它主要由在理想照明条件下以已知角度拍摄的图像组成。

这对于人类视觉系统来说是可以接受的,因为它可以轻松地进行知识泛化。事实上,当我们从多个角度观察到某个对象后,我们通常可以想象它在新位置和不同视觉条件下的外观。

但是卷积神经网络(CNNs)需要详细的示例来说明他们需要处理的案例,而且他们不具备人类思维的创造力。深度学习开发人员通常试图通过应用一个称为“数据增强”的过程来解决这个问题,在这个过程中,他们在训练神经网络之前翻转图像或少量旋转图像。实际上,卷积神经网络将在每个图像的多个副本上进行训练,每个副本都会略有不同。这将有助于人工智能针对同一对象的变化进行泛化。在某种程度上,数据增强使得人工智能模型更加健壮。

然而,数据增强无法涵盖卷积神经网络和其他神经网络无法处理的极端情况,比如说,一张上翘的椅子,或者放在床上的一件皱巴巴的T恤衫。这些都是现实生活中像素操纵无法实现的情况。

ImageNet与现实对比:在ImageNet(左列)中,对象放置整齐,处于理想的背景和光照条件下。而现实世界比它混乱得多(资料来源:objectnet.dev),已经有人通过创建能够更好地表示现实世界的混乱现实的计算机视觉基准和训练数据集来解决这一泛化问题。但是,尽管它们可以改进当前人工智能系统的结果,但它们并不能解决跨视点泛化的根本问题。总会有新的角度、新的照明条件、新的颜色和姿势,而这些新的数据集并不能包含所有这些情况。这些新情况甚至会使最大、最先进的人工智能系统陷入混乱。

03

差异可能是危险的

从上面提出的观点来看,卷积神经网络(CNNs)显然是以与人类截然不同的方式来识别物体的。但是,这些差异不仅在弱泛化上存在局限,而且还需要更多的示例来学习一个对象。卷积神经网络生成对象的内部表示形式也与人脑的生物神经网络非常不同。

这是如何表现出来的?“我可以拍摄一张照片,再加上一点点噪点,卷积神经网络就会将其识别为完全不同的东西,而我本人几乎看不出它们有什么不同。这似乎真的很奇怪,我认为这是证据,卷积神经网络实际上是在使用与我们完全不同的信息来识别图像。” Hinton在AAAI会议上的主题演讲中说道。

这些稍加修改的图像被称为“对抗性样本”,是人工智能领域的研究热点。

对抗性样本可能会导致神经网络对图像进行错误分类,而对人眼却没有影响。

Hinton说:“并不是说这是错的,他们只是使用一种完全不同的方式来工作,而且他们这种完全不同的做法在如何泛化方面也会有一些不同。”

但是许多例子表明,对抗性干扰可能是极其危险的。当你的图像分类器错误地将熊猫标记为长臂猿时,这一切都是可爱和有趣的。但是,当自动驾驶汽车的计算机视觉系统缺少了一个停车标志时,而绕过面部识别安全系统的邪恶黑客,或者谷歌照片将人类标记为大猩猩时,你就会有大麻烦了。

关于检测对抗性扰动并创建可抵抗对抗性扰动的强大的人工智能系统,已经有很多研究。但是,对抗性样本也提醒我们:我们的视觉系统经过几代人的进化,已经能够处理我们周围的世界,我们也创造了我们的世界来适应我们的视觉系统。因此,如果我们的计算机视觉系统以与人类视觉根本不同的方式工作,它们将是不可预测且不可靠的,除非它们得到诸如激光雷达和雷达测绘等补充技术的支持。

04

坐标系和部分-整体关系很重要

Geoffrey Hinton在AAAI大会的主题演讲中指出的另一个问题是,卷积神经网络无法从对象及其部分的角度来理解图像。它们将图像识别为以不同图案排列的像素斑点。它们也没有实体及其关系的显式内部表示。

“当你将卷积神经网络想象成各个像素位置的中心时,你会越来越丰富地描述该像素位置上发生的事情,这取决于越来越多的上下文。最后,你获得了如此丰富的描述,以至于你知道图像中存在哪些对象。但是它们并没有明确地解析图像。”Hinton说。

我们对物体构成的理解有助于我们了解这个世界,并理解我们以前从未见过的东西,比如这个奇特的茶壶。

将对象分解为多个部分有助于我们了解其性质。这是马桶还是茶壶?(资源来源:Smashing lists)

卷积神经网络中还缺少坐标系,这是人类视觉的基本组成部分。基本上,当我们看到一个物体时,我们开发了一个关于它的方向的心理模型,这有助于我们解析它的不同特征。例如,在下图中,考虑右边的脸。如果你将其倒置,你会看到左边的脸。但实际上,你不需要物理翻转图像就可以看到左边的脸。只需在精神上调整坐标系,就可以看到两个面,无论图像的方向如何。

Hinton指出:“根据所施加的坐标系,你会有完全不同的内部感知。卷积神经网络确实不能解释这一点。你给他们一个输入,他们就有一个感知,而感知并不依赖于强加的坐标系。我想,这与对抗性样本有关,也与卷积神经网络以与人完全不同的方式进行感知这一事实有关。”

05

从计算机图形学中吸取教训

Hinton在AAAI会议上的演讲中指出,解决计算机视觉的一种非常简便的方法是制作逆向图。三维计算机图形模型是由对象的层次结构组成的。每个对象都有一个转换矩阵,该矩阵定义了其相对于其父对象的平移,旋转和缩放比例。每个层次结构中顶级对象的变换矩阵定义了其相对于世界原点的坐标和方向。

例如,考虑汽车的3D模型。基础对象具有4×4变换矩阵,该矩阵表示汽车的中心位于具有旋转(X = 0,Y = 0,Z = 90)的坐标(X = 10,Y = 10,Z = 0)处 。汽车本身由许多对象组成,如车轮、底盘、方向盘、挡风玻璃、变速箱、发动机等。每个对象都有自己的变换矩阵,以父矩阵(汽车的中心)为参照,它们定义了自己的位置和方向。例如,左前轮的中心位于(X=-1.5,Y=2,Z=-0.3)。左前轮的世界坐标可以通过将其变换矩阵与其父矩阵相乘得到。

其中一些对象可能具有自己的子集。例如,车轮由轮胎,轮辋,轮毂,螺母等部件组成。这些子项中的每一个都有自己的变换矩阵。

使用这种坐标系层次结构,可以非常轻松地定位和可视化对象,而不管它们的姿势、方向或视点如何。当你要渲染对象时,将3D对象中的每个三角形乘以其变换矩阵及其父对象的变换矩阵。然后将其与视点对齐(另一个矩阵乘法),然后在栅格化为像素之前转换为屏幕坐标。

“如果你(对从事计算机图形学工作的人)说:‘你能从另一个角度向我展示吗?’他们不会说,‘哦,好吧,我很乐意。但是我们没有从那个角度进行训练,所以我们无法从那个角度向你展示。’他们只是从另一个角度向你展示,因为他们有一个3D模型,他们依据部分和整体之间的关系对一个空间结构进行建模,而这些关系根本不依赖于视点。”Hinton说。“我觉得在处理3D对象的图像时,不利用这种漂亮的结构是很疯狂的。”

胶囊网络(Capsule Network),是Hinton的另一个雄心勃勃的新项目,它尝试制作逆向计算机图形。尽管胶囊网络应该有自己独立的一套东西,但其背后的基本思想也是拍摄图像,提取其对象及其部分,定义其坐标系,并创建图像的模块化结构。

胶囊网络仍在研发中,自2017年推出以来,它们已经经历了多次迭代。但是,如果Hinton和他的同事们能够成功地使他们发挥作用,我们将更接近复制人类的视觉。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4829

    浏览量

    106819
  • 人工智能
    +关注

    关注

    1813

    文章

    49752

    浏览量

    261626
  • 机器学习
    +关注

    关注

    66

    文章

    8541

    浏览量

    136236

原文标题:如果卷积神经网络存在根本性的缺陷,你会怎么看?

文章出处:【微信号:AItists,微信公众号:人工智能学家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    使用代理式AI激活传统计算机视觉系统的三种方法

    当前的计算机视觉系统擅长于识别物理空间与流程中的事件,却难以诠释场景细节及其意义,也无法推理后续可能发生的情况。
    的头像 发表于 12-01 09:44 344次阅读

    STM32计算机视觉开发套件:B-CAMS-IMX摄像头模块技术解析

    STMicroelectronics用于 STM32开发板的B-CAMS-IMX摄像头模块提供强大的硬件集,可处理多种计算机视觉场景和用例。该模块具有高分辨率500万像素IMX335LQN
    的头像 发表于 10-20 09:46 724次阅读
    STM32<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>开发套件:B-CAMS-IMX摄像头模块技术解析

    NVIDIA DGX Spark桌面AI计算机开启预订

    DGX Spark 现已开启预订!丽台科技作为 NVIDIA 授权分销商,提供从产品到服务的一站式解决方案,助力轻松部署桌面 AI 计算机
    的头像 发表于 09-23 17:20 939次阅读
    NVIDIA DGX Spark桌面AI<b class='flag-5'>计算机</b>开启预订

    高能计算机:以工控产品为核心,为各行业发展落实解决方案

    在当今数字化与智能化飞速发展的时代,各行业对于高效、稳定、智能的计算解决方案需求愈发迫切。工控计算机作为工业领域智能化转型的核心设备,正凭借其卓越的性能、强大的适应性以及不断创新的技术,为众多行业的发展注入强劲动力。
    的头像 发表于 09-16 09:39 372次阅读

    易控智驾荣获计算机视觉顶会CVPR 2025认可

    近日,2025年国际计算机视觉与模式识别顶级会议(IEEE/CVF Conference on Computer Vision and Pattern Recognition,CVPR 2025)在美国田纳西州纳什维尔召开。
    的头像 发表于 07-29 16:54 985次阅读

    工业计算机的重要性

    工业计算机对某些行业至关重要。我们将在下面详细解释这些行业中的工业计算机应用。1.制造与工业自动化工业级计算机非常适合制造工厂,特别是那些想要自动化装配过程的工厂。在这样的环境中,工业计算机
    的头像 发表于 07-28 16:07 401次阅读
    工业<b class='flag-5'>计算机</b>的重要性

    自动化计算机经过加固后有什么好处?

    让我们讨论一下部署坚固的自动化计算机的一些好处。1.温度范围宽自动化计算机经过工程设计,配备了支持宽温度范围的组件,使自动化计算解决方案能够在各种不同的极端环境中运行。自动化
    的头像 发表于 07-21 16:44 431次阅读
    自动化<b class='flag-5'>计算机</b>经过加固后有什么好处?

    自动化计算机的功能与用途

    工业自动化是指利用自动化计算机来控制工业环境中的流程、机器人和机械,以制造产品或其部件。工业自动化的目的是提高生产率、增加灵活性,并提升制造过程的质量。工业自动化在汽车制造中体现得最为明显,其中许多
    的头像 发表于 07-15 16:32 535次阅读
    自动化<b class='flag-5'>计算机</b>的功能与用途

    工业计算机与商用计算机的区别有哪些

    工业计算机是一种专为工厂和工业环境设计的计算系统,具有高可靠性和稳定性,能够应对恶劣环境下的自动化、制造和机器人操作。其特点包括无风扇散热技术、无电缆连接和防尘防水设计,使其在各种工业自动化场景中
    的头像 发表于 07-10 16:36 526次阅读
    工业<b class='flag-5'>计算机</b>与商用<b class='flag-5'>计算机</b>的区别有哪些

    利用边缘计算和工业计算机实现智能视频分析

    IVA的好处、实际部署应用程序以及工业计算机如何实现这些解决方案。一、什么是智能视频分析(IVA)?智能视频分析(IVA)集成了复杂的计算机视觉,通常与卷积神经网
    的头像 发表于 05-16 14:37 636次阅读
    利用边缘<b class='flag-5'>计算</b>和工业<b class='flag-5'>计算机</b>实现智能视频分析

    计算机网络入门指南

    计算机网络是指将地理位置不同且具有独立功能的多台计算机及其外部设备,通过通信线路连接起来,在网络操作系统、网络管理软件及网络通信协议的管理和协调下,实现资源共享和信息传递的计算机系统。
    的头像 发表于 04-22 14:29 1867次阅读
    <b class='flag-5'>计算机</b>网络入门指南

    Arm KleidiCV与OpenCV集成助力移动端计算机视觉性能优化

    生成式及多模态人工智能 (AI) 工作负载的广泛增长,推动了对计算机视觉 (CV) 技术日益高涨的需求。此类技术能够解释并分析源自现实世界的视觉信息,并可应用于人脸识别、照片分类、滤镜处理及增强现实
    的头像 发表于 02-24 10:15 885次阅读

    BU-67121W实验室航空电子接口计算机North Hills

    解决方案。应用领域:系统集成实验室模拟器生产试验台系统故障排除软件开发数据记录核心特性:桥接功能:支持以太网、MIL-STD-1553和ARINC 429的桥接。开发计算机配置:搭载英特尔凌动
    发表于 02-11 09:26

    AR和VR中的计算机视觉

    ):计算机视觉引领混合现实体验增强现实(AR)和虚拟现实(VR)正在彻底改变我们与外部世界的互动方式。即便是在引人入胜的沉浸式
    的头像 发表于 02-08 14:29 2154次阅读
    AR和VR中的<b class='flag-5'>计算机</b><b class='flag-5'>视觉</b>

    云端超级计算机使用教程

    云端超级计算机是一种基于云计算的高性能计算服务,它将大量计算资源和存储资源集中在一起,通过网络向用户提供按需的计算服务。下面,AI部落小编为
    的头像 发表于 12-17 10:19 963次阅读