深度学习几乎可以完全复制人类的智能？-电子发烧友网

去年 11 月，“深度学习之父”、计算机科学家、认知心理学家杰弗里・辛顿（Geoffrey Hinton）进行了一次预测。经过了半个世纪的尝试之后 —— 其中一些取得了巨大的成功，辛顿对大脑的工作原理以及将其复制到电脑中的方法有了更加深刻的认识。

新冠大流行期间，辛顿一直在多伦多的家庭办公室中隔离。他说道，“这是我目前能够想到的最好的想法。” 如果这个想法能够实现，那么它可能会给下一代的人工神经网络带来启发。

这种数学计算系统的设计灵感来自于大脑的神经元和突触，而它也是当今人工智能的核心技术。正如辛顿所说的那样，他的 “根本动机” 源自好奇心。然而，实际动机 —— 最理想的结果，却是设计出更加可靠、更加值得信赖的人工智能系统。

作为谷歌研究员与向量人工智能研究所联合创始人的辛顿，断断续续写下了自己的想法，并于 2 月末在推特上宣布，他在 arXiv 预印本服务器上发表了一篇 44 页的论文。

辛顿在免责声明中写道：“这篇论文所介绍的并不是实际工作中的系统，而是一种构想中的系统。” 他称之为 “GLOM”，“GLOM” 源于单词 “聚集” 以及短语 “聚在一起”。

辛顿认为，GLOM 可以在机器中还原人类的感知系统，它为在神经网络中处理和呈现视觉信息提供了新的途径。从技术层面来说，该系统是一个相似向量的集合体。

向量是神经网络的基础，一个向量就是一组包含着信息的数字阵列。最简单的例子就是一个点的 xyz 坐标，三个数字就可以表示出一个点在三维空间中的位置。

六维向量包含另外三个信息，也许它们代表着这个点的颜色的红绿蓝值。在神经网络中，成千上万个维度中的向量代表着整个图像或文本。辛顿认为，在处理更高维度的问题时，我们的大脑活动会涉及到 “与神经活动有关的大型向量”。

通过类比，辛顿将相似向量的聚集比作了回声室效应 —— 一种将相似观点放大的效应。辛顿表示，“对于政治和社会来说，回声室效应完全是一场灾难。但对于神经网络而言，它却是一个好东西。”

他将映射了回声室效应概念的神经网络称为 “相同向量的岛屿”，或者更加通俗易懂的 “共识岛屿”—— 当向量在本质信息上达成一致时，它们就会指向相同的方向。

从本质上看，GLOM 同时还在追求实现模拟直觉这一难以达到的目标。辛顿认为，直觉对于感知活动至关重要。他将直觉定义为人类可以轻易进行类比的能力。从小到大，我们通过类比推理以及将相似的物体、观点或概念映射到另一个对象的方法来感知世界，或者就像辛顿所说的那样，从一个大型向量到另一个大型向量。

他还表示：“大型向量的相似性解释了神经网络进行直觉性类比推理的方式。” 从更广泛的层面来看，直觉捕捉到了人脑产生想法的难以形容的方式。辛顿的工作遵循着直觉和科学，一切都是在直觉和类比方法的指导下进行的。他的关于大脑运作方式的理论全都与直觉有关。辛顿表示，“我一直都坚定不移。”

辛顿希望，在人工智能能够真正灵活解决问题之前 —— 可以像人类那样思考，同时还能够理解从未见到过的事物，从以前的经验中寻找相似性，琢磨想法，并且进行概括、推断以及理解 ——GLOM 可以成为诸多技术突破之一。

辛顿说道，“如果神经网络更像人类，那么至少它们就可以像我们一样犯错误，因此我们就能够了解到底是什么让它们感到困惑。”

然而，GLOM 暂时只是一种想法。辛顿说道，“它是一个雾件。” 他承认 GLOM 这个缩写与 “杰弗里最后的原创模型” 完美契合。至少，这是辛顿最新的研究成果。

创造性思维

辛顿对人工神经网络（诞生于二十世纪中期）的热情可以追溯到上个世纪七十年代早期。到 1986 年，他已经在该领域取得了极大的进展：尽管最初的网络仅由几层负责输入与输出的神经元层构成，但辛顿和同事们还是提出了更高级的多层网络技术。然而，计算能力和数据容量赶上并利用好深度架构却花费了 26 年的时间。

2012 年，辛顿因在深度学习领域取得突破而名利双收，他与两名学生一起开发了一种多层神经网络，该神经网络可被训练识别大型图像数据集中的物体。

神经网络学会了去反复提升分类以及识别各种物体的方法 —— 例如，螨虫、蘑菇、小型摩托车以及马达加斯加猫。该系统表现出了出乎意料的精准度。

深度学习引发了最新的人工智能革命，并改变了整个计算机视觉领域。辛顿认为，深度学习几乎可以完全复制人类的智能。

尽管该领域取得了较快的发展，但重大挑战依然存在。在面对陌生的数据集或环境时，神经网络会显得相对脆弱和不够灵活。

自动驾驶汽车和文本语言生成器让人印象深刻，但它们也会出错。人工智能视觉系统也会犯糊涂：系统可以从侧方视角识别出咖啡杯，但如果没有经过训练，就无法从俯视视角认出它；再加上一些像素的变换，熊猫可能会被错认成鸵鸟，甚至是校车。

GLOM 解决了视觉感知系统领域的两个重大难题：从物体以及它们的自然部分角度认识整个场景，以及从新的视角认识事物（GLOM 侧重于视觉，但辛顿希望它还能够应用于语言领域）。

拿辛顿的脸作为例子，疲惫但充满活力的双眼、嘴、耳朵以及显眼的鼻子，都笼罩在较为干净的灰色中。从显眼的鼻子可以看出，即使第一次见到辛顿的照片，也可以轻易地认出他。

在辛顿看来，这两个因素 —— 部分与整体的关系以及视角 —— 对人类的视觉系统至关重要。他说：“如果 GLOM 能够运行的话，那么它将比现在的神经网络更像人类那样去感知事物。”

然而，对于计算机来说，将部分融入整体是一个难题，因为有时候部分的概念是模棱两可的。一个圆圈可能是一只眼睛、一个甜甜圈或者一个车轮。

正如辛顿所解释的那样，第一代人工智能视觉系统主要通过部分与整体的几何关系 —— 部分之间与部分与整体之间的空间方向 —— 来识别物体。

而第二代系统则依靠深度学习 —— 使用神经网络训练大量的数据，辛顿在 GLOM 中将两个方法各自的优势结合在了一起。

Robust.AI 创始人兼首席执行官、对强烈依赖深度学习行为的知名批评家加里・马库斯表示，“这种谦逊让我喜欢。”

马库斯对辛顿挑战自我从而再次成名的意愿表示称赞，并承认这种方法并不太奏效。他说道，“这是一个勇敢的想法。而‘我正在尝试使用创造性思维’的说法是一次非常好的纠正行为。”

GLOM 的架构

辛顿在构建 GLOM 时尝试模拟一些人类在感知世界时所使用的心理捷径，例如直觉策略或者启发法。尼克・弗罗斯特是一名多伦多语言初创公司的计算机科学家，同时也与辛顿在谷歌大脑共事。

弗罗斯特表示，“GLOM 以及杰弗里的大部分工作都在研究人类所拥有的启发法，并构建可以学习启发法的神经网络，之后再证明神经网络更加适合视觉分析。”

通过视觉感知，一种策略是分析一个物体的各个部分 —— 例如不同的面部特征，进而了解整体。如果你看到一个特定的鼻子，那么你也许会认出它出自辛顿的脸，这是一个部分到整体的层次结构。

为了构建一个更好的视觉系统，辛顿表示，“我有很强的直觉，我们需要用到部分到整体的层次结构。” 人类的大脑通过构建 “解析树” 来理解部分到整体的构成。

解析树是一种分支图，表明了整体、部分以及次级部分之间的层次关系。脸位于解析树的最顶端，而眼睛、鼻子、耳朵以及嘴则位于下面的分支中。

辛顿利用 GLOM 实现的主要目标之一是在神经网络中再现解析树，这一特征将使 GLOM 与以往的神经网络区别开来。从技术层面来看，构建该系统的难度较大。

弗罗斯特表示，“难以实现的原因在于，每个人都会以独特的解析树来解析每个图像，而我们希望神经网络也做到这一点。对于系统看到的每一个新图像，我们很难去使用神经网络 —— 新结构 —— 解析树这样的静态结构。”

辛顿进行了各种各样的尝试，GLOM 是他在 2017 年所进行的尝试的修正版本，同时还结合了该领域内其它的相关先进技术。

构想 GLOM 架构的方法一般是这样的：感兴趣的图片（比方说，辛顿面部的照片）会被网格分割开来。网格上的区域代表着图像上的 “位置”—— 这个位置可能包括了虹膜，而另一个位置可能包含了鼻尖。

网络中的每个位置大约有五层，或者说五级。系统会逐层进行预测，并利用向量代表内容或者信息。在靠近低层的地方，向量代表着预测的鼻尖的位置：“我是鼻子的一部分！” 在接下来的层级中，通过构建更加合乎逻辑的视觉表现，向量可能会预测：“我是侧脸图像中的一部分！”

然而，接下来问题出现了：同一层级中相邻的向量会认同吗？当达成一致时，向量会指向同一个方向：“是的，我们都属于同一个鼻子。” 或者是指向之后的解析树。“是的，我们都属于同一张脸。”

在寻求物体本质共识的过程中 —— 有关物体最终的精确定义，GLOM 的向量会反复地、逐一地点并逐层地与旁边相邻的向量，以及上层或下层的已经做出预测的向量进行平均分配。

然而，辛顿表示，网络并不会与附近的向量 “随意均分”。这是有选择性的平均分配，相邻的预测显示出了相似性。

他还说道，“它在美国非常有名，通常被称为回声室效应。你只会接受和你达成一致的人的观点。这样，一个回声室就形成了，里面所有人都持有着相同的观点。事实上，GLOM 积极地使用了这种现象。” 辛顿系统中类似的现象就是那些 “共识岛屿”。

弗罗斯特表示，“设想一群人在一个房间中大声讨论着有些许不同的相似观点。” 或者把他们想成大致指向同一个方向的向量。“一段时间之后，所有的想法都会汇聚成为一个想法。他们会觉得这个想法的影响力越来越强大，因为该想法已经得到了身边人的证实。” 这就是 GLOM 向量加强和放大针对一个图像的协同预测的方法。

GLOM 利用这些共识向量岛屿来达成神经网络中解析树的工作方式，尽管最近一些神经网络使用向量间的共识来进行激活，但 GLOM 使用共识的目的却是为了呈现结果 —— 在网络中构建出事物的表现形式。

例如，当多个向量都认同它们是鼻子的一部分时，小规模的认同向量会共同表示网络中面部解析树的鼻子。另一个较小的认同向量集合可能代表着解析树中的嘴，而位于解析树顶端的大型集合则可能代表着一个新的结果 —— 整体图像是辛顿的脸。

辛顿解释说，“解析树在这里的呈现方式是：物体层级表现为大型岛屿，而物体的各个部分是体积较小的岛屿，次级部分则为更小的岛屿，如此向下。”

蒙特利尔大学计算机科学家约书亚・本吉奥是辛顿的老友和同事，本吉奥表示，如果 GLOM 能够解决在神经网络中表现解析树的工程学挑战，那么这将成为一个伟大的成就，它对于让神经网络正常工作至关重要。

他还说道，“杰弗里在他的生涯中做出过许多次意义非凡的预测，其中很多都得到了验证。因此，我会对这些预测保持关注，尤其是在杰弗里胸有成竹的时候，就像他现在对 GLOM 的感觉。”

辛顿坚定的态度不仅仅来自于对回声室效应的类比，同时还来自于对数学以及生物学的类比，这些都给 GLOM 新的工程学设计决策过程带来了启发和证明。

麦克马斯特大学计算认知神经学家苏・贝克是辛顿的学生，贝克说道，“杰弗里是一个极不寻常的思想家，他能够利用复杂的数学概念，并将生物学理论融入其中，从而发展自己的理论。仅仅局限于数学理论或者神经生物学理论研究的研究人员，很难解开人机学习与思考方式原理这一极具挑战性的难题。”

将哲学融入工程学

到目前为止，特别是在那些世界著名的回声室中，辛顿的新观点被广泛接受。他说道，“在推特上，我得到了很多赞。”YouTube 上的教程还声称保留 “MeGLOMania” 一次的所有权。

辛顿是第一个承认目前的 GLOM 略带有一点哲学沉思的人，在转到实验心理学专业之前，他读过一年哲学本科课程。

其表示：“如果一个想法在哲学上听起来不错，那么它确实是不错。听起来像是垃圾的哲学观点，怎么会变为现实呢？以哲学观点来衡量，它是无法通过这一标准的。”

他还表示，相比之下，“很多科学上的东西听起来完全就是垃圾”，但它们却表现得很好 —— 例如，神经网络。

GLOM 的设计听起来在哲学上很合理。但它会成功吗？

克里斯・威廉姆斯是一名来自爱丁堡大学信息科学学院的机器学习教授，威廉姆斯希望 GLOM 会带来一系列伟大的创新。

然而，他表示，“能够将人工智能与哲学区分开来的东西是，我们可以使用计算机来验证这些理论。” 通过这些实验，找出想法中的缺陷或是将它们修复是不可能的。他还说：“尽管我相信这一研究很有希望，但在目前看来，我并不认为我们有足够多的证据来评估一个想法的真实重要性。”

在多伦多的谷歌研究机构，辛顿一些同事针对 GLOM 的实验正处于早期阶段，使用了新型神经网络架构的软件工程师劳拉・卡普，正在利用计算机模拟技术来测试 GLOM 是否可以在理解物体部分与整体的概念时，产生辛顿所说的共识岛屿，哪怕是在输入的部分充满歧义的情况下。

在实验中，这些部分是 10 个大小不同的椭圆形，它们既可以形成一张脸又能够形成一只羊。

卡普说道，随机输入一个或另一个椭圆，模型就可以做出预测，“对椭圆是否属于人脸或羊、是否是羊腿或者羊头进行处理。” 即使遇到任何干扰，模型也可以进行自我修正。

下一步就是要建立一个基准，用于指示标准的深度学习神经网络是否会被这种任务所迷惑。到目前为止，GLOM 受到了严格的监督 —— 卡普生成了一些数据并将它们打上标记，从而促使模型在长时间内进行修正以达到正确的预测结果。辛顿表示，未经监督的版本叫做 GLUM——“它就是一个笑话。”

在这种初始状态下，下任何重要结论都为时尚早。卡普正在等待更多数据的出现。不过，辛顿已经给业界留下了深刻的印象。

他说：“GLOM 的简便版本可以观察 10 个椭圆，并且还可以根据椭圆之间的空间关系识别出一张脸和一只羊。这是一个具有迷惑性的问题，因为从单个椭圆中看不出它属于哪个物体，也看不出它属于物体的哪个部分。”

总的来说，辛顿对反馈结果感到高兴。他说道，“我只是想把它上传到社区里，这样每个感兴趣的人都可以进行尝试，或者将这些想法进行一些次级组合。之后，哲学才会转化为科学。”

原文标题：“深度学习之父”Geoffrey Hinton：深度学习几乎可以完全复制人类的智能

文章出处：【微信公众号：DeepTech深科技】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1776

文章
43845

浏览量
230596
深度学习

深度学习

+关注

关注
73

文章
5237

浏览量
119908

原文标题：“深度学习之父”Geoffrey Hinton：深度学习几乎可以完全复制人类的智能

文章出处：【微信号：deeptechchina，微信公众号：deeptechchina】欢迎添加关注！文章转载请注明出处。

搜索历史

深度学习几乎可以完全复制人类的智能？

评论

深度学习在人工智能中的 8 种常见应用

深度学习的由来深度学习的经典算法有哪些

机器学习和深度学习的区别

机器学习和深度学习的区别

深度学习服务器怎么做深度学习服务器diy 深度学习服务器主板用什么

深度学习框架和深度学习算法教程

深度学习框架的作用是什么

深度学习框架是什么？深度学习框架有哪些？

什么是深度学习算法？深度学习算法的应用

深度学习算法简介深度学习算法是什么深度学习算法有哪些

深度学习的七种策略

深度学习基本概念

人工智能能否取代人类

人工智能有什么

什么是深度强化学习?深度强化学习算法应用分析