测量神经网络的抽象推理能力-电子发烧友网

聚焦 ICML—— Deep Mind 今天在 ICML 大会上发表了他们的最新研究，从人类的 IQ 测试里用来衡量抽象推理的方法中获得灵感，探索深层神经网络的抽象推理和概括的能力。一开始看到文章的前半部分的 IQ 测试题数据集，我在凌晨十二点花了一些时间把几个测试题做完了，但是并不是以预期中的飞速完成，然后回想体会了一下我“是如何理解题目，进而做出这些题目得到结果的”。我就很好奇这将会是如何开展的一个研究；随着岁月的流逝，我们会不断地遗忘知识，渐渐地还给老师了，但是我们学习新知识的能力，推理思维力也不如以前，那这个研究的成果又会是如何呢？今天人工智能头条也为大家介绍一下 Deep Mind 的这项最新研究：测量神经网络的抽象推理能力。看到最后觉得需要练练的怕是我吧~~

神经网络是否可以学习抽象推理，还是仅仅浅显地学习统计数据学习，是最近学术界辩论的主题。在本文中，受到一个著名 IQ 测试的灵感启发，我们提出一个抽象推理挑战及其相应的数据集。为了成功应对这一挑战，模型必须应对训练和测试阶段不同数据方法情况下的各种泛化情况，我们展示了即使是在训练集和测试集的差别很小的情况下，像 ResNet 这样的模型也难以取得很好的泛化表现。

为了解决这个问题，我们设计了一种用于抽象推理的新颖结构，当训练数据和测试数据不同时，我们发现该模型能够精通某些特定形式的泛化，但在其他方面能力较弱。进一步地，当训练时模型能够对答案进行解释性的预测，那么我们模型的泛化能力将会得到明显的改善。总的来说，我们介绍并探索两种方法用于测量和促使神经网络拥有更强的抽象推理能力，而我们公开的抽象推理数据集也将促进在该领域进一步的研究进展。

在机器学习问题上，基于神经网络的模型已经取得了长足而又令人印象深刻的成果，但同时其对抽象概念的推理能力的研究也是一大难题。先前的研究主要集中于解决通用学习系统的重要特征，而我们的最新论文提出了一种在学习机器的过程中测量抽象推理的方法，并揭示了关于泛化本质问题的一些重要见解。

要理解为什么抽象推理对于通用人工智能如此得重要，首先了解阿基米德提出的 “famous Eureka” ：即物体的体积等于所取代的水体积，他从概念层面理解体积，因此能够推断出其他不规则形状物体的体积。

我们希望AI 也拥有这样类似的能力。尽管当前的人工智能系统可以在复杂的战略游戏中击败人类的世界冠军，但它们经常挣扎于其他一些看似简单的任务，特别是在新环境中需要发现并重复应用抽象概念。例如，如果专门训练我们系统只学习计算三角形，那么即便是当前最好的AI 系统也无法计算方形或其他先前未见过的对象。

因此，要构建更好、更智能的系统，了解当前神经网络处理抽象概念的方式并寻求改进的地方是非常重要的。为了实现这一目标，我们从人类智商测试中汲取用于测量抽象推理的灵感。

▌创建抽象推理数据库

标准的人类 IQ 测试 (如上图)，通常要求测试者通过应用他们日常经验学习到的原则来解释一些简单感知上的视觉场景。例如，人类测试者可以通过观察植物或建筑物的增长，或通过数学课上学习的加法运算，或通过跟踪银行余额带来的累积利息，来了解 “progressions” 这个概念 (表示属性增加、递增的概念)。然后，他们可以在谜题中应用这一概念，来推断形状的数量，大小，甚至它们的颜色强度将沿着序列增加的情况。

我们还没有办法能让机器学习智能体学习到这样的“日常体验”，我们就无法轻易的去衡量如何它们将知识从现实世界转化成视觉推理测试的能力。尽管如此，我们仍然可以创建一个实验设置，以便能够充分利用人类视觉推理测试。我们要研究的是从一组受控的视觉推理问题到另一组问题上的知识转移，而不是研究从日常生活到视觉推理问题的知识转移 (如人类测试中那样)。

为了实现这个目标，我们构建了一个用于创建矩阵问题的生成器，称之为“程序生成矩阵数据集” (Proceduralyly Generated Matrices, PGM)，用于抽象推理的模型试验。、该数据集涉及一组抽象因素并通过原始数据随机采样得到，这些抽象因素包括“渐进 (progressions)” 之类的关系、以及颜色大小等属性数据。虽然该问题生成器只使用了一小部分的潜在因素，但它仍然会产生大量独特的问题，以构成丰富的矩阵数据集。

关系类型数据集 (R，元素是 r)：包括 progression，XOR，OR，AND，consistent union关系等。

目标类型数据集 (O，元素是 o)：包括 shape，line 类型等。

属性类型数据集 (A，元素是 a)：包括 type，color，position，number 等属性。

接着，我们对生成器可用的因素或组合进行了约束，使生成器能够创建用于模型训练和测试的不同问题数据集，以便我们进一步测量模型推广到测试集的泛化能力。例如，我们创建了一组谜题训练集，其中只有当应用线条颜色时才会遇到渐进 (progressions) 关系，而测试集中的情况是当应用形状大小时才会发现该关系。如果模型在该测试集上表现良好，即使是训练时从未见过的数据情况下也是如此，就证明了我们的模型具有推断和应用抽象概念的能力。

▌抽象推理模型

在机器学习评估中所应用的典型的泛化方案中，训练和测试数据是服从相同的基础分布采样的，所测试的所有网络都表现出良好的泛化误差，其中有一些绝对性能甚至超过75％，实现了令人印象深刻的结果。对于性能最佳的网络，它不仅能够明确地计算不同图像面板之间的关系，还能并行地评估了每个潜在答案的适合性。我们将此网络架构称为—— Wild Relation Network （WReN），其模型结构示意图如下：

WReN模型结构

其中，每个 CNN 能够独立处理每个上下文面板（panel），而每个上下文面板将用于返回一个单独的答案并生成9个嵌入矢量。随后，将这组得到的嵌入向量传递给 RN，其输出的是单个 sigmoid 单元，用于对问题答案的关联得分进行编码。通过这样的网络传递过程，得到8个问题的答案及其相应的得分，最终通过一个 softmax 函数得分来确定模型的预测答案。

▌实验分析

为了验证抽象推理模型，我们在 PGM 数据集上进行了大量的实验测试，并对比分析了不同模型的表现，不同类型问题模型的表现，模型的泛化表现，辅助训练对模型表现的影响。

总的说来，当需要在先前见过的属性值之间进行属性值“内插值(interpolated)”时，以及在不熟悉的因素组合中应用已知抽象关系进行推理时，模型表现出非常好的泛化能力。然而，同样的网络在“外推 (extrapolation)”方案中却表现的更差。在这种情况下，测试集中的属性值与训练集中的属性值不在同一范围内。例如，对于训练期间包含深色物体而在测试期间包含浅色物体的谜题，就会出现这种情况。此外，当模型训练时将先前学习到的关系 (如形状数量的递增关系) 应用于新的属性 (如大小) 时，其泛化性能也会表现的更糟糕。

最后，我们观察到当训练的模型不仅能够预测正确的答案，还能推理出正确答案 (即能够考虑解决这个难题的特定关系和属性) 时，我们模型的泛化性能得到了改进。更有趣的是，模型的准确性与其矩阵潜在的正确推理能力密切相关：当推理解释正确时，模型的准确性将达到87%；而当其推理解释错误时，这种准确性表现将下降到只有32％。这表明当模型能够正确推断出任务背后的抽象概念时，它们可以获得更好的性能。

▌总结

最近的研究主要集中探索用于解决机器学习问题的神经网络模型方法的优点和缺点，通常是基于模型的能力或泛化能力的研究。我们的研究结果表明，关于泛化能力的一般结论可能是无益的：我们的神经网络在某些泛化方案测试中表现良好，而在其他测试中表现很差。其中的成功取决于一系列因素，包括所用模型的架构以及模型是否经过训练来为其答案选择提供可解释的推理等。在几乎所有的情况下，在超出模型经验范围的外推输入或用于解决完全不熟悉的属性问题时，模型都会表现不佳。因此，这也为这个关键而又重要的研究领域未来的工作提供了一个明确的焦点。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4572

浏览量
98746
人工智能

人工智能

+关注

关注
1776

文章
43845

浏览量
230600

原文标题：天啊，你要的智商已下线——用我们的IQ测试题研究测量神经网络的抽象推理能力

文章出处：【微信号：AI_Thinker，微信公众号：人工智能头条】欢迎添加关注！文章转载请注明出处。

粒子群优化模糊神经网络在语音识别中的应用

一定的早熟收敛问题,引入一种自适应动态改变惯性因子的PSO算法,使算法具有较强的全局搜索能力.将此算法训练的模糊神经网络应用于语音识别中,结果表明,与BP算法相比,粒子群优化的模糊神经网络具有较高

发表于 05-06 09:05

神经网络教程（李亚非）

　　第1章概述　　1.1 人工神经网络研究与发展　　1.2 生物神经元　　1.3 人工神经网络的构成　　第2章人工神经网络基本模型　　2.1 MP模型　　2.2 感知器模型　　2.3

发表于 03-20 11:32

【PYNQ-Z2试用体验】神经网络基础知识

思考问题的过程。人脑输入一个问题，进行思考，然后给出答案。神经网络就是在模拟人的思考这一过程。而我们要做的就是以数学的方式，将这一抽象的过程进行量化。神经元与激活函数人的大脑有大约1000亿个

发表于 03-03 22:10

基于i.MX 8的物体识别神经网络

i.MX 8开发工具从相机获取数据并使用一个GPU并应用图像分割算法。然后将该信息馈送到专用于识别交通标志的神经网络推理引擎的另一GPU。

发表于 05-29 10:50

卷积神经网络如何使用

卷积神经网络(CNN)究竟是什么，鉴于神经网络在工程上经历了曲折的历史，您为什么还会在意它呢? 对于这些非常中肯的问题，我们似乎可以给出相对简明的答案。

发表于 07-17 07:21

【案例分享】ART神经网络与SOM神经网络

今天学习了两个神经网络，分别是自适应谐振（ART）神经网络与自组织映射（SOM）神经网络。整体感觉不是很难，只不过一些最基础的概念容易理解不清。首先ART神经网络是竞争学习的一个代表，

发表于 07-21 04:30

如何设计BP神经网络图像压缩算法？

，并能在脑海中重现这些图像信息，这不仅与人脑的海量信息存储能力有关，还与人脑的信息处理能力，包括数据压缩能力有关。在各种神经网络中，多层前馈神经网络

发表于 08-08 06:11

针对Arm嵌入式设备优化的神经网络推理引擎

专门针对Arm嵌入式设备优化的神经网络推理引擎Tengine + HCL，不同人群的量身定制

发表于 01-15 08:00

如何构建神经网络？

原文链接：http://tecdat.cn/?p=5725 神经网络是一种基于现有数据创建预测的计算系统。如何构建神经网络？神经网络包括：输入层：根据现有数据获取输入的层隐藏层：使用反向传播优化输入变量权重的层，以提高模型的预测

发表于 07-12 08:02

基于BP神经网络的PID控制

最近在学习电机的智能控制，上周学习了基于单神经元的PID控制，这周研究基于BP神经网络的PID控制。神经网络具有任意非线性表达能力，可以通过对系统性能的学习来实现具有最佳组合的PID控

发表于 09-07 07:43

卷积神经网络一维卷积的处理过程

以前的神经网络几乎都是部署在云端（服务器上），设备端采集到数据通过网络发送给服务器做inference（推理），结果再通过网络返回给设备端。如今越来越多的

发表于 12-23 06:16

图像预处理和改进神经网络推理的简要介绍

为提升识别准确率，采用改进神经网络，通过Mnist数据集进行训练。整体处理过程分为两步：图像预处理和改进神经网络推理。图像预处理主要根据图像的特征，将数据处理成规范的格式，而改进神经网络

发表于 12-23 08:07

ARM Cortex-M系列芯片神经网络推理库CMSIS-NN详解

1、ARM Cortex-M系列芯片神经网络推理库CMSIS-NN详解CMSIS-NN是用于ARM Cortex-M系列的芯片的神经网络推理库，用于低性能芯片/架构的

发表于 08-19 16:06

IQ测试是否能测量AI的推理能力？

基于神经网络的机器学习模型取得了惊人的成绩，但是测量其推理抽象概念的能力却是非常困难的。

发表于 07-17 14:33 •3036次阅读

人工神经网络的定义

人工神经网络（ Artificial Neural Networks，简写为ANNs）也简称为神经网络或称作连接模型，是对人脑或自然神经网络若干基本特性的抽象和模拟。

发表于 11-24 09:21 •1.5w次阅读

搜索历史

测量神经网络的抽象推理能力

评论

粒子群优化模糊神经网络在语音识别中的应用

神经网络教程（李亚非）

【PYNQ-Z2试用体验】神经网络基础知识

基于i.MX 8的物体识别神经网络

卷积神经网络如何使用

【案例分享】ART神经网络与SOM神经网络

如何设计BP神经网络图像压缩算法？

针对Arm嵌入式设备优化的神经网络推理引擎

如何构建神经网络？

基于BP神经网络的PID控制

卷积神经网络一维卷积的处理过程

图像预处理和改进神经网络推理的简要介绍

ARM Cortex-M系列芯片神经网络推理库CMSIS-NN详解

IQ测试是否能测量AI的推理能力？

人工神经网络的定义