0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepMind给AI测IQ,结果出人意料!

jmiy_worldofai 来源:未知 作者:胡薇 2018-07-24 16:52 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

活在一个AI“泛滥”的时代,我们几乎每天都能看到 AI 研究上的最新进展。昨天,AI 打 DoTA 战胜人类了;今天,AI 能自己找路了;明天,AI 能假冒人类打电话了。在担心 AI 会灭掉人类的人们眼中,AI 正像一只怪物一样野蛮生长,像一只侵略军一样从远方大跨步逼近。

然而实际上,你所看到的这些进展,只是不同的 AI 在特定方向的进步。虽然当前基于深度学习的 AI 热潮已经有五六年了,还是没有一个独立的 AI,像一个独立的人一样,能够优秀地执行多种任务。

人们在形容 AI 时,通常会用这样一种说法:这个 AI 的智商,跟三岁小孩差不多。 智商 (Intelligence quotient) 简称 IQ,是评价人类智商一个普遍接受的标准 。你有智商,我也有智商,就连三岁小孩也有智商。接下来问题来了:既然说 AI 跟三岁小孩差不多,那么它的智商到底有多少呢

得给 AI 测测智商了。

DeepMind要给AI测IQ

自 AlphaGo 横空出世以来,AI 在解决一些复杂的、策略性的问题上,能力已经得到了证明。但如果想要更像“人”,AI 必须也拥有像人类一样的抽象理解能力。

现在的 AI 计算能力不用说了,推理能力也很强,所以只剩抽象理解能力了。Google 旗下的 AI 科研机构 DeepMind 认为,“基于神经网络机器学习模型取得了惊人的成绩,但想要衡量其推理抽象概念的能力,却非常困难。”

为了搞清楚现在的 AI 在抽象理解能力上究竟实力如何,DeepMind 还真给 AI 设计了一套测试题:

这套测试题,借鉴了人类的 IQ 测试里著名的瑞文推理测验:给定一组图片,找到符合其“演进”规律的图片。

(图片来源:DeepMind 论文)

在这种测试中,题目里并不会告诉你要找到符合什么标准的图形,而是需要我们根据日常生活中学习或掌握到的一些基本原则,来理解和分析测试中出现的简单图案。

要找到正确的答案,往往要借鉴我们从生活中明白的“演进”规律。比如小树苗长成大树,比如从 0 到1、2、3、4、5 的加法,再比如加减乘除。以上这些,就是我们生活中所提炼出的抽象的“演进”(progression)的意义,就是人类的抽象理解能力。

“但是,我们现在还没有找到办法,能让 AI 也可以从 ‘日常经验’中学到类似的能力。” DeepMind 在论文中说。

“不过,我们依然可以很好地利用人类的这种视觉抽象逻辑测试,来设计一个实验。在这个测试中,我们并不是像人类测试那样,考察从日常生活到视觉推理问题的知识转移。而是研究AI在将知识从一组受控的视觉推理问题,转移到另一组问题的能力。”

简单翻译一下这段话就是:DeepMind 先给 AI 喂一组由三角形构成的图像的视觉推理题库,等训练的差不多了,再出一组由方块构成的视觉推理题,让 AI 去回答,看它是能随机应变举一反三,还是学会了三角,换成方块就不灵了。

机器人仍需努力

对于担心 AI 取代人类的朋友来说,DeepMind 的一部分实验结果确实是个好消息:一些最棒的 AI 模型,在这个IQ测试中的表现得并不咋样。

正如预期的那样,当训练集和测试集所采用的抽象元素相同时,多个 AI 模型都表现出超过75%的准确率。

然而,当测试集和训练集出现变化,甚至有时候只是把黑点换成较暗的浅色圆点,AI 的表现就会像无头苍蝇一样,失去了准星。

(一些知名AI模型的表现 图片来源:DeepMind 论文)

上面这些都是深度神经网络领域的当红炸子鸡,测起智商来却没那么灵光了。

ResNet (Deep Residual Network),即深度残差网络在其中一组测试中仅仅得到22.4%的低分。 要知道,它的提出曾被形容为CNN(卷积神经网络)的一个里程碑式事件,它在网络深度上比其他模型提升了n个量级,更重要的是它的残差学习方式,改良了模型的架构,因此一出现就秒杀众前辈。

测试中表现最好的 WReN 模型,则是 DeepMind 在关系网络 (Relation Networks) 模型基础上改良的版本。它增加了对不同图像组合之间关系的分析,并可以对这类 IQ 测试的各种可能性结果进行评估。

不过,DeepMind 针对这个测试的逻辑,对一些模型进行改良,改良后的模型表现出明显的提升。

比如,在一些模型中,DeepMind 加入了元标记(meta-targets) 的辅助训练方法,让模型对数据集背后体现出的形状、属性(形状的数量、大小、颜色深浅等)以及关系(同时出现、递减、递增等等)进行预测,当这部分预测准确时,最终回答的准确率就明显出现提升,预测错误时,回答准确率明显下降。一些极端情况下,模型回答的准确率更是从预测错误时的32%提升至了87%。

(元标记预测准确度与最终答案准确率的关系图)

DeepMind 表示,他们设计的这个实验,最终目的并不是为了让 AI 能够通过这种 IQ 测试。他们关注的是 AI 泛化能力的问题。

泛化是指模型很好地拟合以前未见过的新数据的能力,这是机器学习界的术语,你也可以粗暴的理解成一个 AI 模型能否在各类场景中“通吃”。AI 的泛化能力越强,离啥都能干的所谓“通用人工智能”就越近。

DeepMind 在博客最后这样说道:

研究表明,寻找关于泛化问题的普遍结论可能没有任何意义。我们测试的神经网络在某些泛化方案中表现优秀,但是其他方案下却很糟糕。

诸如所使用模型的架构、模型是否被训练从而能解释答案背后的逻辑等一系列因素,都会对泛化效果带来影响。而在大多数情况下,当需要处理过往经验从未涉及的、或完全陌生的情景时,这些 AI 的表现很糟糕。

至少现在看来,AI 还有很长的路要走啊。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    91

    文章

    41976

    浏览量

    303077
  • DeepMind
    +关注

    关注

    0

    文章

    131

    浏览量

    12465

原文标题:DeepMind给最厉害的AI测了IQ,结果让人轻松了不少!

文章出处:【微信号:worldofai,微信公众号:worldofai】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    快问快答:气密性检测仪对使用环境有什么要求?这份排查清单请收好

    DE1主流产线上最常听到的抱怨是:「设备不稳定,是不是气密仪器有问题?」答案往往出人意料:仪器没问题,环境有问题。精诚工科气密性检测仪在客户工厂实验室的应用但这个答案背后,还藏着一个更残酷的真相
    的头像 发表于 04-16 09:05 146次阅读
    快问快答:气密性检测仪对使用环境有什么要求?这份排查清单请收好

    哈萨比斯 3:带领DeepMind实现技术反超,重回AI 牌桌

    AI
    江苏易安联
    发布于 :2026年04月14日 11:40:36

    Cadence推出专为新一代语音AI与音频应用打造的 Tensilica HiFi iQ DSP

    ,NASDAQ:CDNS)近日宣布推出 Cadence Tensilica HiFi iQ DSP IP。 这是其广受欢迎的 HiFi DSP 系列的第六代产品,基于全新架构,专为新一代语音 AI 和新兴沉浸式
    的头像 发表于 03-19 10:24 2.8w次阅读

    Samtec产品show | 坚固型+高速连接器

    摘要/前言 您是否曾步入一辆微型车,却惊讶于其宽敞的内部空间?或者使用过一款大功率厨房搅拌机,却发现它运行时竟如此静音? 这些产品通过精心设计的工程体验,以出人意料的方式平衡了形式与功能,从而超越了
    的头像 发表于 03-19 09:36 635次阅读
    Samtec产品show | 坚固型+高速连接器

    【瑞萨AI挑战赛】家庭AI相框

    推理,提取更贴近用户理解的语义结果。 交互表达层 :将 AI 结果转化为直观的视觉反馈,而不是停留在串口日志。 本项目当前以三类内容为原型验证集:DOG、CAR、FOUNTAIN。它们并不是终局类别,而是
    发表于 03-13 21:44

    AI 驱动的电力电子拓扑及SiC器件选型自动优化:跳出人类经验的“最优解”

    AI 驱动的电力电子拓扑及SiC器件选型自动优化:跳出人类经验的“最优解” 绪论:人工智能重塑电力电子设计范式 随着生成式人工智能(Generative AI)、大型语言模型(LLMs)以及高性能
    的头像 发表于 03-10 20:13 412次阅读

    使用NORDIC AI的好处

    Nordic 的 Edge AI 主要有以下几个好处(基于官方资料总结): 极低功耗、延长电池寿命 在本地运行 AI,减少无线传输次数,而无线收发是最耗电的部分。设备只需上传“结果/事件”,而不是
    发表于 01-31 23:16

    纯4G?血版AI小智产品方案 #小智AI #AI方案商 #4G通话 #AI终端产品

    AI
    不太正经的攻城狮
    发布于 :2025年12月21日 14:36:55

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五个范式了,与实验科学、理论科学、计算科学、数据驱动科学一起构成
    发表于 09-17 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力

    本章节作者分析了下AI的未来在哪里,就目前而言有来那个两种思想:①继续增加大模型②将大模型改为小模型,并将之优化使之与大模型性能不不相上下。 一、大模型是一条不可持续发展的道路 大模型的不可
    发表于 09-14 14:04

    IQ混频器为何能抑制镜像频率

    IQ混频器是一种基于正交架构的混频器,通过将输入信号分解为同相(I)和正交(Q)两路信号,并分别进行混频运算,实现复杂信号的调制、解调及镜像频率抑制等功能。因为 IQ 混频器同时产生两路正交(90
    发表于 09-08 09:43

    什么是 DC-DC 开关稳压器的静态电流 IQ

    什么是 DC-DC 开关稳压器的静态电流 IQ
    发表于 09-08 07:02

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    的不同。随着AI热潮的兴起,大脑的抽象模型已被提炼成各种的AI算法,并使用半导体芯片技术加以实现。 而大脑是一个由无数神经元通过突触连接而成的复杂网络,是极其复杂和精密的。大脑在本质上就是一台湿润的软组织
    发表于 09-06 19:12

    关于NanoEdge AI用于n-Class的问题求解

    ,但把模型的静态库加到Keil5的工程中编译后运行在STM32F407G-DISC1的开发板上仿真测试时,我输入的数据不管怎么变,AI模型输出的结果永远是第1个分类(非unknown),不能正常对数
    发表于 08-11 06:44

    利用自压缩实现大型语言模型高效缩减

    随着语言模型规模日益庞大,设备端推理变得越来越缓慢且耗能巨大。一个直接且效果出人意料的解决方案是剪除那些对任务贡献甚微的完整通道(channel)。我们早期的研究提出了一种训练阶段的方法——自压
    的头像 发表于 07-28 09:36 720次阅读
    利用自压缩实现大型语言模型高效缩减