0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

IQ测试是否能测量AI的推理能力?

mK5P_AItists 来源:未知 作者:胡薇 2018-07-17 14:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

阿基米德基于对物体体积的抽象理解,悟到了物体的体积与物体浮力之间的关系。这就是抽象推理的魔力。基于神经网络机器学习模型取得了惊人的成绩,但是测量其推理抽象概念的能力却是非常困难的。虽然人工智能已经可以在策略游戏的对战中战胜人类,但是却在一些简单任务方面“无能为力”,特别是需要在新环境中发现并重新构建抽象概念。

举个例子,如果你只训练AI计算三角形的属性,那么,你训练的AI系统永远无法计算正方形或者其他没有训练过的形状的属性。

又比如下边这道简单的IQ测试题。

IQ测试给了DeepMind灵感,是不是也能用其测量AI的推理能力呢?

在以往解决通用学习系统努力的基础上,DeepMind最新论文提出了一种如何测量机器模型认知能力的方法,并表达了关于泛化的一些重要见解。

要构建更好、更智能的系统,使得神经网络能够处理抽象概念,需要对其进行改进。

此方法的灵感来源于IQ测试。

创建抽象推理数据集

标准的人类智商测试中,通常要求测试者通过应用他们日常经验学习的原则来解释感知上简单的视觉场景。

例如,人类测试者可能已经通过观察植物或建筑物的增长,通过在数学课上学习加法,或通过跟踪银行余额获取利息增长的情况来了解“渐进”(一些属性能够增加的概念)。

然后把这些感性认识上升到理性认识,从而对测试题进行推断预测,例如图形的数量、大小,甚至沿着序列增加颜色强度。

现在机器学习仍然无法理解一些看似简单的“日常体验”,这意味着,人类无法轻易地衡量AI将知识从现实世界转移到视觉推理测试的能力。

基于此认知,DeepMind设计一个实验,希望使人类视觉推理测试得到很好的利用。这一研究不是从日常生活到视觉推理问题(如人类测试)的知识转移,而是研究知识从一组受控的视觉推理问题转移到另一组问题。

为实现这一目标,DeepMind构建了一个用于创建矩阵问题的生成器,涉及一组抽象因子,包括“渐进”之类的关系以及“颜色”和“大小”等属性。 虽然问题生成器使用了一小组潜在因子,但它仍然会产生大量独特的问题。

接下来,DeepMind约束生成器可用的因子或组合,以便创建用于训练和测试模型的不同问题集,以度量模型可以推广到留存的测试集的程度。

例如,创建了一组谜题训练集,其中只有在应用于线条颜色时才会遇到渐进关系,而在应用于形状大小时会遇到测试集。如果模型在该测试集上表现良好,它将提供推断和应用抽象概念的能力的证据,即使在之前从未见过进展的情况下也是如此。

有希望的抽象推理证据

在机器学习评估中应用的典型的泛化机制中,训练和测试数据来自于相同的基础分布,测试的所有网络都表现出良好的泛化误差,其中一些在略高于75%的情况下实现了令人印象深刻的绝对性能。性能最佳的网络明确地计算了不同图像面板之间的关系,并且并行地评估了每个潜在答案的适用性。DeepMind将此架构称为Wild RelationNetwork(WReN)。

当需要在先前看到的属性值之间使用属性值“插值”来推理,以及在不熟悉的组合中应用已知的抽象关系时,模型的泛化效果显著。然而,在“外推”机制中,同样的网络表现得糟糕得多,在这种情况下,测试集中的属性值并不与训练中看到的值处于相同的范围内。

这种事情发生在当训练集中有深颜色的物体而测试集中是浅颜色的物体的谜题中。当模型被训练来应用以前所见的关系(比如形状的数量)到一个新的属性(如大小)时,泛化性能也会更糟。

最后,当训练模型不仅预测正确的答案,而且还预测答案的“原因”(即应该考虑解决这个难题的特定关系和属性)时,DeepMind称观察到了改进的泛化性能。

有趣的是,在中性分割中(the neutral split),模型的准确性与它推断矩阵下正确关系的能力密切相关:当解释正确时,模型会选择当时正确的答案的概率为87%,但当它的解释错误时,性能下降到只有32%。这表明,当模型正确地推断出任务背后的抽象概念时,能够获得更好的性能。

更微妙的泛化方法

目前的文献关注于基于神经网络的机器学习方法的优缺点,通常是基于它们的能力或泛化的失败。DeepMind的结果表明,得出关于泛化的普遍结论可能是没有帮助的:测试的神经网络在某些泛化状态下表现得很好,而在其他状态下表现得很差。

它们的成功是由一系列因素决定的,包括所使用的模型的架构,以及模型是否被训练为其选择的答案提供可解释的“原因”。在几乎所有的情况下,当需要推断出超出其经验的输入或处理完全陌生的属性时,系统表现很差;在这个至关重要的研究领域为未来的工作创造一个清晰的重点。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4840

    浏览量

    108141
  • AI
    AI
    +关注

    关注

    91

    文章

    40921

    浏览量

    302511
  • DeepMind
    +关注

    关注

    0

    文章

    131

    浏览量

    12429

原文标题:学界 | DeepMind想用IQ题测试AI的抽象思维能力,进展还不错

文章出处:【微信号:AItists,微信公众号:人工智能学家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    华为破解HBM依赖!AI推理黑科技UCM上线,9月正式开源

    8月12日,在2025金融AI推理应用落地与发展论坛上,华为公司副总裁、数据存储产品线总裁周越峰宣布,华为此次和银联联合创新,推出AI推理创新技术UCM(
    的头像 发表于 08-13 08:58 1.1w次阅读
    华为破解HBM依赖!<b class='flag-5'>AI</b><b class='flag-5'>推理</b>黑科技UCM上线,9月正式开源

    国内首个国产AI推理千卡集群落地,采用云天励飞全自研AI推理芯片

    国产大模型,为政务、产业及各类应用场景提供更加便捷、低成本的AI能力,探索打造“国模国芯”的AI生态样板。   一、AI算力从“训练优先”走向“推理
    发表于 03-12 11:10 1308次阅读

    AI推理芯片需求爆发,OpenAI欲寻求新合作伙伴

    领域占据主导,其GPU凭借强大的海量数据处理能力,成为全球AI爆炸式增长的重要基石。但随着AI不断演进,重点正从大规模训练转向对已训练模型的推理和推断,
    的头像 发表于 02-03 17:15 3211次阅读

    使用NORDIC AI的好处

    ,时延更低,系统在网络不稳定甚至离线时也继续工作。[Edge AI 概述] 提升隐私与可靠性 原始传感器数据(如运动、生理信号等)可以留在本地,只上传推理结果,有利于隐私与数据安全。 本地决策
    发表于 01-31 23:16

    思必驰场景化推理AI重塑智能交互

    AI技术从“感知”走向“认知”的今天,推理能力正成为推动人工智能向更高阶跃迁的核心引擎。
    的头像 发表于 12-12 11:31 847次阅读

    华为数据存储与「DaoCloud 道客」发布AI推理加速联合解决方案

    AI产业已从“追求模型能力极限”转向“追求推理体验最优化”,推理体验决定用户与AI的交互质感。当前推理
    的头像 发表于 11-28 10:03 478次阅读
    华为数据存储与「DaoCloud 道客」发布<b class='flag-5'>AI</b><b class='flag-5'>推理</b>加速联合解决方案

    什么是AI模型的推理能力

    NVIDIA 的数据工厂团队为 NVIDIA Cosmos Reason 等 AI 模型奠定了基础,该模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的头像 发表于 09-23 15:19 1445次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    和探索;人类级别的理解能力;常识推理;现实世界的知识整合。 3、测试时计算 测试时计算(TTC)是指在模型推理阶段利用额外的计算资源来提升泛
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    主要步骤: ①溯因②假说③实验 1、科学推理的类型 ①演绎②归纳 2、自动化科学发现框架 AI-笛卡儿-----自动化科学发现框架,利用数据和知识来生成和评估候选的科学假说。 4项规则:三、直觉
    发表于 09-17 11:45

    github 上的 nano版本已经更新到了4.1.1,是否能提供4.1.1版本的mdk pack包?

    github 上的 nano版本已经更新到了4.1.1,是否能提供4.1.1版本的mdk pack包, 会方便很多
    发表于 09-17 06:36

    进行时钟维持能力测试时,如何判断装置是否符合IEC标准?

    判断电能质量在线监测装置的时钟维持能力是否符合 IEC 标准,需依据 IEC 61000-4-30:2025《电磁兼容性 第 4-30 部分:测试测量技术 电能质量
    的头像 发表于 09-03 17:34 1006次阅读
    进行时钟维持<b class='flag-5'>能力</b><b class='flag-5'>测试</b>时,如何判断装置<b class='flag-5'>是否</b>符合IEC标准?

    MTA Studio:从测量测试执行到数据价值洞察,全程赋

    本文导读致远仪器MTAStudio是一款面向电力电子测试测量应用的综合性软件平台。它集仪器管理、执行测试与历史数据深度分析等功能于一体,显著提升测试
    的头像 发表于 08-21 11:34 988次阅读
    MTA Studio:从<b class='flag-5'>测量</b><b class='flag-5'>测试</b>执行到数据价值洞察,全程赋<b class='flag-5'>能</b>

    华为亮相2025金融AI推理应用落地与发展论坛

    近日,2025金融AI推理应用落地与发展论坛在上海举行。中国银联执行副总裁涂晓军、华为数字金融军团CEO曹冲出席本次论坛并发表致辞。论坛上,华为公司副总裁、数据存储产品线总裁周跃峰博士发布AI
    的头像 发表于 08-15 09:45 1372次阅读

    PCIe协议分析仪测试哪些设备?

    /ASIC加速器 测试场景:分析专用AI推理加速器与主系统的PCIe通信,优化数据传输和指令下发效率。 应用价值:提高推理吞吐量,确保加速器在低延迟场景(如实时
    发表于 07-25 14:09

    信而泰×DeepSeek:AI推理引擎驱动网络智能诊断迈向 “自愈”时代

    DeepSeek-R1:强大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基础技术研究有限公司开发的新一代AI大模型。其核心优势在于强大的推理引擎
    发表于 07-16 15:29