0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

AI系统存在巨大缺陷 看图识物比不上人类幼儿

罗欣 来源:Quanta Magazine 作者:佚名 2018-10-11 14:25 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

人类,1分;AI,0分。

上个月,来自约克大学和多伦多大学的两名研究人员合作发表了一篇论文:The Elephant in the Room,在学界引起巨大反响。通过实验,他们发现现有人工智能系统还存在巨大缺陷,它们在“看图识物”这类视觉任务上的表现甚至还比不上人类幼儿。

看罢这篇论文,加里·马库斯表达了对研究人员的赞许:“这是一篇聪明而重要的论文,它提醒我们所谓的‘深度学习’还没有那么‘深刻’。”他是纽约大学的认知心理学教授,也是优步(Uber)人工智能实验室的负责人。

这项成果出现在计算机视觉领域,论文设计的任务很常规:训练一个机器学习系统,让它学会检测和分类图像中的对象。随着自动驾驶汽车离真正落地越来越近,学界对机器的视觉处理技术一直寄予厚望。为了保障安全,计算机必须能从一幅街景图中准确分辨哪个是鸟,哪个是自行车,即便达不到超人水平,它们至少也应该和被替代的人眼一样好用。

但是,这个任务并不简单,它突出了人类视觉的复杂性——以及构建模仿系统的高难度。在这项研究中,研究人员首先展示了一个能检测、识别客厅场景下物品的计算机视觉系统,它的性能很不错,能发现客厅里有一把椅子、一个人和书架上的书。之后,他们在同一幅图中加入了一个异常物体——一只大象,这时系统却“指鹿为马”了,它开始把椅子称为沙发,把大象称为椅子,还忽视了之前能“看”到的其他物品。

对此,论文作者之一Amir Rosenfeld认为:“这些奇怪现象的出现,表明了目前的物体检测系统是多么脆弱。”他们没能在论文中解释为什么会出现这种脆弱,但提出了一个破有见地的猜想:

这和人类具备,而AI没有的一项能力有关——人类在看图识物时能理解图像中是否存在令人困惑的东西,从而让自己去看第二眼。

房间里的大象

人类视觉和机器视觉很不一样。

当我们睁开双眼时,眼球开始收集大量视觉信息,并把它们输送给大脑快速处理,这时我们知道天是蓝的,草是绿的,万物在不断生长。

相比之下,机器在生成“视觉”上更费力。它们看待事物的方式类似用盲文阅读,其中图像的像素就是“文字”,通过在像素上运行各类算法,机器最终能生成关于目标物体的越来越复杂的表达形式。运行这一复杂过程的系统是神经网络,它由许多“层”构成。

输入一幅图像后,神经网络会逐层提取图像中的细节,比如各个像素的颜色和亮度,层数越深,它提取到的特征就越抽象。在过程结束时,它会对根据这些特征对其正在观察的内容输出最佳预测。

这个过程意味着相比人类,神经网络能把握更多人眼难辨的细节。事实上,现在基于神经网络的系统已经在许多视觉处理任务上超越人类,比如依据品种对狗进行分类。这些成功应用提高了人们对技术的期待,研究人员也开始着手研究,看计算机视觉系统是否能帮助汽车快速通过拥挤的街道。

但是,这项技术的成功也激励了一批人去探索它的脆弱性,比如近几年非常流行的“对抗样本”。通过在原图上做一些肉眼几乎看不到的扰动,新图像就能欺骗人工智能系统,让它把“虎斑猫”分类成“鳄梨酱”,把3D打印的“乌龟”分类为“步枪”。这些研究不是杞人忧天,试想一下,如果有人恶意在道路标志上添加了这种扰动,致使自动驾驶汽车误读、漏读路标,那车上乘客的生命安全该如何保障?

论文中的研究具有相同的精神。研究人员向机器展示了一个普通的客厅生活场景:一名男子正坐在破旧椅子边缘,前倾身体,聚精会神地玩着游戏。如下图所示,在“思考”片刻后,神经网络正确检测到了一系列物体:椅子、手提包、杯子、笔记本电脑、人、书籍、电视机、瓶子、时钟

但是,当他们在场景中引入了一些不协调的东西——一只大象后,神经网络就被新加入的像素迷惑了。如下图所示,在几次试验中,神经网络开始把大象识别为椅子,把椅子识别为沙发,它也忽略了靠近大象一侧的一排书。即便是离大象较远的物体,系统也存在错漏情况。

这个发现之所以令学界震惊,是因为实验展示的是现在最基础、最通行的物体检测技术,虽然客厅内突然出现一头大象并不现实,但公路上出现一只火鸡确实可能的。现实道路上会发生很多意料之外的事,根据论文结果,我们有理由怀疑,自动驾驶汽车会因为路边突然出现的一只火鸡,而无法检测到车前的行人。

正如罗恩菲尔德说的:“如果房间里真的有一头大象,那你肯定会注意到它,但这个系统却甚至没能检测到它的存在。”

万事皆有因果

当人类看到意想不到的东西时,我们会先愣一下,然后才恍然大悟。这是一个具有真实认知意义的常见现象——它恰好揭示了为什么神经网络无法处理“怪异”场景。

现如今,最先进的物体检测神经网络还是以“前馈”的方式工作,这意味着信息流经神经网络时是单向的,从输入细粒度像素开始,到检测曲线、检测形状、检测场景,再到最后输出最佳预测。为了确保预测的准确性,它必须在整个过程中不断收集“有用”信息,但这种单向性也意味着如果早期信息存在某种错误,那这些错误就会污染预测结果。

论文作者之一Tsotsos表示:“从神经网络顶部开始,我们确实可以探索和结果相关的一切内容,但我们也有可能让每个位置的每个特征都对每一个可能的输出作出干扰。”

举一个大家都理解的例子。假设图中有一个圆和一个正方形,它们颜色各异,一个是红的,一个是蓝的。现在要求你在短时间内观察图片,并迅速答出正方形是什么颜色的。如果注意力够集中,我们可能一瞥就能给出答案;如果有些头昏脑胀,我们可能看了一眼后还会有点迷惑,然后自然而然地会去重新看一遍。而且当我们看第二遍时,注意力是高度集中在观察正方形颜色上的。

简而言之,人类的视觉系统如果没有获得想要的答案,它会回头看看自己在哪里犯了错。而这个过程可以用1990年《Behavioral and Brain Sciences》一篇论文中提到的概念——选择性调整模型(ST)来解释。如上图所示,那篇论文假设视觉处理架构在结构上是金字塔形的,该网络内的节点接收前馈和反馈连接。当刺激输入视觉系统时,首先它会以前馈的方式激活与其连接的金字塔内的所有节点;之后,输出的结果再以反馈的方式重新回到之前的节点中,激活倒置子金字塔。

这个模型的优势在于人类能依靠前馈和反馈,选择感兴趣的时空区域,选择与当前任务相关的事物并选择最佳视点,同时,我们也能通过修剪不相关的内容来限制任务相关的搜索空间,只考虑之前有过提示信息的位置,用位置/特征信息抑制感受野中的干扰,更简单、高效的获取最佳结果。

而大多数神经网络缺乏这种反馈能力,这也是科研人员一直无法有所突破的研究难点。现在使用前馈网络的一个优点是容易训练——只需让输入通过一个6层神经网络,但是,如果我们希望未来机器也能“先愣一下,然后才恍然大悟”,它们就必须理解什么时候该回头看看,什么时候该简单前馈。

人脑可以在这些过程之间无缝切换,但神经网络还需要一个新的理论框架才能做同样的事情。

就在本月,谷歌上线了一个对抗样本挑战Unrestricted Adversarial Examples Challenge,他们向社区征集参赛鸟/自行车分类器,要求参赛的“对抗者”可以在输入有扰动的图像后,依然准确分类鸟和自行车;而“攻击者”的目标是生成一张包含鸟的图像,让“对抗者”分类器把它分类成自行车。这离构建选择性调整模型还有不小距离,但这是通向解决问题的第一步——也是不可或缺的一步。

本文来源:Quanta Magazine

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4842

    浏览量

    108155
  • AI
    AI
    +关注

    关注

    91

    文章

    41060

    浏览量

    302568
  • 机器学习
    +关注

    关注

    67

    文章

    8562

    浏览量

    137209
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    论马斯克的预言:AI使人类边缘化

    工作领域的边缘化。 局限性 AI能力限制方面:尽管AI发展迅速,但目前仍存在诸多局限性,如在常识推理、跨领域迁移学习等方面存在本质缺陷,在数
    发表于 03-14 05:27

    边缘AI算力临界点:深度解析176TOPS香橙派AI Station的产业价值

    调度与操作系统运行。 2、 10个AI Core (达芬奇架构,1.08GHz):专为高密度的矩阵运算设计,承担神经网络推理。 3、 8个Vector Core (1GHz):辅助进行数据预处理和向量
    发表于 03-10 14:19

    嵌入式软件单元测试中AI自动化与人工检查的协同机制研究:基于专业工具的实证分析

    ‌ ‌摘要****‌ 本文系统探讨嵌入式软件相较于通用软件在单元测试层面的特殊性,分析其对高覆盖率、可追溯性与实时性验证的严苛需求,并以专业工具winAMS为技术载体,深入研究AI驱动的自动化测试在
    发表于 12-31 11:22

    AI赋能6G与卫星通信:开启智能天网新时代

    技术,更关乎人类如何连接、如何生活、如何创造更美好的未来。 在这个万互联的时代,AI正在让我们的\"天网\"更加智能、更加可靠、更加人性化。当我们在高速公路上畅享高清视频,或在偏远
    发表于 10-11 16:01

    硅片湿法清洗工艺存在哪些缺陷

    硅片湿法清洗工艺虽然在半导体制造中广泛应用,但其存在一些固有缺陷和局限性,具体如下:颗粒残留与再沉积风险来源复杂多样:清洗液本身可能含有杂质或微生物污染;过滤系统的滤芯失效导致大颗粒物质未被有效拦截
    的头像 发表于 09-22 11:09 994次阅读
    硅片湿法清洗工艺<b class='flag-5'>存在</b>哪些<b class='flag-5'>缺陷</b>

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    、分布式群体智能 1)联网AGI系统 优势: 组成部分: 2)分布式AI训练 7、发展重点:基于强化学习的后训练与推理 8、超越大模型:神经符号计算 三、AGI芯片的实现 1、技术需求 AI
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+具身智能芯片

    控制器等。 具身智能常见的感知模块往往被称为智能传感器,就是在原有的传感器上加入一定的AI功能,从而可以模拟人类的5种基本感觉:视觉、听觉、触觉、嗅觉和味觉。 1、输入端的数据压缩 输入端常用的数据压缩
    发表于 09-18 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    配备科学发现仍需人类的直觉和灵感 ④正价可解释性和透明性 ⑤解决伦理和道德问题六、AI芯片用于“AI科学家”系统 AI芯片的作用:七、用量子
    发表于 09-17 11:45

    AI课程走进校园:我们如何让孩子从“会用”到“会创造”?

    DFRobot AI 新品发布会 9月17日19:30 重磅直播! 2025年5月,教育部印发了《中小学人工智能通教育指南》,9月的新学期,北京、上海、杭州等多地陆续开展了“人工智能通课”。这
    的头像 发表于 09-16 14:22 777次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+化学或生物方法实现AI

    的忆阻器、MAC计算单元及存储器 可以利用液体的流体力学特征做一个纳米级微流体系统,用水柱来实现逻辑门。 ①用有机聚合溶液实现互连、忆阻器和神经网络 有机聚合计算通常被归类为化学计算。 有一种有机
    发表于 09-15 17:29

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    ,又分为真菌计算和基于DNA的计算。 图4 基本的真菌计算机结构 在用化学和生物方法实现AI功能的过程中,要经历5个阶段,见图5所示。 图5 以化学和生物方法实现AI功能各阶段 期待从AI硬件到
    发表于 09-06 19:12

    AI 边缘计算网关:开启智能新时代的钥匙​—龙兴

    智能化决策的关键。卷积神经网络在图像识别方面表现卓越,在智能工厂产品质量检测中,能快速准确识别产品缺陷;循环神经网络擅长处理时间序列数据,可对设备故障进行精准预测。 在通信技术与协议支持上,AI 边缘
    发表于 08-09 16:40

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    发现从 “偶然突破” 走向 “可控产出”。 系统创新 这部分介绍了云端神经形态计算架构、超导与非超导低温类脑芯片、自旋波类脑芯片。这些技术让芯片运行模式更接近人类大脑,为低功耗、高智能AI奠定
    发表于 07-28 13:54

    电子元器件知识大全:看图元件

    ,比如元器件的正确选用等,笔者在此就不逐一列举了,下面笔者就来说一些非常实用的电子知识,希望大家都能向高手之路再迈上一步。注:下文内容最好结合图一和后续图片进行阅读。 看图元件"
    发表于 06-09 16:55

    AI时代:不可替代的“人类+”职业技能

    当生成式人工智能能够撰写报告、编写代码甚至设计产品时,一个根本性的焦虑开始蔓延:人类工作者是否正在被算法取代?这个问题的答案或许比简单的“是”或“否”更为复杂——AI确实在重塑职业版图,但真正的挑战
    的头像 发表于 05-20 16:13 871次阅读