0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

3个方法教AI学会遗忘

mK5P_AItists 来源:未知 作者:胡薇 2018-06-13 09:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

大部分人不会喜欢遗忘的感觉。回到家顺手把钥匙丢在一个角落就再也想不起来放在哪儿了,街角偶遇一个同事却怎么拍脑袋也叫不出他的名字……我们害怕遗忘,讨厌遗忘。

然而,生而为人,健忘其实是种关键能力。对于人类而言,遗忘绝不仅仅是“想不起来”,而是一个帮助大脑吸收新信息并锻炼有效决策的积极过程。现在,数据科学家们正在尝试应用神经科学原理来改进机器学习,并且坚信人类大脑能够解锁图灵完备的人工智能

人脑为什么需要遗忘

我们的大脑被普遍认作为信息过滤器。先放入一大堆乱七八糟的数据,筛选有用的信息,然后清理任何不相关的细节,用以陈述故事或作出决策。清除没用的细节是为了给新数据腾出储存空间,类似在计算机上运行磁盘清理。

用神经生物学的术语来说,遗忘发生于神经元之间的突触连接减弱或者消失之时,同时随着新神经元的发育,他们又会重新连接海马回路,覆盖现有记忆。

对于人类来说,遗忘有两个好处:

通过减少过时信息对我们决策的影响来增强灵活性

防止过度拟合过去的特定事件和促进概括能力

为了有效地适应环境,人类需要有策略性遗忘的能力。

计算机也需要遗忘?

计算机的遗忘与人类的不同,这是人工智能面临的一大挑战。深度神经网络在完成机器学习任务方面非常成功,但它们的遗忘方式也与我们不一样。

举一个简单的例子,如果你教一个讲英语的孩子学习西班牙语,这个孩子会在学习过程中应用英语学习的技巧,比如名词、动词动态、句子建立方法等。同时他会忘记那些不相关的部分,比如口音、嘟囔、语调等。如此,这个孩子可以在策略性遗忘的同时逐渐学习和建立新的思维方式。

相比之下,如果你已经训练了一个神经网络去学习英语,那么它的参数则已经适应了英语问题的解法。此时你要教它学习西班牙语,它就会生成新的适应系统并覆盖以前为学习英语所获得的知识,删除所有内容并重新开始。这被称作“灾难性遗忘”,并被认为是“神经网络的一个根本局限”。

虽然这还是一个新领域,最近科学家们已经在探索克服这种限制的潜在理论,并取得了长足的进步。

3个方法教AI学会遗忘

长短期记忆网络(LSTM)

LSTM是一种循环神经网络,它使用特定的学习机制来决定在任意一个节点哪些信息需要记住,哪些需要更新,哪些需要关注。

LSTM工作机制如何?一个简单的解释是拿电影来做类比:假设一个计算机正在尝试通过分析先前的场景来预测电影中接下来会发生的事。一个场景是一个女人拿着一把刀,计算机会猜测她是一个厨师还是凶手呢?另一个场景中,一个女人和一个男人在金色拱门下吃寿司:计算机会猜他们是在日本还是麦当劳呢?或者其实他们是在圣路易斯?

大拱门是美国圣路易斯的标志性建筑

LSTM通过以下3步提升神经网络:

遗忘/记忆

“当场景结束,模型应该忘记当前场景的位置,所处时间,并重置任何特定场景的信息;然而,如果场景中的一个角色死亡了,机器则应该继续记住他不再活着的事实。因此,我们希望机器能学习掌握一个相互独立的遗忘/记忆机制,这样当新信息进来时,它知道什么观念该保留什么该丢弃。”

——Edwin Chen

保存

当模型看到一张新图像,它需要了解这个图像是否有什么信息值得被使用和保存。如果一个女人在某个场景中路过广告牌,机器应该记住这个广告牌还是将其视作噪声数据忽略掉呢?

划重点

我们可能需要记住电影中的这个女人是个母亲这一信息点,因为我们稍后会看见她的孩子们,但是这个信息在她不出现的场景里可能并不重要,所以在那些场景里我们不需要重点关注。同样,并非所有存储在神经网络的长期记忆中的内容都是立即相关的,所以LSTM所做的就是在安全保存所有信息备用的同时,帮助决定哪一部分在哪一时刻被重点关注。

弹性权重固化(EWC)

EWC是由谷歌旗下DeepMind的研究人员于2017年3月创建的一种算法,旨在模拟一种被称为突触整合的神经科学过程。在突触整合过程中,我们的大脑评估一项任务,计算许多用于执行任务的神经元的重要性,同时权衡哪些神经元对正确执行任务更为重要。

这些关键的神经元被编译为重要的,并且在随后的任务中相对不可能被覆盖。同样,在神经网络中,多个连接(如神经元)被用于执行任务。EWC将一些连接编译为至关重要的,从而保护他们不被覆盖/遗忘。

在下面的图表中,你可以看到研究人员将EWC应用于Atari游戏时发生了什么。蓝线表示标准的深度学习过程,红线及棕线则由EWC提供以显示改进后的结果:

瓶颈理论

瓶颈理论由耶路撒冷希伯来大学的计算机科学家和神经科学家Naftali Tishby在2017年秋提出。这个构想是,网络摆脱了嘈杂的无关细节的输入数据,就好比用瓶颈将信息挤压,只保留与基本概念最相关的特征。

Tishby解释说,神经网络经历了两个阶段的学习——拟合与压缩。在拟合过程中,网络标记其训练数据;而在更漫长的压缩过程中,它“丢弃关于数据的信息,只跟踪最强大的特征”,也即是那些最能帮助它泛化的特征。通过这种方式,压缩成为策略性遗忘的一种方式,掌控这一瓶颈也可能成为AI研究人员用于构建未来更强大神经网络的新目标和体系的一个工具。

正如Tishby所说:“遗忘才是学习过程中最重要的一部分。”

人类大脑和遗忘的过程中,有可能藏着通往强AI的密码。但科学家们仍在上下求索。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 计算机
    +关注

    关注

    19

    文章

    7764

    浏览量

    92688
  • AI
    AI
    +关注

    关注

    89

    文章

    38121

    浏览量

    296694

原文标题:教机器遗忘或许比学习更重要:让AI健忘的三种方式

文章出处:【微信号:AItists,微信公众号:人工智能学家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    和关联性 AI驱动科学:研究和模拟人类思维和认识过程。 本章节作者为我们讲解了第五范式,介绍了科学发现的一般方法和流程等。一、科学发现的5范式 第一范式:产生于公元1000年左右的阿拉伯世界和欧洲
    发表于 09-17 11:45

    【「AI芯片:科技探索与AGI愿景」阅读体验】+化学或生物方法实现AI

    顺序排列并存储在毛细血管内。 电石存储器: 3、化学计算的总体现状与前景 二、生物计算 1、用活细胞实现AI 作者第七章才会介绍类脑芯片,到时候我们再一起欣赏吧。 这里只是先给我们打了基础概念。 1
    发表于 09-15 17:29

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力

    。 耦合振荡计算与传统的计算的区别: 3、神经符号计算 神经符号极端是指将基于神经网络的方法与基于符号知识的方法结合的AI计算。 神经符号计算分两大类: 神经符号计算的优势: 超维计算
    发表于 09-14 14:04

    【「AI芯片:科技探索与AGI愿景」阅读体验】+第二章 实现深度学习AI芯片的创新方法与架构

    射频模拟处理器的原型与概念验证 3、光电组合AI芯片 目前最好的应对Transformer模型需要的极高算力的方法之一就是使用光子计算芯片来代替基于CMOS的芯片。 光电组合AI芯片的
    发表于 09-12 17:30

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    ,又分为真菌计算和基于DNA的计算。 图4 基本的真菌计算机结构 在用化学和生物方法实现AI功能的过程中,要经历5阶段,见图5所示。 图5 以化学和生物方法实现
    发表于 09-06 19:12

    【「AI芯片:科技探索与AGI愿景」阅读体验】+内容总览

    是展望未来的AGI芯片,并探讨相关的发展和伦理话题。 各章的目录名称如下: 第1章 大模型浪潮下,AI芯片的需求与挑战免费 第2章 实现深度学习AI芯片的创新方法与架构 第3
    发表于 09-05 15:10

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    创新、应用创新、系统创新五部分,接下来一一解读。 算法创新 在深度学习AI芯片的创新上,书中围绕大模型与Transformer算法的算力需求,提出了一系列架构与方法创新,包括存内计算技术、基于开源
    发表于 07-28 13:54

    会议邀请 | Aigtek安泰电子与您相约西部声学会议暨西安-上海声学会议,共探声学领域未来之路

    2025年7月31-8月3日,由陕西省声学学会、西安声学学会主办的2025年西部声学会议暨西安-上海声学会议将在陕西省榆林市召开,届时Aig
    的头像 发表于 07-17 18:39 851次阅读
    会议邀请 | Aigtek安泰电子与您相约西部声<b class='flag-5'>学会</b>议暨西安-上海声<b class='flag-5'>学会</b>议,共探声学领域未来之路

    【「零基础开发AI Agent」阅读体验】+读《零基础开发AI Agent》掌握扣子平台开发智能体方法

    收到发烧友网站寄来的《零基础开发AI Agent》这本书已经有好些天了,这段时间有幸拜读了一下全书,掌握了一开发智能体的方法。 该书充分从零基础入手,先阐述了Agent是什么,它的基本概念和知识
    发表于 05-14 19:51

    【「零基础开发AI Agent」阅读体验】+ 入门篇学习

    工程、RAG技术、和AI Agent是3重要方面。其中AI Agent作为2024年最新兴的技术领域,具备很好的应用前景,本书对零基础小白普及和应用
    发表于 05-02 09:26

    飞腾+天津大学,飞腾产融合案例获 “2024年度电子信息产融合典型案例”

    2025年4月18日,由中国电子工业标准化技术协会电子信息产融合工作委员会主办的 “电子信息产融合大会暨 2025 年电子信息产融合工委会全体成员大会” 在杭州电子科技大学隆重召开。会上
    的头像 发表于 04-22 08:50 1017次阅读
    飞腾+天津大学,飞腾产<b class='flag-5'>教</b>融合案例获 “2024年度电子信息产<b class='flag-5'>教</b>融合典型案例”

    AI端侧部署开发(SC171开发套件V3

    AI端侧部署开发(SC171开发套件V3) 序列 课程名称 视频课程时长 视频课程链接 课件链接 工程源码 1 Fibo AI Stack模型转化指南------Docker Desktop环境操作
    发表于 04-16 18:30

    AI演进的核心哲学:使用通用方法,然后Scale Up!

    ,得到一AI发展的重要历史教训:利用计算能力的通用方法最终是最有效的,而且优势明显”。核心原因是摩尔定律,即单位计算成本持续指数级下降。大多数 AI 研究假设可用计算资源是固定的,所
    的头像 发表于 04-09 14:31 652次阅读
    <b class='flag-5'>AI</b>演进的核心哲学:使用通用<b class='flag-5'>方法</b>,然后Scale Up!

    AI Agent 应用与项目实战》阅读心得2——客服机器人、AutoGen框架 、生成式代理

    继续分享第2篇阅读心得。 传统客服系统在知识库更新和多轮对话管理方面存在诸多技术瓶颈,本书第3章中提出的AI课程客服机器人架构巧妙地解决了这些问题。该架构采用Replit作为开发环境
    发表于 02-25 21:59

    正点原子ESP32S3系列开发板全面支持小智AI

    本帖最后由 jf_85110202 于 2025-2-14 17:39 编辑 什么是小智AI? 小智AI项目是由虾哥发起并开源的一项目。该项目能帮助更多人入门AI硬件开发,了解
    发表于 02-14 17:01