0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种新型的基于情景记忆的模型,能够让智能体用“好奇心”探索环境

zhKF_jqr_AI 来源:未知 作者:李倩 2018-10-27 09:35 次阅读

强化学习是机器学习领域最热门的研究技术之一,如果智能体做了正确的行为就能得到积极的奖励,反之则会得到负奖励。这种方法简单通用,DeepMind用这种方法教会DQN算法玩雅达利游戏以及让AlphaGoZero下围棋,甚至还让OpenAI训练算法来打Dota。但是,尽管强化学习很成功,想要高效地使用它仍然有很多挑战。

传统的强化学习算法常常因为环境对智能体稀疏的反馈而遇到重重困难,但这样的环境在现实中是很常见的。例如,你想在大型超市中找到最喜欢的那种奶酪,找了半天也没找到奶酪区。如果在这一过程中,你并没有收到任何反馈,那么就完全没有头绪该往哪走。在这种情况下,只有好奇心会驱使你试着走向别处。

现在,谷歌大脑团队、DeepMind和苏黎世联邦理工学院合作提出了一种新型的基于情景记忆的模型,能够让智能体用“好奇心”探索环境。研究人员不仅仅想让智能体了解环境,而且还想让它们解决最初的任务,他们在原始稀疏任务奖励中添加了一些反馈奖励,让标准的强化学习算法从中学习。所以这样加入了好奇心的方法能让强化学习智能体解决的问题更多。

以下是论智对这一方法的介绍:

这种方法的核心思想是将智能体所观察到的环境存储在情景记忆中,并且如果智能体获取了存储中没有的观察,也会对其进行奖励。我们的方法创新之处就在于,如何找到这种“没有被存储的”场景,这就是让智能体找到不熟悉的场景。这一目标就会让智能体走到一个新位置,直到找到目标。我们的方式不会让智能体做出无用的行为,通俗地讲,这些行为有点像“拖延症行为”。

此前的好奇心方法

在此之前,已经有多个有关好奇心的研究了,在这篇文章中,我们会重点关注一个很常见的方法:在预测过程中感到惊喜而产生的好奇心(通常称为ICM方法),这在最近的论文Curiosity-driven Exploration by Self-supervised Prediction中有过研究。为了解释好奇心是如何引起惊奇的,我们还会到上文中提到的在超市中找奶酪的例子。

当你在超市中搜索时,心里可能会想:现在我在肉类区域,所以接下来可能到水产品区。这些都应该是相近的。如果你预测错了,可能会惊讶:诶?怎么是蔬菜区?从而得到奖励。这就会激励你进一步寻找,直到找到目标。

同样的,ICM方法会针对环境变化搭建一个预测模型,如果模型没有做出好的预测,就会给智能体反馈,这也就是我们得到的“惊讶”。注意,探索一个陌生环境并不是ICM好奇心模块的直接组成部分,对ICM方法来说,观察不同的位置,就是为了获得更多“惊奇”之情,从而让总体奖励最大化。结果变成,在某些环境下,可能有其他的造成惊讶之情的路线,导致看到陌生的场景。

智能体遇到电视就被困住了

“拖延”的危险

在Large-Scale Study of Curiosity-Driven Learning一文中,ICM方法的作者和OpenAI的研究人员提出,当惊讶最大化后,会有隐藏的危险:智能体可以学习做一些无用的拖延动作,而不去为了完成任务而做些有用的事。作者举了一个“noisy TV problem”的例子,智能体被安排在一个迷宫里,它的任务是找到最高奖励的对象(和在超市里找奶酪的道理一样)。迷宫中有一台电视,而智能体有它的遥控器。但是电视只有几个台(每个台放的节目不一样),每按一下遥控器,电视就会随机切换频道。在这种情况下,智能体应该怎么做呢?

对于基于惊讶的好奇心方程来说,调换频道会导致较大的奖励,因为每次换台都是无法预测的,充满惊喜。重要的是,当所有频道轮换一遍之后,随机选择仍会让智能体感到惊奇,智能体仍然可能会预测错误。所以,智能体为了获得不断的惊喜、得到奖励,就会一直站在电视机前不走。所以为了避免这种情况,该如何重新定义好奇心呢?

情景式好奇心

在我们的论文中,我们研究了一个基于情景记忆的好奇心模型,结果发现模型并不容易让自己依赖即时满足。为什么会这样?利用上文电视机的例子,智能体换了一会儿台之后,所有的节目都已经被存储了。于是,电视机不再有吸引力了,即使电视机上的频道是随机出现的、无法预测的。这就和刚刚依靠惊奇的好奇心模型有了区别:我们的方法不对未来做判断,而是智能体检查自己此前是否观察到相似情景。所以,我们的智能体不会在这台电视机上浪费太多时间,它会继续寻找更多奖励。

但是我们如何确定智能体看到了和记忆里相同的事物呢?检查二者的匹配程度显然是不现实的,因为现实生活中,智能体很少能两次都看到相同的事物。例如,即使智能体回到了同一个房间,它看房间的视角也会和之前不同。

所以,我们在这里使用神经网络来确定,该网络在训练时会评估两次经历有几分相似。为了训练这一网络,我们让它判断两次观察的时间是否接近。时间接近性是判断两段经历是否是同一个场景的有效方法。这一训练就对“新鲜”进行了通用定义。

实验结果

为了比较研究好奇心的不同方法,我们在两个3D场景中对其进行了测试,分别是ViZDoom和DMLab。在这些环境中,智能体要完成多种任务,例如在迷宫中找目标或者收集好的目标,避开坏的物体。DMLab环境给智能体配置了类似激光的发射器,智能体可以选择性地使用。有趣的是,和上面的电视机实验类似,基于惊讶的ICM方法在很多不必要的情况下也使用了激光!当进行“迷宫寻宝”任务时,智能体一直对着墙做标记,因为这样会获得更高的奖励。理论上来说,通过标记墙壁预测结果是可行的,但实际上操作难度比较大,因为它需要很深的物理学知识,对智能体来说还做不到。

而我们的方法在同样的条件下学习了可行的探索行为。这是因为它不用预测行为之后的结果,而是寻找存储以外的情景观察。换句话说,智能体追求的目标需要花费比记忆中已有的更多努力,而不仅仅是做标记。

有趣的是,我们的方法在发现智能体原地绕圈后,会进行奖励惩罚,这是由于转了第一圈之后,智能体没有再遇到新情景了,所以没有奖励:

红色表示负奖励,绿色表示正奖励

与此同时,我们的方法还会对探索行为给予奖励:

希望我们的研究对探索方法有所帮助。具体细节,请看论文。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5835

    浏览量

    103220
  • 智能体
    +关注

    关注

    1

    文章

    111

    浏览量

    10418
  • 强化学习
    +关注

    关注

    4

    文章

    258

    浏览量

    11112

原文标题:促使强化学习智能体持续探索环境的新方法:利用情景记忆激发好奇心

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    对技术领域的好奇

    带着好奇心我来到这里,带着兴趣,我有种归属感,我相信自已会对这个领域逐渐升温,最后达到热忱,2013.3.21!
    发表于 03-21 18:57

    如何在没有代码配置器的情况下编程PIC16好奇心

    你好,我的名字叫Dexter,我正在努力学习如何编程PIC单片机。我以前做过ARDUIO项目,但缺乏专业人士使用的微控制器的经验。我有个使用PIC16F1619的好奇心板。许多来自微芯片
    发表于 10-09 11:13

    好奇心HPC和PIC18F26K83不能通过USB连接器程序的设备

    大家好,我有好奇心的HPC和个PIC18F26K83.MPLAB X 4.10和XC8版本1.45。我不能通过USB连接器程序的设备,因为我得到了错误:程序员不能启动:无法连接到工具硬件
    发表于 10-30 15:18

    Microchip Technology的好奇心板的新设计

    即使在这个低成本的32位微控制器时代,8位微控制器仍然具有相关性,并将继续用于新设计。 Microchip Technology的好奇心板是款经济高效,完全集成的8位开发平台,面向首次使用者
    发表于 10-31 11:55

    智能机器人的视觉传感器技术和应用

    一种新型的工业机器人已经走到行业的前沿, 他们的主要特点是能够安全地协助人类工作。在网上有很多人谈论它们,但你认真了解过它吗?在2008年,很多人爱它们只是处于好奇心。在2012年,机
    发表于 08-17 06:00

    一种DSP+CPLD新型智能仪器的设计方案

    一种DSP+CPLD新型智能仪器的设计方案
    发表于 05-08 07:54

    uboot+linux+rootfs移植的相关资料分享

    概述从学嵌入式以来,还没有真正意义上的进行过uboot或Linux内核的移植,于是为了满足自己的好奇心探索精神,打算将最新的uboot和Linux内核移植到开发板上,最近移植也接近了尾声,因此打算
    发表于 12-16 07:26

    探索一种降低ViT模型训练成本的方法

    无法获得此类资源的研究人员排除在这研究领域之外。通过仅使用1个GPU作为基准,显著降低了ViT的训练成本,这使得更多的研究人员能够推动这研究方向。3 降低环境成本。降低训练成本的
    发表于 11-24 14:56

    人工智能研究人员正在探索如何给算法赋予好奇心

    团队用于人工好奇心的定义相对简单:该算法将尝试预测其环境在未来一瞬看起来会是什么样子。当下一帧发生时,算法会因预测错误而得到奖励。这一想法是基于如果算法可以预测环境中会发生什么,那么这代表它之前就已经看过这些内容了。
    的头像 发表于 08-29 15:19 2807次阅读

    Deepmind“好奇心学习”新机制:让智能体不再偷懒

    尽管在过去有许多尝试来形成好奇心,但本文关注的是一种自然且非常流行的方法:基于“意外”的好奇心机制。最近一篇题为“Curiosity-driven Exploration
    的头像 发表于 10-26 10:02 2791次阅读

    人工智能要想更快更好 好奇心必不可少

    这个问题可能有些宽泛,无法给出一个确切的答案。但如果你想要把接新任务,升级或者再玩一把等一系列概括起来,最简单的解释就是“好奇心”——只是想看看接下来会发生什么。事实证明,在指导人工智能玩电子游戏时,好奇心是一个非常有效的动力。
    发表于 11-07 09:51 636次阅读

    机器人拥有好奇心会让机器人变得更加聪明

    拥有人类探索世界的好奇心,是让机器人变得更加聪明的关键因素之一。德国波鸿大学的人工好奇心专家瓦伦康培拉指出,好奇的系统“不满足于只学习一种
    发表于 06-11 09:24 3027次阅读

    好奇心对于学习人工智能有帮助吗

    好奇心或进化驱动的人工智能体可应用于学习的早期阶段,也更适合缺乏大量数据的零散环境
    发表于 07-01 15:30 392次阅读

    Apple Watch Series 9智能手表能够吸引你的好奇心吗?S9配56亿个晶体管

    比 Series 8 多出 60%,而且 GPU 性能快 30%。 Apple Watch Series 9 智能手表能够吸引你的好奇心吗? S9 SIP 配备神经引擎,机器学习的速度是前代的两倍
    的头像 发表于 09-13 01:35 1487次阅读
    Apple Watch Series 9<b class='flag-5'>智能</b>手表<b class='flag-5'>能够</b>吸引你的<b class='flag-5'>好奇心</b>吗?S9配56亿个晶体管

    石墨烯之父——安德烈·海姆,好奇心驱使下的幽默大师和创新者

    安德烈·海姆教授是卓越科学家,被誉为“石墨烯之父”,获诺贝尔物理学奖,对石墨烯材料有重大贡献。他重视好奇心,鼓励将好奇心集中在研究领域。他认为石墨烯是一种非常年轻的材料,未来有着无限的可能性,可以应用于电池、光照材料、冷却LED
    的头像 发表于 10-31 21:36 366次阅读
    石墨烯之父——安德烈·海姆,<b class='flag-5'>好奇心</b>驱使下的幽默大师和创新者