0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

强化学习环境研究,智能体玩游戏为什么厉害

zhKF_jqr_AI 来源:未知 作者:工程师曾玲 2018-08-18 11:38 次阅读

强化学习作为一种常用的训练智能体的方法,能够完成很多复杂的任务。在强化学习中,智能体的策略是通过将奖励函数最大化训练的。奖励在智能体之外,各个环境中的奖励各不相同。深度学习的成功大多是有密集并且有效的奖励函数,例如电子游戏中不断增加的“分数”。然而,设计一个良好的奖励函数需要付出大量精力。另一种方法是生成内部奖励,即由智能体自身生成的奖励。内部奖励包括“好奇心”(把预测错误当做奖励信号)和“访问数目”(不鼓励智能体访问同样的状态)。这些内部奖励正是为了填补稀疏的外部奖励之间的空白。

但是,如果某个场景没有任何外部奖励怎么办?这并不奇怪。发展心理学认为,内部奖励(例如好奇心)是发展早期的重要驱动力:婴儿在探索世界时并不会带有过多的目的。的确,有证据表明,在某一环境中只用内部奖励对智能体进行预训练可以让它们在新环境、新任务中调整得更快。但目前为止,目前还没有系统的针对完全内部奖励学习的研究。

在这篇论文中,我们对各类模拟环境中智能体的内部奖励进行了大规模实证研究。特别是我们选择了Pathak等人提出的动态好奇心模型中的内部奖励,因为它可扩展,并且可并行计算,可以说是大型试验的理想工具。研究的核心是给定智能体当前的状态,观察内部奖励会在预测下一个动作时出现哪些错误。在研究中我们一共调查了54种环境:包括电子游戏,物理引擎模拟和虚拟3D导航任务。如图1:

图1

为了更好地理解好奇心驱动的学习,我们接着研究了决定其表现的关键因素。在高维原始观察空间中(例如图像)对未来状态做预测是非常有挑战性的工作,而且最近的研究表明,在辅助特征空间中的动态学习有助于提升结果。不过,如何选择这样的嵌入空间非常重要,目前还没有确切的结论。经过系统的研究,我们检查了对智能体观察的不同编码方法有何作用。为了保证训练的稳定性,我们需要选择好的特征空间,一个好的特征空间可以让预测更容易,并且过滤掉与观察环境无关的因素。但是对好奇心驱动的特征空间来说,都需要有哪些特征呢?

紧凑:在较低维度并且过滤掉与观察空间不相关的部分之后,特征会更容易建模。

高效:特征应该包含所有重要的信息。否则,智能体在探索到相关信息后不会得到奖励。

稳定:非静态奖励让强化智能体学习起来有了难度。在基于动态的好奇心驱动环境中,非静态的来源有两个:前动态模型随着时间不短发展,因为它在训练时特征也在发生变化。前者是内部的,而后者应该尽量减小。

我们发现,在很多流行的强化学习中,用随机网络对观察内容编码是非常简单且高效的技术。有趣的是,我们发现虽然随机特征可以在训练中表现良好,但是学习过的特征似乎比它更好。

除此之外,我们发现重要的一点是,游戏会将“done”作为结束的信号。如果没有这一结束信号,很多雅达利游戏就变得很容易。例如,如果智能体活着,那么每一步的奖励就是+1,如果死了就是0。比方在“打砖块”游戏里,智能体要尽可能“活”得长一点,保持较高分数。如果得到了负奖励,智能体会尽可能快速结束游戏。

知道了这一点,我们在研究时就不应该对智能体抱有偏见。在有限的设置中,避免死亡只是智能体的另一种应对方式,它只是为了不那么无聊。所以我们删除了“done”,将智能体的得分与死亡信号分离开。实际上,我们的确发现,智能体在游戏中避免死亡是因为从游戏开头总能遇到很多重复场景,它们已经能很好地预测下一步动作了,所以智能体会尽可能保持“生存”。这一发现在此前是被忽略的。

实验

对48种雅达利环境进行分析的主要目的有三:

在没有外部奖励的游戏中,运行一个完全靠好奇心驱动的智能体时究竟发生了什么?

你能让智能体做出哪些行为?

这些行为中,不同的特征学习变量有哪些影响?

为了回答这些问题,我们从一系列雅达利游戏开始。一种检验完全使用好奇心的智能体表现得如何的方法是看它能获得多少外部奖励。我们最终得到了8种游戏的平均外部奖励分数(除去最右的马里奥):

可以看出,大多数曲线都呈上升趋势,这说明一个完全靠好奇心驱动的智能体可以通过学习获得外部奖励,即使没有在训练时运用外部奖励。

除此之外,我们还在上图中比较了马里奥兄弟不同的特征学习表现。更多实验结果请查看原论文的附录。

讨论

在这项研究中,我们对好奇心驱动的强化学习环境做了大量研究,包括雅达利游戏、超级玛丽兄弟、虚拟3D、多人乒乓球等。其中对多种不同的特征空间进行了调查,包括随机特征、像素、逆向动力学以及自动编码器,并且评估了它们对陌生环境的泛化能力。

我们证明,经过训练的智能体可以靠好奇心奖励学习到有用的行为,它们可以不用奖励玩雅达利游戏;马里奥可以在没有奖励的情况下过11关;可以生成行走和玩杂技的动作;在双人对战的乒乓球游戏中可以生成对打模式。但是这也不总是成立的,在某些雅达利游戏中,它们的探索与外部奖励不符。

另外,这一结果也证明了,在由人类设计的环境中,外部奖励的目的可能是让目标物体进行创新。游戏设计者创建的环境正是为了引导用户。

但是,这里存在一个比较严肃的潜在限制是处理随机动态,如果环境的转换是随机的,那么即使有一个完美的动态模型,奖励也会成为过渡熵,智能体将会寻找熵值较高的过渡转换。即使环境不是完全随机的,不了学习算法造成的不可预测性、不良模型类别或局部观察也会导致同样问题。

未来,我们将证明我们可以利用无标签的环境来提高任务的性能。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能体
    +关注

    关注

    1

    文章

    109

    浏览量

    10409
  • 强化学习
    +关注

    关注

    4

    文章

    258

    浏览量

    11110

原文标题:强化学习新角度:智能体玩游戏为什么那么6?因为挂掉太无聊

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    [灌水]人不玩游戏智力会下降?!

      人不玩游戏智力会下降?!在我们成长的过程中,隔三岔五,总会听到老师或者父母说,玩游戏没有出路,小孩子应该学习古人“两耳不闻窗外事,一心只读圣贤书”。并有一对很经典、书卷味浓烈
    发表于 10-11 15:39

    解决玩游戏时卡屏、死机的现象

    解决玩游戏时卡屏、死机的现象造成玩游戏时屏幕容易卡住现象的原因通常有多种,但仔细总结一下,笔者发现最容易造成这种故障现象的因素主要有计算机电源无法给显卡提供足够的运行动力,或者主板无法为显卡提供合适
    发表于 02-23 15:26

    电玩森林舞会、电玩游戏平台

    广西趣乐动漫专业搭建电玩森林舞会游戏平台,别再沉迷电玩游戏了,马上投资移动电玩城,盈利即刻翻!
    发表于 04-18 10:44

    电脑玩游戏不能全屏怎么办 电脑玩游戏不能全屏解决方法

    电脑游戏都会有全屏模式,但是有时候电脑玩游戏不能全屏怎么办呢?下面就给大家介绍一下电脑玩游戏不能全屏的解决方法。 1,敲击键盘“win+r”组合键,打开运行窗口,输入“regedit”按回车键打开
    发表于 08-17 11:48

    深度强化学习实战

    测试)三、主讲内容1:课程一、强化学习简介课程二、强化学习基础课程三、深度强化学习基础课程四、多智能深度
    发表于 01-10 13:42

    超极本玩游戏怎么样_超极本玩游戏好用吗_超极本为什么那么贵

    不少朋友钟情于超级本个性外观是出色的便携性,打算入手超级本,但很多朋友购买电脑主要目的是针对游戏,因此近期不少网友想要了解超级本玩游戏怎么样?超极本玩游戏好吗?等等类似问题,下面小编针对当下形势而言为大家介绍超级本
    发表于 01-23 11:49 4652次阅读

    人工智能机器学习强化学习

    强化学习智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,强化学习不同于连接
    发表于 05-30 06:53 1237次阅读

    什么是强化学习?纯强化学习有意义吗?强化学习有什么的致命缺陷?

    强化学习是人工智能基本的子领域之一,在强化学习的框架中,智能体通过与环境互动,来学习采取何种动作
    的头像 发表于 07-15 10:56 1.7w次阅读
    什么是<b class='flag-5'>强化学习</b>?纯<b class='flag-5'>强化学习</b>有意义吗?<b class='flag-5'>强化学习</b>有什么的致命缺陷?

    手机玩游戏发烫卡顿让体验大幅降低?用骁龙芯都能解决

    在手机玩游戏时,发烫和卡顿是实实在在影响手机玩游戏体验的重要指标,手机玩游戏过程中的发烫卡顿不能很好的控制将大幅降低手机玩游戏的体验。长时间用手机
    发表于 06-27 13:35 2936次阅读

    iQOO手机玩游戏怎么样

    iQOO手机玩游戏好用吗?作为目前市面上少有的国产骁龙855旗舰,iQOO手机刚一上市,便成功吸引了不少消费者的关注。那么问题出现了,iQOO手机玩游戏好用吗?iQOO手机值得买吗?想入手该产品的朋友,不妨先看看小编分享的iQOO手机上手评测。
    的头像 发表于 07-18 11:11 3954次阅读

    OPPOFindX玩游戏怎么样

    OPPO Find X可以玩游戏吗?作为OPPO今年力推的旗舰机型,OPPO Find X刚一发布,便凭借独有的“全景屏+升降式摄像头”设计打破了国内手机市场的静寂!那么,OPPO Find X可以
    的头像 发表于 07-03 15:05 1.2w次阅读

    魅族16X玩游戏怎么样

    魅族16X玩游戏怎么样?作为魅族科技今年下半年力推的“轻奢旗舰”,魅族16X刚一发布,便获得了不少消费者的青睐。这不禁令人好奇,魅族16X玩游戏怎么样?魅族16X值得买吗?想知道答案的朋友,不妨来看看小编分享的魅族16X游戏性能
    的头像 发表于 07-03 14:53 2909次阅读

    机器学习中的无模型强化学习算法及研究综述

    强化学习( Reinforcement learning,RL)作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式,通过与
    发表于 04-08 11:41 11次下载
    机器<b class='flag-5'>学习</b>中的无模型<b class='flag-5'>强化学习</b>算法及<b class='flag-5'>研究</b>综述

    Ledring:用Arduino玩游戏

    电子发烧友网站提供《Ledring:用Arduino玩游戏.zip》资料免费下载
    发表于 11-14 11:24 0次下载
    Ledring:用Arduino<b class='flag-5'>玩游戏</b>

    Ledring用Arduino玩游戏

    电子发烧友网站提供《Ledring用Arduino玩游戏.zip》资料免费下载
    发表于 12-19 10:14 0次下载
    Ledring用Arduino<b class='flag-5'>玩游戏</b>