0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenAI提出了一种回报设置方法RND

zhKF_jqr_AI 来源:未知 作者:李倩 2018-11-05 15:15 次阅读

摘要:众所周知,强化学习的工作原理就是最大化策略预期回报。当智能体能轻而易举地从环境中收集到密集回报时,算法很好用,效果也很好;但当环境中的回报非常稀疏时,模型往往会训练失败。再加上我们不可能为每个任务设计密集回报函数,在这些情况下,让智能体以有针对性的方式探索环境是必要的。近日,OpenAI提出了一种回报设置方法RND,在雅达利游戏《蒙特祖玛的复仇》里获得了state-of-art的表现.

为什么是《蒙特祖玛的复仇》?

强化学习是机器学习的一个子领域,它强调让“智能体”学会如何基于环境而行动,以取得最大化的预期回报。为了模拟现实,游戏是现在训练强化学习智能体的常用环境,因为它不仅能提供可交互的环境、直接的奖励信号和游戏目标,还能模拟包括物理、社交等在内的现实场景。因此强化学习成果大多都以“XXX在XX游戏中达到了超人水平”结尾。

2013年,DeepMind提出DQN算法,被誉为强化学习的“开山鼻祖”。在那篇论文中,算法成功玩转多款雅达利游戏,表现超出人类玩家平均水平。但其中有一个例外,就是《蒙特祖玛的复仇》,这是唯一一款人类玩家平均得分4700,而DQN望尘莫及的游戏。

从那之后,《蒙特祖玛的复仇》就成了强化学习算法的试金石,也被人视为探索进步的代名词。

上图是近几年来使用不同算法的智能体在《蒙特祖玛的复仇》中的得分,粉色虚线为人类平均得分。可以看到,在2016年,通过结合DQN和基于计数的探索回报,学界在这个游戏上取得了重大突破:智能体成功探索了15个房间,最高得分高达6600,平均得分也达到了3700。从那时起,研究人员们提出了不少高分算法,但它们的性能提升主要依赖人为示范,或是参考其他演示机器人。

显然,这并不完全是人类的学习方式。人类探索世界有时是无目的的,有时是模仿他人,但更多时候是出于好奇心。既然手动为环境设置密集回报不现实,那么智能体能不能不依赖人,自发地去进行不可预测的探索呢?

用好奇心驱动学习

在开发RND之前,OpenAI的研究人员和加州大学伯克利分校的学者进行了合作,他们测试了在没有环境特定回报的情况下,智能体的学习情况。因为从理论上来说,好奇心提供了一种更简单的方法来教授智能体如何与各种环境进行交互,它不需要人为的回报设计。

根据当时的论文,他们在包括Atari游戏在内的54个标准基准测试环境中进行了大规模实验,实验结果出人意料:在某些环境中,智能体实现了游戏目标,即使游戏目标并没有通过外在回报传达给它,而且内在好奇心驱动的智能体和手动设置外在奖励的表现高度一致。

下面是当时的一些实验案例:

Pong(乒乓球):研究人员训练了一个能同时控制两个球拍的智能体,经过训练,它学会了让球在球拍之间保持长时间反弹。之后,这个智能体被放进对抗游戏中和另一个AI比赛,它虽然没有输赢意识,只是想拉长比赛时间,但表现非常好。

Bowling(保龄球):比起有最大化外在奖励目标的智能体,好奇心智能体在这个游戏中的表现更好,对此,一个推测是当玩家击倒最后一个球瓶时,游戏得分会闪烁一下,这干扰了智能体的预测。

Mario:在这个游戏里,研究人员设置的内在回报是通关,每到一个新房间,智能体就会获得奖励,因为新房间的详细信息是无法预测的。在这种简单设置下,智能体连通11关,找到了秘密房间,甚至还击杀了boss。

在常规强化学习设置中,对于每个离散的时间步,智能体会先向环境发送一个action,然后由环境返回下一个observation、当前action得到的回报和结束指示。为了让智能体探索未知领域,OpenAI要求环境只返回observation,不再提供回报信息,这就使智能体只能从自己的经验中学习怎么预测下一步的环境状态,并用预测误差作为内在奖励。

这就是“好奇心”的实现方式。举个简单的例子,同样一个智能体,如果使用常规设置,它就只会关注游戏得分,只要分数能上升,它就学着去做;而如果用的是好奇心,它就会积极地和新对象佳偶,并发现其中有益的东西。比起预测其他环境因素,这种对象间的互动更难预测。

Noisy-TV问题

就像做作业的小学生容易被窗外飞过的花蝴蝶所吸引,好奇心也给智能体带来了“注意力不够集中”的问题——Noisy-TV。下面是一个例子:同一个智能体穿行在两个不同的迷宫中,其中一个是正常的迷宫,另一个是有一面“电视墙”、上面正在播放视频的迷宫:

正常迷宫

“电视墙”迷宫

在正常迷宫中,智能体一直在保持前进,而在“电视墙”迷宫中,智能体一看到视频就“走不动路”了。对于像《蒙特祖玛的复仇》这样的大型复杂环境,这是好奇心智能体需要注意的一个重要问题。而对此,OpenAI提出了一种解决方法,就是让智能体通过噪声控制器控制环境,该控制器有一定概率让智能体重复之前的最后一个动作,防止从旧房间到新房间的过渡变得不可预测。

集大成者:RND

从本质上看,Noisy-TV问题就是好奇心智能体对下一状态的预测会固有的受当前环境噪声影响,之前提到了,好奇心智能体的内在回报是预测误差,误差越小,回报越大。我们先来看看导致预测误差过大的几个因素:

因素1:当预测模型无法把之前的经验推广到当前时,预测误差会很高——当前学到的经验是新的。

因素2:如果预测目标是随机的,预测误差也会很高。

因素3:如果缺少预测所需的信息,或者目标函数太复杂而预测种类太受限,预测误差也会很高。

在这三个中,因素1对智能体是有用的,因为它量化了经验的新颖性。而因素2和3是导致Noisy-TV问题的元凶,为了避免这两种情况,OpenAI提出了一种新的exploration回报RND:给定下一环境状态,它能预测这个固定的、随机初始化的神经网络(预测模型)的输出,如下图所示。

这背后的思路是预测模型在类似训练过的状态中误差较低。对于从没见过的环境状态,智能体对神经网络的输出预测会更不准确(因素1),这促进了探索。合成预测设计确保了预测目标的确定性和类别的适配,能有效防止Noisy-TV问题。

连接exploration回报和外部回报的OpenAI之前提出的近端策略优化(PPO)的变体,具体这里我们不再展开。下图是智能体在玩《蒙特祖玛的复仇》时获得的内在回报的可视化:

未来发展

最后,研究人员表示对于设计性能更好的算法来说,Noisy-TV问题的易感性等重要因素还是非常重要。他们发现简单算法中看似很小的细节,可能直接影响着智能体是不能走出第一个房间还是通过第一关。为了增加训练稳定性,他们避免了特征的饱和,并将内在奖励带到了可预测的范围。每次发现并修复错误,RND的性能都会有显着提高。

他们建议未来研究人员可以在这几方面继续探索:

分析不同探索方法的好处,并找到结合它们的新方法。

在没有回报的情况下,在多种不同环境中训练好奇心智能体,使他们朝着目标靠近。

测试好奇心智能体的“大局观”意识和长远视角。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130556
  • 智能体
    +关注

    关注

    1

    文章

    111

    浏览量

    10424
  • 强化学习
    +关注

    关注

    4

    文章

    259

    浏览量

    11113

原文标题:OpenAI新作:基于预测回报的强化学习

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一种基于路测数据的传播模型校正方法

    准确性等问题,提出了一种利用现网路测数据进行传播模型校正的方法.从理论上证明了路测信号可以替代连续波测试信号用于传播模型校正,通过增加路测次数和利用历史数据、邻区数据等方法增加了有效数
    发表于 04-23 11:52

    单片机C语言下LCD多级菜单的一种实现方法

    介绍了在C语言环境下,在LCD液晶显示屏上实现多级嵌套菜单的一种简便方法,提出了个结构紧凑、实用的程序模型。
    发表于 03-03 13:10

    一种简单的逆变器输出直流分量消除方法

    逆变器输出直流分量会对逆变器本身和交流负载产生不利影响,必须消除直流分量来保障逆变器的可靠运行。提出了一种简单的消除输出直流分量的方法,并在理论分析的基础上,通过对1台220V、1 kW的逆变器系统
    发表于 12-27 11:20

    一种基于FPGA的任意锁相倍频算法

    摘 要:提出了一种基于FPGA的任意锁相倍频算法。通过对倍频系统总体结构的分析,提出了实现该算法的原理及其具体的设计方法,同时提供了个基于
    发表于 12-04 22:29

    一种基于FPGA的UART实现方法设计

    摘要:UART作为RS232协议的控制接口得到了广泛的应用,将UART的功能集成在FPGA芯片中,可使整个系统更为灵活、紧凑,减小整个电路的体积,提高系统的可靠性和稳定性。提出了一种基于FPGA
    发表于 06-21 07:17

    请问有没有一种提高A/D转换分辨率的方法

    本文提出了一种提高A/D转换分辨率的方法,并给出了相应的理论分析和应用实例。
    发表于 04-12 06:17

    为什么要提出一种数据隐藏新算法?

    为什么要提出一种数据隐藏新算法?DDE双重差值扩展算法包括哪些?
    发表于 04-20 07:05

    一种新的双T型选频网络电路的设计方法

    本文将介绍一种新型的PIN光探测器(光敏二极管)的光电检测放大器设计方法。依照弱信号检测理论,在电路设计时采取多项措施力图提高信噪比。为了获得良好的带通滤波效果,本文还提出了一种新的双
    发表于 04-23 07:15

    一种基于FPGA的微处理器的IP的设计方法

    本文根据FPGA的结构特点,围绕在FPGA上设计实现八位微处理器软核设计方法进行探讨,研究了片上系统的设计方法和设计复用技术,并给出了指令集和其调试方法
    发表于 04-29 06:38

    为什么要提出一种并行通信方法?并行通信方法有什么特点?

    为什么要提出一种并行通信方法?并行通信方法有什么特点?
    发表于 05-27 06:16

    浅谈一种高斯随机噪声生成方法

    本文提出了一种面向硬件的均值、方差的高斯随机噪声生成方法
    发表于 06-03 07:05

    求大佬分享一种基于JPEG2000的新型率控制方法

    通过对JPEG2000的分析,本文提出了一种通过估计率失真信息来控制码率的方法
    发表于 06-04 06:45

    介绍一种H.264编码中帧间模式选择的算法

    本文提出了一种H.264编码中帧间模式选择的算法,并针对该算法给出了4计算阈值的方法
    发表于 06-04 07:17

    求大佬分享一种基于毫米波雷达和机器视觉的前方车辆检测方法

    为研究夜间追尾事故中本车智能防撞预警方法,本文提出了一种基于毫米波雷达和机器视觉的前方车辆检测方法。利用多传感器融合数据,检测前方车辆的距离、速度等。建立传感器之间转换关系,转换雷达目
    发表于 06-10 10:23

    一种基于综合几何特征和概率神经网络的HGU轴轨识别方法

    摘要故障诊断是保证水轮发电机组安全运行的重要环节。轴心轨迹辨识是HGU故障诊断的一种有效方法提出了一种基于综合几何特征和概率神经网络(CGC-PNN)的HGU轴轨识别
    发表于 09-15 08:18