0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用PopArt进行多任务深度强化学习

zhKF_jqr_AI 来源:未知 作者:李倩 2018-09-16 09:32 次阅读

多任务学习——即允许单个智能体学习如何完成多种不同的的任务——一直是人工智能研究的长期目标。近年来,这一领域出现了不少优秀进展,比如DQN只用同一种算法就能玩包含《打砖块》和《乓》在内的多种游戏。但事实上,这些算法的本质还是对于每个任务,训练单独的智能体。

随着人工智能研究开始向更复杂的现实任务靠拢,构建一个“多才多艺”的智能体——而不是多个“专家级”智能体——对学习执行多个任务将是至关重要的。很可惜,到目前为止,这已经被证明仍是一项重大挑战。

其中的一个原因是在不同任务中,强化学习智能体用来判断自己成功与否的奖励标准存在差异,这导致它们会陷入“唯奖励论”,专注于执行所有奖励更高的任务。举个例子,在雅达利游戏《乓》中,智能体每执行一个“动作”就可能获得如下奖励:-1、0或+1。相比之下,如果是同为街机游戏的《吃豆人小姐》,智能体可能走一步就能获得成百上千个积分。

即便我们把单个奖励设置成基本一致,随着智能体被训练地越来越好,由于奖励频率不同的存在,不同游戏间的奖励差异还是会变得越来越明显。

为了解决这些问题,DeepMind开发了PopArt,它可以调整每个游戏中的积分等级,因此无论不同游戏间的奖励差异有多大,智能体都会对它们“一视同仁”,判断它们带给自己的奖励相同。在他们最新的论文Multi-task Deep Reinforcement Learning with PopArt中,DeepMind把PopArt归一化用在当前最先进的强化学习智能体上,训练了一个只用一套权重的单一智能体。在一整套57种不同的Atari游戏上,这个智能体的表现可以达到人类中等水平以上。

从广义上讲,深度学习极度依赖神经网络权重的更新,使输出更接近需要的目标输出。这一点放在深度强化学习上也一样。

PopArt的工作机制基于估计这些目标的平均值和分布(例如游戏中的得分),在利用这些统计信息更新网络权重前,它会先对它们做归一化,目的是形成对奖励的规模和频率更稳健的学习经验。之后,为了获得更准确的估计——如预期的得分——它再继续把网络的输出重新转成原始范围。

如果单纯地这么做,那么每次更新统计数据都会改变非归一化的输出,包括非常理想的输出。这不是我们想要的。为了避免这一点,DeepMind提出的解决方案是,每次更新统计数据时,网络就会进行一次反向更新,这意味着我们既能实现网络的大规模更新,又能保持先前学习的输出不变。

出于这种原因,他们把这种方法命名为PopArt:Preserving Outputs Precisely while Adaptively Rescaling Targets(在自适应重新缩放目标的同时精确保留原有输出)。

用PopArt代替奖励剪枝

按照以往的做法,如果研究人员要用强化学习算法对奖励进行剪枝,以此克服奖励范围各不相同的问题,他们首先会把大的奖励设为+1,小的奖励为-1,然后对预期奖励做归一化处理。虽然这种做法易于学习,但它也改变了智能体的目标。

例如,《吃豆人小姐》的目标是吃豆子,每个豆子10分,吃鬼200-1600分。在训练强化学习智能体时,通过剪枝,智能体会认为自己吃豆子或吃鬼没有任何区别,再加上吃豆子更容易,研究人员会很容易训练出一个只会吃豆子、从不追逐鬼的智能体。

而如下面这个视频所示,用PopArt取代奖励剪枝后,这个智能体更“聪明”了,它会把追鬼纳入自己的吃豆路径,得分也更高:

用PopArt进行多任务深度强化学习

今年2月,DeepMind曾发布一个多任务集合DMLab-30,为了解决其中的问题,他们还开发了一个高度可扩展的、基于分布式架构的智能体IMPALA。这是目前世界上最先进的强化学习智能体之一,也是DeepMind最常用的深度强化学习智能体之一。

在实验中,他们把PopArt用于IMPALA,并和基线智能体做对比。结果如下图所示,PopArt大幅提高了智能体的性能。实验还对比了奖励剪枝和未剪枝的情况,可以发现,使用PopArt的智能体在游戏中的得分中位数高于人类玩家的中位数,这比基线表现好很多。而其中未剪枝的基线得分几乎为0,因为它无法从游戏中学习有意义的表征,所以也无法处理游戏奖励范围的巨大变化。

57个Atari上的表现中位数,每一行对应单个智能体的中值性能;实现为经过剪枝,虚线未剪枝

这也是DeepMind第一次在多任务环境中看到智能体有超人表现,这表明PopArt确实在奖励不平衡上有一定的协调作用。而当未来我们把AI系统用于更复杂的多模态环境时,像这种自适应规范化方法会变得越来越重要,因为智能体必须要学会在面对多个不同目标时,利用它们各自的奖励做总体权衡。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1776

    文章

    43845

    浏览量

    230605
  • 智能体
    +关注

    关注

    1

    文章

    111

    浏览量

    10424
  • 强化学习
    +关注

    关注

    4

    文章

    259

    浏览量

    11114

原文标题:DeepMind:用PopArt进行多任务深度强化学习

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    使用Isaac Gym 来强化学习mycobot 抓取任务

    使用Isaac Gym来强化学习mycobot抓取任务
    的头像 发表于 04-11 14:57 5618次阅读
    使用Isaac Gym 来<b class='flag-5'>强化学习</b>mycobot 抓取<b class='flag-5'>任务</b>

    什么是深度强化学习?深度强化学习算法应用分析

    什么是深度强化学习? 众所周知,人类擅长解决各种挑战性的问题,从低级的运动控制(如:步行、跑步、打网球)到高级的认知任务
    发表于 07-01 10:29 1187次阅读
    什么是<b class='flag-5'>深度</b><b class='flag-5'>强化学习</b>?<b class='flag-5'>深度</b><b class='flag-5'>强化学习</b>算法应用分析

    深度学习DeepLearning实战

    测试)三、主讲内容1:课程一、强化学习简介课程二、强化学习基础课程三、深度强化学习基础课程四、多智能体深度
    发表于 01-09 17:01

    深度强化学习实战

    测试)三、主讲内容1:课程一、强化学习简介课程二、强化学习基础课程三、深度强化学习基础课程四、多智能体深度
    发表于 01-10 13:42

    深度学习技术的开发与应用

    /A2C6.DDPG7.PPO8.SAC1.深度强化学习训练场-OpenAI Gym 安装与使用2.Pytorch安装与使用3.自动驾驶赛车任务4.月球飞船降落任务实操解析与训练一实验
    发表于 04-21 14:57

    强化学习在RoboCup带球任务中的应用刘飞

    强化学习在RoboCup带球任务中的应用_刘飞
    发表于 03-14 08:00 0次下载

    深度学习强化学习相结合的深度强化学习DRL

    深度强化学习DRL自提出以来, 已在理论和应用方面均取得了显著的成果。尤其是谷歌DeepMind团队基于深度强化学习DRL研发的AlphaGo,将
    发表于 06-29 18:36 2.8w次阅读

    萨顿科普了强化学习深度强化学习,并谈到了这项技术的潜力和发展方向

    萨顿在专访中(再次)科普了强化学习深度强化学习,并谈到了这项技术的潜力,以及接下来的发展方向:预测学习
    的头像 发表于 12-27 09:07 1.1w次阅读

    深度强化学习到底是什么?它的工作原理是怎么样的

    深度学习DL是机器学习中一种基于对数据进行表征学习的方法。深度
    的头像 发表于 06-13 11:39 5618次阅读

    强化学习在智能对话上的应用介绍

    本文主要介绍深度强化学习任务型对话上的应用,两者的结合点主要是将深度强化学习应用于任务型对话的
    的头像 发表于 12-10 19:02 808次阅读

    基于深度强化学习仿真集成的压边力控制模型

    压边为改善板料拉深制造的成品质量,釆用深度强化学习的方法进行拉深过程旳压边力优化控制。提岀一种基于深度强化学习与有限元仿真集成的压边力控制模
    发表于 05-27 10:32 0次下载

    基于深度强化学习的无人机控制律设计方法

    基于深度强化学习的无人机控制律设计方法
    发表于 06-23 14:59 46次下载

    《自动化学报》—多Agent深度强化学习综述

    多Agent 深度强化学习综述 来源:《自动化学报》,作者梁星星等 摘 要 近年来,深度强化学习(Deep reinforcement le
    发表于 01-18 10:08 1252次阅读
    《自动<b class='flag-5'>化学</b>报》—多Agent<b class='flag-5'>深度</b><b class='flag-5'>强化学习</b>综述

    ESP32上的深度强化学习

    电子发烧友网站提供《ESP32上的深度强化学习.zip》资料免费下载
    发表于 12-27 10:31 0次下载
    ESP32上的<b class='flag-5'>深度</b><b class='flag-5'>强化学习</b>

    NeurIPS 2023 | 扩散模型解决多任务强化学习问题

    model 能否解决多任务强化学习问题呢?我们最近提出的一篇新工作——“Diffusion Model is an Effective Planner and Data
    的头像 发表于 10-02 10:45 447次阅读
    NeurIPS 2023 | 扩散模型解决<b class='flag-5'>多任务</b><b class='flag-5'>强化学习</b>问题