0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepMind开发了PopArt,解决了不同游戏奖励机制规范化的问题

DPVg_AI_era 来源:未知 作者:李倩 2018-09-16 10:04 次阅读

多任务学习一直是AI研究的长期目标。DeepMind开发了PopArt,解决了不同游戏奖励机制规范化的问题,它可以玩57款雅达利电子游戏,并且在所有57款游戏中达到高于人类中间水平的表现。

多任务学习——让单个agent学习如何解决许多不同的任务——这是AI研究的一个长期目标。

近年来,多任务学习领域已经取得许多卓越的进步,例如DQN这样的智能体能够使用相同的算法来学习玩多个游戏,包括雅达利经典的 “突出重围”(Breakout)和 “乒乓球”(Pong)游戏。

这些算法为每项任务训练一个专家智能体(expert agents)。随着AI研究向更复杂的现实世界领域发展,构建一个单一的强智能体(general agent)来学习执行多重任务将变得至关重要,而不是构建多个专家智能体。然而,到目前为止,这已经被证明是一项重大挑战。

原因之一是,强化学习智能体用来判断成功的奖励方案经常存在差异,导致他们把注意力集中在奖励更高的任务上。例如,在雅达利游戏“Pong”中,agent每一步会获得-1、0或+1的奖励:

Pong游戏中,两道竖杠代表球拍,一个小光点代表球在屏幕上蹦蹦跳跳,由人操纵按纽控制反弹,打不中就失去一分

相比之下,在“吃豆人”游戏中,agent每走一步就可获得几百、几千的分数。即使个体奖励的规模相似,但随着agent变得更好,奖励的频率会随着时间推移而变化。

这意味着agent倾向于关注那些有很高分数的任务,导致在某些任务上表现更好,而在其他任务上表现更差。

为了解决这些问题,DeepMind开发了PopArt,它可以调整每一款游戏的分数等级,这样不管游戏原本的奖励等级如何规定,AI智能体都会判断游戏具有同等的学习价值。

PopArt:在保持输出完好的同时,自适应地重新调整目标(PreservingOutputsPrecisely whileAdaptivelyRescalingTargets)。

DeepMind将PopArt规范化应用到最先进的强化学习智能体上,从而得到一个单一的智能体,它可以玩57款雅达利电子游戏,并且在所有57款游戏中达到高于人类中间水平的表现。

PopArt:规范化奖励,不影响目标

一般来说,深度学习依赖于不断更新的神经网络的权重,使神经网络的输出更接近期望的目标输出。当神经网络被用于深度强化学习时也是如此。PopArt通过估计这些目标的平均值和传播范围(比如游戏中的得分)来工作。然后,它使用这些数据对目标进行规范化,再利用它们来更新网络的权重。

使用规范化的目标可以使学习更加稳定和强大,以适应规模和转换的变化。为了获得准确的估计——例如对未来的预期分数的估计——网络的输出可以通过反转规范化过程来重新调整到真实的目标范围。如果直接这样做,每次更新统计数据都会改变所有未规范化的输出,包括那些已经非常好的输出。我们通过向相反的方向更新网络来防止这种情况的发生。这意味着我们可以在保持以前学习过的输出完好的同时,获得大规模更新的好处。

传统上,研究人员通过在强化学习算法中使用奖励修剪(rewardclipping)来克服不同奖励尺度的问题。这种方法将很大或很小的分数修剪为1或-1分的得分,大致使预期奖励规范化。虽然这使学习变得更容易,但是它也改变了agent的目标。

例如,在“吃豆人小姐”(Ms. Pac-Man)游戏中,吃豆人的目标是收集豆子,吃到每个豆子获得10分,吃到鬼魂获得200到1600分。通过修剪奖励,agent吃一个豆子和吃一个鬼魂得到的奖励没有明显的区别,导致agent只吃豆子,从不去追逐鬼魂。如下面的视频所示:

当我们用PopArt的自适应规范化来代替reward clipping,结果导致了智能体完全不同的行为。它会追逐鬼魂,并且获得了更高的分数。

使用PopArt进行多任务深度强化学习

我们将PopArt应用于Importance-weighted Actor-Learner Architecture(IMPALA),这是DeepMind最流行的深度强化学习智能体之一。在实验中,与没有使用PopArt的baseline agent相比,PopArt大大提高了agent的表现。无论是修剪了奖励还是没有修剪奖励,PopArt智能体在游戏中的中位数得分都高于人类中位数得分。

这远远高于使用reward clipping的baseline,而没有使用reward clipping的baseline根本无法达到有意义的表现,因为它无法有效地处理不同游戏之间的奖励尺度的巨大变化。

57款Atari游戏的标准化表现中位数。每一行对应于单个智能体的中位数表现,该智能体被训练来使用相同的神经网络来玩所有这些游戏。实线表示使用 reward clipping的表现,虚线表示没有使用 reward clipping的表现。

这是我们第一次在使用单一智能体的这种多任务环境中看到超过人类的表现,这表明PopArt可以为如何在无需手动修剪或调整的情况下平衡各种目标的开放式研究问题提供一些解决方案。当我们将AI应用于更复杂的多模态领域时,AI在学习过程中自动适应规范化的能力变得非常重要,因为在这些领域中,AI智能体必须学会权衡各种不同的奖励和不同的目标。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4562

    浏览量

    98646
  • 智能体
    +关注

    关注

    1

    文章

    111

    浏览量

    10418
  • DeepMind
    +关注

    关注

    0

    文章

    126

    浏览量

    10707

原文标题:强化学习重大突破:DeepMind用一个AI在57个游戏中全面超越人类

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    工器具规范化使用

      电力企业安全工器具规范化操作指导系统 一、系统概述    对电力生产人员来说,了解各种安全工器具的性能和用途,正确掌握它们
    发表于 11-18 14:02

    贴片知识课堂十,PCB设计规范化第二节

    麦斯艾姆(massembly)贴片知识课堂十,PCB设计规范化第二节麦斯艾姆(massembly)贴片知识课堂继续上次的话题“PCB设计规范化”。1, 散热焊盘,对于某些功率器件,包括功放,电源
    发表于 10-31 14:12

    贴片知识课堂十一,PCB设计规范化第第三节

    本帖最后由 eehome 于 2013-1-5 10:04 编辑 麦斯艾姆(massembly)贴片知识课堂十一,PCB设计规范化第三节麦斯艾姆(massembly)贴片知识课堂继续上次的话
    发表于 10-31 14:16

    关于发帖标题规范化管理公告

    关于发帖标题规范化管理公告由于论坛管理事物繁重,很多时候由不得我们几个管理员的眼睛和手指去处理,为了大家的问题能够更好,更直接的让各位大大们过目,让大家的问题都能得到解决,管理员团队特出发帖标题规范
    发表于 11-04 17:11

    嵌入式Linux C代码规范化

    本文档为作者 在嵌入式和嵌入式 linux C语言的学习和工作中所总结的代码规范 ,是作者从 STM32单片机开发向 Linux C开发的时候为了摆脱遗留的编码规范陋习而编写的 。因此
    发表于 01-14 10:25

    未来的AI 深挖谷歌 DeepMind 和它背后的技术

    学习从非结构数据中学习来编写分析报告或执行无人监督的任务。所有这些发展都为不同的公司发挥作用并证明他们的价值奠定基础。因此,很多像DeepMind这样的公司成立了,来继续发展这一领域。你对其有
    发表于 08-26 12:04

    代码规范化如何学习,单片机也要求规范化吗?

    代码规范化如何学习,单片机也要求规范化么?
    发表于 10-12 07:19

    PCB绘制规范及审核要点(免费)

    PCB相关的内容,以及绘制规范及审核要点,需仔细阅读
    发表于 01-22 14:35 0次下载

    分布式应用中的访问控制规范的研究_张赛男

    分布式应用中的访问控制规范的研究_张赛男
    发表于 03-19 11:30 0次下载

    一种创新的无监督文本规范化系统

    推特文本中包含着大量的非标准词,这些非标准词是由人们有意或无意而创造的。对很多自然语言处理的任务而言,预先对推特文本进行规范化处理是很有必要的。针对已有的规范化系统性能较差的问题,提出一种创新
    发表于 12-15 14:12 0次下载
    一种创新的无监督文本<b class='flag-5'>规范化</b>系统

    数据库-关系规范化的详细资料介绍,为什么要对进行关系的规范化

    对关系的规范化是改造关系模式过程,首先,根据一组不同级别的范式判定关系的规范化程度,确定不正常的数据依赖关系,通过模式分解将一个低一级范式的关系模式,转换为若干个高一级的范式的关系模式的集合,消除其中不合适的数据依赖,以解决插入异常、删除异常、更新异常和数据冗余问题。
    发表于 09-05 14:26 5次下载
    数据库-关系<b class='flag-5'>规范化</b>的详细资料介绍,为什么要对进行关系的<b class='flag-5'>规范化</b>?

    浅析FPGA规范化的重要性

    设计规范化与自由创作之间没有任何矛盾。它只是制约了那些可能出错或者低效的行为,令设计思路更加明朗、设计效率得到提高、设计质量充分保证。
    的头像 发表于 10-09 11:10 3006次阅读

    比特币挖矿完之后的矿工奖励问题探讨

    2009 年,中本聪挖出了比特币的创世区块,生成了 50 个比特币,根据比特币的机制规定:每隔大约 10 分钟会出现下一个区块,每隔约 210000 个区块奖励就会减半。
    发表于 11-08 11:27 5556次阅读

    电路原理图绘制规范详细说明

    本文档的主要内容详细介绍的是电路原理图绘制规范详细说明。
    发表于 01-03 08:00 0次下载
    电路原理图绘<b class='flag-5'>制规范</b>详细说明

    原理图绘制规范电子版资料下载

    规范旨在建立一个技术支持和资源共享的基础平台,统一企业内部的技术开发行为,促进企业技术文档的规范化和标准化,逐步使技术文档的设计向国标、IC标准靠拢。
    发表于 03-29 14:51 0次下载
    原理图绘<b class='flag-5'>制规范</b>电子版资料下载