0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Google强化学习框架,要满足哪三大特性

MqC7_CAAI_1981 来源:未知 作者:工程师郭婷 2018-09-03 14:06 次阅读

强化学习是一种非常重要 AI 技术,它能使用奖励(或惩罚)来驱动智能体(agents)朝着特定目标前进,比如它训练的 AI 系统 AlphaGo 击败了顶尖围棋选手,它也是 DeepMind 的深度 Q 网络(DQN)的核心部分,它可以在多个 workers 之间分步学习,例如,在 Atari 2600 游戏中实现“超人”性能。

麻烦的是,强化学习框架需要花费大量时间来掌握一个目标,而且框架往往是不灵活和不总是稳定的。

但不用担心,Google 近日发布了一个替代方案:基于 TensorFlow 的开源强化学习框架 Dopamine(多巴胺)。

Google 的博文中提到,这个基于 Tensorflow 的强化学习框架,旨在为 RL 的研究人员提供灵活性,稳定性和可重复性的研究。受到大脑中奖励动机行为的主要成分的启发,以及反映神经科学与强化学习研究之间强烈的历史联系,该平台旨在实现可推动激进发现的思辨研究(speculative research)。此版本还包括一组阐明如何使用整个框架的 colabs。

除了强化学习框架的发布,谷歌还推出了一个网站(https://google.github.io/dopamine/baselines/plots.html),允许开发人员快速可视化多个智能体的训练运行情况。他们希望,这一框架的灵活性和易用性将使研究人员能积极尝试新的想法,不管是渐进式还是激进式的想法。

引入灵活和可重复的强化学习研究的新框架

强化学习(RL)研究在过去几年中取得了许多重大进展。这些进步使得智能体可以以超人类级别的能力玩游戏。比如 Atari 游戏中 DeepMind 的 DQN ,AlphaGo ,AlphaGo Zero 以及 Open AI Five。

具体而言,在 DQN 中引入 replay memories 可以利用以前的智能体经验,大规模的分布式训练可以在多个 workers 之间分配学习过程,分布式方法允许智能体模拟完整的分布过程,而不仅仅是模拟它们期望值,以学习更完整的图景。这种类型的进展很重要,因为出现这些进步的算法还适用于其他领域,例如机器人技术。

通常,这种进步都来自于快速迭代设计(通常没有明确的方向),以及颠覆既定方法的结构。然而,大多数现有的 RL 框架并没有结合灵活性和稳定性以及使研究人员能够有效地迭代 RL 方法,并因此探索可能没有直接明显益处的新研究方向。此外,从现有框架再现结果通常太耗时,这可能导致科学的再现性问题。

今天,我们推出了一个新的基于 Tensorflow 的框架,旨在为 RL 的研究人员提供灵活性、稳定性和可重复性。受到大脑中奖励动机行为的主要成分的启发,以及反映神经科学与强化学习研究之间强烈的历史联系,该平台旨在实现可推动激进发现的思辨研究(speculative research)。此版本还包括一组阐明如何使用整个框架的 colabs。

易用性

清晰和简洁是该框架设计中要考虑的两个关键因素。我们提供更精简的代码(大约 15 个Python 文件),并且有详细记录。这是通过专注于 Arcade 学习环境(一个成熟的,易于理解的基准)和四个基于 value 的智能体来实现的:DQN,C51,一个精心策划的 Rainbow 智能体的简化版本,以及隐式分位数网络(Implicit Quantile Network)智能体,这已在上个月的 ICML 大会上已经发表。我们希望这种简洁性使研究人员能够轻松了解智能体内部的运作状况,并积极尝试新的想法。

可重复性

我们对重复性在强化学习研究中的重要性特别敏感。为此,我们为代码提供完整的测试覆盖率,这些测试也可作为其他文档形式。此外,我们的实验框架遵循 Machado 等人给出的关于使用 Arcade 学习环境标准化经验评估的建议。

基准测试

对于新的研究人员来说,能够根据既定方法快速对其想法进行基准测试非常重要。因此,我们为 Arcade 学习环境支持的 60 个游戏提供四个智能体的完整培训数据,可用作 Python pickle 文件(用于使用我们框架训练的智能体)和 JSON 数据文件(用于与受过其他框架训练的智能体进行比较);我们还提供了一个网站,你可以在其中快速查看 60 个游戏中所有智能体的训练运行情况。

下面展示我们在 Seaquest 上的 4 个代理的训练情况,这是由 Arcade 学习环境支持的一种 Atari 2600 游戏。

在 Seaquest 上的 4 名智能体参加了训练。x 轴表示迭代,其中每次迭代是 100 万个游戏帧(4.5 小时的实时游戏);y 轴是每场比赛获得的平均分数。阴影区域显示的是来自 5 次独立运行的置信区间。

我们还提供已经训练好的深度网络,原始统计日志以及用 Tensorboard 绘图的 Tensorflow 事件文件。这些都可以在网站的下载部分找到。

希望我们框架的灵活性和易用性将使研究人员敢于尝试新的想法,包括渐进式和激进式的想法。我们已经积极地将它用于我们的研究,并发现它能够灵活且快速迭代许多想法。我们很高兴可以为更大的社区做些贡献。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Google
    +关注

    关注

    5

    文章

    1713

    浏览量

    56790
  • AI
    AI
    +关注

    关注

    87

    文章

    26431

    浏览量

    264036

原文标题:Google发布“多巴胺”开源强化学习框架,三大特性全满足

文章出处:【微信号:CAAI-1981,微信公众号:中国人工智能学会】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    什么是强化学习

    强化学习是机器学习的方式之一,它与监督学习、无监督学习并列,是三种机器学习训练方法之一。 在围棋上击败世界第一李世石的 AlphaGo、在《
    的头像 发表于 10-30 11:36 1636次阅读
    什么是<b class='flag-5'>强化学习</b>

    NeurIPS 2023 | 扩散模型解决多任务强化学习问题

    扩散模型(diffusion model)在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习(RL)中来解决序列决策问题
    的头像 发表于 10-02 10:45 447次阅读
    NeurIPS 2023 | 扩散模型解决多任务<b class='flag-5'>强化学习</b>问题

    模拟矩阵在深度强化学习智能控制系统中的应用

    讯维模拟矩阵在深度强化学习智能控制系统中的应用主要是通过构建一个包含多种环境信息和动作空间的模拟矩阵,来模拟和预测深度强化学习智能控制系统在不同环境下的表现和效果,从而优化控制策略和提高系统的性能
    的头像 发表于 09-04 14:26 327次阅读
    模拟矩阵在深度<b class='flag-5'>强化学习</b>智能控制系统中的应用

    深度学习框架对照表

    的深度学习框架,并对它们进行对比。 1. TensorFlow TensorFlow是由Google Brain团队开发的一款深度学习框架
    的头像 发表于 08-17 16:11 489次阅读

    深度学习算法库框架学习

    深度学习算法库框架的相关知识点以及它们之间的比较。 1. Tensorflow Tensorflow是Google家的深度学习框架,已经成为
    的头像 发表于 08-17 16:11 435次阅读

    深度学习框架tensorflow介绍

    深度学习框架tensorflow介绍 深度学习框架TensorFlow简介 深度学习框架Tens
    的头像 发表于 08-17 16:11 1434次阅读

    深度学习框架是什么?深度学习框架有哪些?

    深度学习框架是什么?深度学习框架有哪些?  深度学习框架是一种软件工具,它可以帮助开发者轻松快速
    的头像 发表于 08-17 16:03 1771次阅读

    语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路

    在智能体的开发中,强化学习与大语言模型、视觉语言模型等基础模型的进一步融合究竟能擦出怎样的火花?谷歌 DeepMind 给了我们新的答案。 一直以来,DeepMind 引领了强化学习(RL)智能
    的头像 发表于 07-24 16:55 331次阅读
    语言模型做先验,统一<b class='flag-5'>强化学习</b>智能体,DeepMind选择走这条通用AI之路

    基于强化学习的目标检测算法案例

    摘要:基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为,其产生的候选区域形状和尺寸变化单一,导致目标检测精确度较低。为此,在基于深度强化学习的视觉目标检测算法基础上,提出联合回归与深度
    发表于 07-19 14:35 0次下载

    45. 5 2 强化学习(深度强化学习) #硬声创作季

    机器学习
    充八万
    发布于 :2023年07月07日 01:56:26

    什么是深度强化学习?深度强化学习算法应用分析

    什么是深度强化学习? 众所周知,人类擅长解决各种挑战性的问题,从低级的运动控制(如:步行、跑步、打网球)到高级的认知任务。
    发表于 07-01 10:29 1185次阅读
    什么是深度<b class='flag-5'>强化学习</b>?深度<b class='flag-5'>强化学习</b>算法应用分析

    人工智能强化学习开源分享

    电子发烧友网站提供《人工智能强化学习开源分享.zip》资料免费下载
    发表于 06-20 09:27 1次下载
    人工智能<b class='flag-5'>强化学习</b>开源分享

    基于深度强化学习的视觉反馈机械臂抓取系统

    机械臂抓取摆放及堆叠物体是智能工厂流水线上常见的工序,可以有效的提升生产效率,本文针对机械臂的抓取摆放、抓取堆叠等常见任务,结合深度强化学习及视觉反馈,采用AprilTag视觉标签、后视经验回放机制
    的头像 发表于 06-12 11:25 1385次阅读
    基于深度<b class='flag-5'>强化学习</b>的视觉反馈机械臂抓取系统

    ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

    大模型时代,模型压缩和加速显得尤为重要。传统监督学习可通过稀疏神经网络实现模型压缩和加速,那么同样需要大量计算开销的强化学习任务可以基于稀疏网络进行训练吗?本文提出了一种强化学习专用稀疏训练
    的头像 发表于 06-11 21:40 400次阅读
    ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出<b class='flag-5'>强化学习</b>专用稀疏训练<b class='flag-5'>框架</b>RLx2

    彻底改变算法交易:强化学习的力量

    强化学习(RL)是人工智能的一个子领域,专注于决策过程。与其他形式的机器学习相比,强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习
    发表于 06-09 09:23 367次阅读