0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepMind发布强化学习库RLax

电子设计 来源:电子设计 作者:电子设计 2020-12-10 18:43 次阅读
RLax(发音为“ relax”)是建立在JAX之上的库,它公开了用于实施强化学习智能体的有用构建块。。
报道深度强化学习实验室
作者:DeepRL
来源:Github/DeepMind

RLax及背景

强化学习主要用于研究学习系统(智能体)的问题,该学习系统必须学习与环境进行交互的信息。智能体和环境在不连续的步骤上进行交互。在每个步骤中,智能体都会选择一个动作,并会提供一个返回的环境状态(观察)状态(部分)和标量反馈信号(奖励)。智能体的行为以行为的概率分布为特征,该分布取决于对环境(策略)的过去观察。智能体寻求一种策略,该策略将从任何给定步骤中最大化从该点开始(返回)将收集的折扣累积奖励。智能体策略或环境动态本身通常是随机的。在这种情况下,回报是一个随机变量,并且通常将更精确的智能体策略指定为在智能体和环境的随机性下最大化回报期望(值)的策略。

RLax(发音为“ relax”)是建立在JAX之上的库,它公开了用于实施强化学习智能体的有用构建块。

安装与使用

可以使用以下命令从github直接使用pip安装RLax:

pip install git+git://github.com/deepmind/rlax.git.

然后可以使用JAX的jax.jit函数为不同的硬件(例如CPUGPU,TPU)及时编译所有RLax代码。

强化学习算法

增强学习算法包含三个原型系列:

  • 那些估计状态和动作的价值,并通过检查推断策略的行为(例如,通过选择估计值最高的动作)
  • 学习环境模型(能够预测观察结果和奖励),并通过计划推断策略。
  • 那些参数化可以直接执行的策略的参数,

无论如何,策略,价值或模型只是功能。在深度强化学习中,此类功能由神经网络表示。在这种情况下,通常将强化学习更新公式化为可区分的损失函数(类似于(非)监督学习)。在自动区分下,将恢复原始更新规则。

但是请注意,尤其是只有以正确的方式对输入数据进行采样时,更新才有效。例如,仅当输入轨迹是当前策略的无偏样本时,策略梯度损失才有效。即数据是符合政策的。该库无法检查或强制执行此类约束。但是,在函数的文档字符串中提供了指向描述如何使用每种操作的论文的链接。

命名约定和开发人员指南

我们为与单一经验流交互的代理定义功能和操作。JAX构造vmap可用于将这些相同的功能应用于批处理(例如,支持重放和并行数据生成)。

许多功能在连续的时间步中考虑策略,行动,奖励,价值,以便计算其输出。在这种情况下,qm_t和tm1通常用于说明每个输入是在哪个步骤上生成的,例如:

  • q_tm1:转换的源状态中的操作值。
  • a_tm1:在源状态下选择的操作。
  • r_t:在目标状态下收集的结果奖励。
  • discount_t:与转换关联的折扣。
  • q_t:目标状态下的操作值。

为每个功能提供了广泛的测试。当使用jax.jit编译为XLA以及使用jax.vmap执行批处理操作时,所有测试还应验证rlax函数的输出。

引用

@software{rlax2020github,
  author = {David Budden and Matteo Hessel and John Quan and Steven Kapturowski},
  title = {{RL}ax: {R}einforcement {L}earning in {JAX}},
  url = {http://github.com/deepmind/rlax},
  version = {0.0.1a0},
  year = {2020},
}

专注深度强化学习前沿技术干货,论文,框架,学习路线等,欢迎关注微信公众号。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 强化学习
    +关注

    关注

    4

    文章

    259

    浏览量

    11114
  • DeepMind
    +关注

    关注

    0

    文章

    126

    浏览量

    10709
收藏 人收藏

    评论

    相关推荐

    什么是强化学习

    强化学习是机器学习的方式之一,它与监督学习、无监督学习并列,是三种机器学习训练方法之一。 在围棋上击败世界第一李世石的 AlphaGo、在《
    的头像 发表于 10-30 11:36 1645次阅读
    什么是<b class='flag-5'>强化学习</b>

    NeurIPS 2023 | 扩散模型解决多任务强化学习问题

    扩散模型(diffusion model)在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习(RL)中来解决序列决策问题
    的头像 发表于 10-02 10:45 447次阅读
    NeurIPS 2023 | 扩散模型解决多任务<b class='flag-5'>强化学习</b>问题

    模拟矩阵在深度强化学习智能控制系统中的应用

    讯维模拟矩阵在深度强化学习智能控制系统中的应用主要是通过构建一个包含多种环境信息和动作空间的模拟矩阵,来模拟和预测深度强化学习智能控制系统在不同环境下的表现和效果,从而优化控制策略和提高系统的性能
    的头像 发表于 09-04 14:26 328次阅读
    模拟矩阵在深度<b class='flag-5'>强化学习</b>智能控制系统中的应用

    语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路

    在智能体的开发中,强化学习与大语言模型、视觉语言模型等基础模型的进一步融合究竟能擦出怎样的火花?谷歌 DeepMind 给了我们新的答案。 一直以来,DeepMind 引领了强化学习
    的头像 发表于 07-24 16:55 332次阅读
    语言模型做先验,统一<b class='flag-5'>强化学习</b>智能体,<b class='flag-5'>DeepMind</b>选择走这条通用AI之路

    基于强化学习的目标检测算法案例

    摘要:基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为,其产生的候选区域形状和尺寸变化单一,导致目标检测精确度较低。为此,在基于深度强化学习的视觉目标检测算法基础上,提出联合回归与深度
    发表于 07-19 14:35 0次下载

    45. 5 2 强化学习(深度强化学习) #硬声创作季

    机器学习
    充八万
    发布于 :2023年07月07日 01:56:26

    碾压GPT-4!谷歌DeepMind CEO自曝:下一代大模型将与AlphaGo合体

    一个是用强化学习击败人类围棋冠军、创造历史的AI系统,一个是目前霸榜几乎所有大模型榜单、一骑绝尘的最强多模态大模型,两个AI一合体,简直要无敌了!
    的头像 发表于 07-04 16:28 335次阅读
    碾压GPT-4!谷歌<b class='flag-5'>DeepMind</b> CEO自曝:下一代大模型将与AlphaGo合体

    什么是深度强化学习?深度强化学习算法应用分析

    什么是深度强化学习? 众所周知,人类擅长解决各种挑战性的问题,从低级的运动控制(如:步行、跑步、打网球)到高级的认知任务。
    发表于 07-01 10:29 1187次阅读
    什么是深度<b class='flag-5'>强化学习</b>?深度<b class='flag-5'>强化学习</b>算法应用分析

    人工智能强化学习开源分享

    电子发烧友网站提供《人工智能强化学习开源分享.zip》资料免费下载
    发表于 06-20 09:27 1次下载
    人工智能<b class='flag-5'>强化学习</b>开源分享

    利用强化学习来探索更优排序算法的AI系统

    前言 DeepMind 最近在 Nature 发表了一篇论文 AlphaDev[2, 3],一个利用强化学习来探索更优排序算法的AI系统。 AlphaDev 系统直接从 CPU 汇编指令的层面入手
    的头像 发表于 06-19 10:49 396次阅读
    利用<b class='flag-5'>强化学习</b>来探索更优排序算法的AI系统

    它发现了更快的排序算法,速度快 70%

    这一次,Google DeepMind 的全新强化学习系统 AlphaDev 发现了一种比以往更快的哈希算法,这是计算机科学领域中的一种基本算法,AI 的成果现已被纳入 LLVM 标准 C++ 库 Abseil 并开源。
    的头像 发表于 06-12 14:46 354次阅读
    它发现了更快的排序算法,速度快 70%

    基于深度强化学习的视觉反馈机械臂抓取系统

    机械臂抓取摆放及堆叠物体是智能工厂流水线上常见的工序,可以有效的提升生产效率,本文针对机械臂的抓取摆放、抓取堆叠等常见任务,结合深度强化学习及视觉反馈,采用AprilTag视觉标签、后视经验回放机制
    的头像 发表于 06-12 11:25 1400次阅读
    基于深度<b class='flag-5'>强化学习</b>的视觉反馈机械臂抓取系统

    ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

    大模型时代,模型压缩和加速显得尤为重要。传统监督学习可通过稀疏神经网络实现模型压缩和加速,那么同样需要大量计算开销的强化学习任务可以基于稀疏网络进行训练吗?本文提出了一种强化学习专用稀疏训练框架
    的头像 发表于 06-11 21:40 402次阅读
    ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出<b class='flag-5'>强化学习</b>专用稀疏训练框架RLx2

    彻底改变算法交易:强化学习的力量

    强化学习(RL)是人工智能的一个子领域,专注于决策过程。与其他形式的机器学习相比,强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习
    发表于 06-09 09:23 370次阅读

    基于多智能体深度强化学习的体系任务分配方法

    为了应对在未来复杂的战场环境下,由于通信受限等原因导致的集中式决策模式难以实施的情况,提出了一个基于多智能体深度强化学习方法的分布式作战体系任务分配算法,该算法为各作战单元均设计一个独立的策略网络
    的头像 发表于 05-18 16:46 2680次阅读
    基于多智能体深度<b class='flag-5'>强化学习</b>的体系任务分配方法