0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepMind发布强化学习库RLax

电子设计 来源:电子设计 作者:电子设计 2020-12-10 18:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

RLax(发音为“ relax”)是建立在JAX之上的库,它公开了用于实施强化学习智能体的有用构建块。。
报道深度强化学习实验室
作者:DeepRL
来源:Github/DeepMind

RLax及背景

强化学习主要用于研究学习系统(智能体)的问题,该学习系统必须学习与环境进行交互的信息。智能体和环境在不连续的步骤上进行交互。在每个步骤中,智能体都会选择一个动作,并会提供一个返回的环境状态(观察)状态(部分)和标量反馈信号(奖励)。智能体的行为以行为的概率分布为特征,该分布取决于对环境(策略)的过去观察。智能体寻求一种策略,该策略将从任何给定步骤中最大化从该点开始(返回)将收集的折扣累积奖励。智能体策略或环境动态本身通常是随机的。在这种情况下,回报是一个随机变量,并且通常将更精确的智能体策略指定为在智能体和环境的随机性下最大化回报期望(值)的策略。

RLax(发音为“ relax”)是建立在JAX之上的库,它公开了用于实施强化学习智能体的有用构建块。

安装与使用

可以使用以下命令从github直接使用pip安装RLax:

pip install git+git://github.com/deepmind/rlax.git.

然后可以使用JAX的jax.jit函数为不同的硬件(例如CPUGPU,TPU)及时编译所有RLax代码。

强化学习算法

增强学习算法包含三个原型系列:

  • 那些估计状态和动作的价值,并通过检查推断策略的行为(例如,通过选择估计值最高的动作)
  • 学习环境模型(能够预测观察结果和奖励),并通过计划推断策略。
  • 那些参数化可以直接执行的策略的参数,

无论如何,策略,价值或模型只是功能。在深度强化学习中,此类功能由神经网络表示。在这种情况下,通常将强化学习更新公式化为可区分的损失函数(类似于(非)监督学习)。在自动区分下,将恢复原始更新规则。

但是请注意,尤其是只有以正确的方式对输入数据进行采样时,更新才有效。例如,仅当输入轨迹是当前策略的无偏样本时,策略梯度损失才有效。即数据是符合政策的。该库无法检查或强制执行此类约束。但是,在函数的文档字符串中提供了指向描述如何使用每种操作的论文的链接。

命名约定和开发人员指南

我们为与单一经验流交互的代理定义功能和操作。JAX构造vmap可用于将这些相同的功能应用于批处理(例如,支持重放和并行数据生成)。

许多功能在连续的时间步中考虑策略,行动,奖励,价值,以便计算其输出。在这种情况下,qm_t和tm1通常用于说明每个输入是在哪个步骤上生成的,例如:

  • q_tm1:转换的源状态中的操作值。
  • a_tm1:在源状态下选择的操作。
  • r_t:在目标状态下收集的结果奖励。
  • discount_t:与转换关联的折扣。
  • q_t:目标状态下的操作值。

为每个功能提供了广泛的测试。当使用jax.jit编译为XLA以及使用jax.vmap执行批处理操作时,所有测试还应验证rlax函数的输出。

引用

@software{rlax2020github,
  author = {David Budden and Matteo Hessel and John Quan and Steven Kapturowski},
  title = {{RL}ax: {R}einforcement {L}earning in {JAX}},
  url = {http://github.com/deepmind/rlax},
  version = {0.0.1a0},
  year = {2020},
}

专注深度强化学习前沿技术干货,论文,框架,学习路线等,欢迎关注微信公众号。

审核编辑 黄昊宇

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 强化学习
    +关注

    关注

    4

    文章

    269

    浏览量

    11905
  • DeepMind
    +关注

    关注

    0

    文章

    131

    浏览量

    12134
收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何训练好自动驾驶端到端模型?

    [首发于智驾最前沿微信公众号]最近有位小伙伴在后台留言提问:端到端算法是怎样训练的?是模仿学习强化学习和离线强化学习这三类吗?其实端到端(end-to-end)算法在自动驾驶、智能体决策系统里
    的头像 发表于 12-08 16:31 618次阅读
    如何训练好自动驾驶端到端模型?

    中国研究发布新型混合微电网系统

    该系统核心是管理能源的方法。团队采用调度框架,将多目标分布鲁棒优化(DRO)与实时强化学习(RL)辅助机制结合。能源管理系统(EMS)是运行“大脑”,分布式响应系统(DRO)生成基准调度策略,强化学习(RL)模块实时调整控制信号,让系统适应环境。该研究强调,数学模型解决了
    的头像 发表于 11-27 17:05 405次阅读

    今日看点:智元推出真机强化学习;美国软件公司SAS退出中国市场

    智元推出真机强化学习,机器人训练周期从“数周”减至“数十分钟”   近日,智元机器人宣布其研发的真机强化学习技术,已在与龙旗科技合作的验证产线中成功落地。据介绍,此次落地的真机强化学习方案,机器人
    发表于 11-05 09:44 905次阅读

    自动驾驶中常提的“强化学习”是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,有些方案中会提到“强化学习(Reinforcement Learning,简称RL)”,强化学习是一类让机器通过试错来学会做决策的技术。简单理解
    的头像 发表于 10-23 09:00 329次阅读
    自动驾驶中常提的“<b class='flag-5'>强化学习</b>”是个啥?

    沐曦助力上海创智学院siiRL 2.0全面升级

    在人工智能加速迈向大模型与智能体时代的今天,强化学习(Reinforcement Learning,RL)已经成为推动智能系统演化的关键技术。
    的头像 发表于 09-29 11:38 566次阅读
    沐曦助力上海创智学院siiRL 2.0全面升级

    如何在Ray分布式计算框架下集成NVIDIA Nsight Systems进行GPU性能分析

    在大语言模型的强化学习训练过程中,GPU 性能优化至关重要。随着模型规模不断扩大,如何高效地分析和优化 GPU 性能成为开发者面临的主要挑战之一。
    的头像 发表于 07-23 10:34 2044次阅读
    如何在Ray分布式计算框架下集成NVIDIA Nsight Systems进行GPU性能分析

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一个适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习(在尝试和错误中进行学习),为所有机器
    的头像 发表于 07-14 15:29 1838次阅读
    NVIDIA Isaac Lab可用环境与<b class='flag-5'>强化学习</b>脚本使用指南

    华为发布天才少年挑战课题发布 五大主题方向课题放榜

    ‌: ‌智能联接与计算‌:涉及自主智能无线通信架构、昇腾强化学习系统等关键技术研究。 ‌基础研究与创新‌:包括大模型安全关键技术、智能成像/编辑技术等研究。 ‌智能终端‌:聚焦于世界模型理论突破、基于计算机视觉的多
    的头像 发表于 06-16 19:23 1034次阅读

    【书籍评测活动NO.62】一本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    。DeepSeek-V3 的发布几乎没有预热和炒作,仅凭借其出色的效果和超低的成本迅速走红。 DeepSeek-R1 则是在 DeepSeek-V3 的基础上构建的推理模型,它在后训练阶段大规模使用强化学习技术
    发表于 06-09 14:38

    天合储能推动电化学储能行业高质量发展

    近日,国家能源局综合司等部门联合发布《关于加强电化学储能安全管理有关工作的通知》,从提升电池系统本质安全水平、健全标准体系、强化全生命周期安全管理责任等六个方面,为储能行业划出安全“底线”,也为行业高质量发展提供清晰方向。
    的头像 发表于 06-05 11:52 678次阅读

    在阿里云PAI上快速部署NVIDIA Cosmos Reason-1模型

    NVIDIA 近期发布了 Cosmos Reason-1 的 7B 和 56B 两款多模态大语言模型 (MLLM),它们经过了“物理 AI 监督微调”和“物理 AI 强化学习”两个阶段的训练。其中
    的头像 发表于 06-04 13:43 694次阅读

    18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现

    本来转自:DeepHubIMBA本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。为确保内容
    的头像 发表于 04-23 13:22 1313次阅读
    18个常用的<b class='flag-5'>强化学习</b>算法整理:从基础方法到高级模型的理论技术与代码实现

    详解RAD端到端强化学习后训练范式

    受限于算力和数据,大语言模型预训练的 scalinglaw 已经趋近于极限。DeepSeekR1/OpenAl01通过强化学习后训练涌现了强大的推理能力,掀起新一轮技术革新。
    的头像 发表于 02-25 14:06 1022次阅读
    详解RAD端到端<b class='flag-5'>强化学习</b>后训练范式

    Commvault推出CIS强化镜像

    混合云数据保护解决方案领先提供商Commvault(纳斯达克代码:CVLT)近日宣布可以使用CIS强化镜像,从各大云应用市场轻松部署Commvault Cloud平台。这些CIS强化镜像预先配置了
    的头像 发表于 02-21 16:36 726次阅读

    浅谈适用规模充电站的深度学习有序充电策略

    深度强化学习能够有效计及电动汽车出行模式和充电需求的不确定性,实现充电场站充电成本化的目标。通过对电动汽车泊车时间和充电需求特征进行提取,建立适用于大规模电动汽车有序充电的马尔可夫决策过程模型,并
    的头像 发表于 02-08 15:00 814次阅读
    浅谈适用规模充电站的深度<b class='flag-5'>学习</b>有序充电策略