0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepMind开源了一个内部强化学习库TRFL

DPVg_AI_era 来源:未知 作者:李倩 2018-10-19 08:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今天,DeepMind开源了一个内部强化学习库TRFL,用于在TensorFlow中编写强化学习智能体。这个库包含DeepMind开发的大量成功的agent的关键算法组件,对于强化学习智能体的再现研究很有用。

今天,DeepMind开源了一个新的高效的构建模块库,用于在TensorFlow中编写强化学习(RL)智能体。这个库名为TRFL(发音为’truffle’),代表了DeepMind内部用于大量非常成功的agent的关键算法组件集合,如DQN,DDPG和IMPALA(Importance Weighted Actor Learner Architecture)。

一个典型的深度强化学习agent由大量的交互组件组成:至少包括环境(environment)和一些表示价值(value)或策略(policy)的深层网络,但它们通常也包括组件,例如环境的学习模型,伪奖励函数或replay系统。

这些组件通常以微妙的方式相互作用(通常没有在论文中详细记录),因此很难在如此庞大的计算图中识别错误。OpenAI最近发表的一篇博客文章通过分析强化学习智能体的一些最流行的开源实现,凸显了这个问题,他们发现10个实现中有6个“具有社区成员发现并被作者确认的小bug”。

解决这个问题的一种方法是通过开源的完整agent实现,帮助研究社区复现论文的结果。例如,我们最近发布了一种高度可扩展的分布式训练架构IMPALA,使用V-trace agent探索在单个智能体上完成多种任务的挑战。

这些大型agent代码库对于再现研究非常有用,但也很难修改和扩展。一种不同的、互补的方法是提供可靠的、经过良好测试的通用构建块实现,可以在各种不同的RL智能体中使用。此外,通过将这些核心组件抽象到单个库中,使用一致的API,可以更轻松地组合来自许多不同论文的创新想法。

TRFL库包含实现经典RL算法以及更前沿技术的许多函数。这里提供的损失函数和其他操作是在纯TensorFlow中实现的。它们不是完整的算法,而是在构建功能齐全的RL智能体时所需的特定于RL的数学运算实现。

对于value-based的强化学习,我们提供TensorFlow ops 用于在离散动作空间中学习,例如TD-learning,Sarsa, Q-learning及其变体,以及用于实现连续控制算法的操作,例如DPG。

TRFL库还包含用于学习分配价值函数的ops。这些ops支持批处理,并通过将其输入到TensorFlow Optimiser来返回可以最小化的损失。一些损失函数在批转换运行(例如Sarsa,Q-learning......),其他一些损失在多批轨迹上运行(例如Q lambda,Retrace,......)。

对于基于策略的方法,TRFL提供实用程序,可以轻松实现A2C等在线方法,以及支持off-policy纠正技术,如v-trace。TRFL还支持连续动作空间中的策略梯度计算。

最后,TRFL还提供了UNREAL使用的辅助伪奖励函数(pseudo-reward functions)的实现,我们发现它可以提高各个领域的数据效率。

这不是一次性的发布。由于TRFL库在DeepMind内部广泛使用,因此我们将继续维护它,并随着时间的推移添加新功能。我们也渴望得到更广泛的RL社区对这个库的贡献。

TRFL库由DeepMind研究工程团队创建。

开源获取地址:

https://github.com/deepmind/trfl

开源代码

安装

可以使用以下命令从github直接从pip安装TRFL:pip install git+git://github.com/deepmind/trfl.git

TRFL同时适用于TensorFlow的CPUGPU版本,但它没有将Tensorflow列为一个requirement,因此你需要单独安装Tensorflow和Tensorflow-probability。

用例

loss是代表损失的张量。对于Q-learning,它是预测的Q-values和TD targets之间的平方差的一半。

额外信息位于q_learning命名元组中,包括q_learning.td_error和q_learning.target。

大多数情况下,你可能只对loss感兴趣:

该模块中的所有损失函数使用上述约定返回损失张量和额外信息。

不同的函数可能有不同的额外字段。有关更多信息,请查看每个函数的文档。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能体
    +关注

    关注

    1

    文章

    387

    浏览量

    11520
  • 强化学习
    +关注

    关注

    4

    文章

    269

    浏览量

    11901
  • DeepMind
    +关注

    关注

    0

    文章

    131

    浏览量

    12130

原文标题:DeepMind开源强化学习库TRFL,关键算法可编写RL智能体

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    今日看点:智元推出真机强化学习;美国软件公司SAS退出中国市场

    智元推出真机强化学习,机器人训练周期从“数周”减至“数十分钟”   近日,智元机器人宣布其研发的真机强化学习技术,已在与龙旗科技合作的验证产线中成功落地。据介绍,此次落地的真机强化学习方案,机器人
    发表于 11-05 09:44 893次阅读

    自动驾驶中常提的“强化学习”是啥?

    下,就是智能体在环境里行动,它能观察到环境的些信息,并做出动作,然后环境会给出
    的头像 发表于 10-23 09:00 324次阅读
    自动驾驶中常提的“<b class='flag-5'>强化学习</b>”是<b class='flag-5'>个</b>啥?

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是适用于机器人学习开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和
    的头像 发表于 07-14 15:29 1825次阅读
    NVIDIA Isaac Lab可用环境与<b class='flag-5'>强化学习</b>脚本使用指南

    开源电机驱动,免费直播学习!

    开源电机驱动,免费直播学习!
    的头像 发表于 06-13 10:07 1283次阅读
    <b class='flag-5'>开源</b>电机驱动,免费直播<b class='flag-5'>学习</b>!

    【书籍评测活动NO.62】本书读懂 DeepSeek 全家桶核心技术:DeepSeek 核心技术揭秘

    时的基本礼仪和清晰度; 第二次是在强化学习之后 ,收集在训练中表现优秀的解题示例,再混合些人工整理的题目,重新训练模型。通过这样的流程,DeepSeek-R1 就像经历
    发表于 06-09 14:38

    18常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现

    本来转自:DeepHubIMBA本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。为确保内容
    的头像 发表于 04-23 13:22 1300次阅读
    18<b class='flag-5'>个</b>常用的<b class='flag-5'>强化学习</b>算法整理:从基础方法到高级模型的理论技术与代码实现

    深度解读英伟达Newton机器人平台:技术革新与跨界生态构建

    的基础上,它使机器人能够学习如何以更高的精度处理复杂的任务,与MuJoCo Playground或 NVIDIA Isaac Lab 等学习框架兼容,这是
    的头像 发表于 03-20 15:15 2457次阅读
    深度解读英伟达Newton机器人平台:技术革新与跨界生态构建

    Open Echo:开源的声纳项目

    “  这是还在迭代中的项目。开源的回声测深仪/水深测量仪/声呐系统,适用于水文测绘及科研用途。基于Arduino平台开发并具备良好兼容性  ”   Open Echo 概览 作为持续迭代
    的头像 发表于 03-20 11:14 2014次阅读
    Open Echo:<b class='flag-5'>一</b><b class='flag-5'>个</b><b class='flag-5'>开源</b>的声纳项目

    开源啦!!!基于鸿蒙ArkTS封装的图表组件《McCharts》,大家快来起共创

    遥遥领先。作为位开发者,只是想奉献点自己的微薄之力,去帮助鸿蒙扩大开发社区生态 做开发这么久,大概八年,还没自己开创
    发表于 03-15 15:21

    开源项目!教你如何制作开源教育机械臂

    前言 我们的计划始于2016年,当时有简单的问题:我们如何让机器人和编程对每个人都可用? 是学习电子和编程的最佳工具之,但使用带有有线组件的试验板对初学者来说可能具有挑战性。为了
    发表于 03-10 11:22

    摩尔线程完成DeepSeek开源FlashMLA和DeepGEMM适配

    自DeepSeek启动“开源周”以来,已陆续开源代码。摩尔线程基于全新MUSA Compute Capability 3.1计算架构,可提供原生FP8计算能力,同时升级
    的头像 发表于 02-27 14:40 1102次阅读

    沐曦GPU跑通DeepSeek开源代码FlashMLA

    今日,DeepSeek正式启动"开源周"计划,首发代码FlashMLA开源即引发全网关注。截至发稿,该项目已在GitHub斩获超7.2K Star!
    的头像 发表于 02-25 16:25 1322次阅读

    详解RAD端到端强化学习后训练范式

    受限于算力和数据,大语言模型预训练的 scalinglaw 已经趋近于极限。DeepSeekR1/OpenAl01通过强化学习后训练涌现强大的推理能力,掀起新轮技术革新。
    的头像 发表于 02-25 14:06 1019次阅读
    详解RAD端到端<b class='flag-5'>强化学习</b>后训练范式

    AI开源模型有什么用

    AI开源模型作为推动AI技术发展的重要力量,正深刻改变着我们的生产生活方式。接下来,AI部落小编带您了解AI开源模型有什么用。
    的头像 发表于 02-24 11:50 883次阅读

    开源AI模型是干嘛的

    开源AI模型是指那些公开源代码、允许自由访问和使用的AI模型集合。这些模型通常经过训练,能够执行特定的任务。以下,是对开源AI模型的详细
    的头像 发表于 12-14 10:33 1288次阅读