0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepMind开源了一个内部强化学习库TRFL

DPVg_AI_era 来源:未知 作者:李倩 2018-10-19 08:53 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今天,DeepMind开源了一个内部强化学习库TRFL,用于在TensorFlow中编写强化学习智能体。这个库包含DeepMind开发的大量成功的agent的关键算法组件,对于强化学习智能体的再现研究很有用。

今天,DeepMind开源了一个新的高效的构建模块库,用于在TensorFlow中编写强化学习(RL)智能体。这个库名为TRFL(发音为’truffle’),代表了DeepMind内部用于大量非常成功的agent的关键算法组件集合,如DQN,DDPG和IMPALA(Importance Weighted Actor Learner Architecture)。

一个典型的深度强化学习agent由大量的交互组件组成:至少包括环境(environment)和一些表示价值(value)或策略(policy)的深层网络,但它们通常也包括组件,例如环境的学习模型,伪奖励函数或replay系统。

这些组件通常以微妙的方式相互作用(通常没有在论文中详细记录),因此很难在如此庞大的计算图中识别错误。OpenAI最近发表的一篇博客文章通过分析强化学习智能体的一些最流行的开源实现,凸显了这个问题,他们发现10个实现中有6个“具有社区成员发现并被作者确认的小bug”。

解决这个问题的一种方法是通过开源的完整agent实现,帮助研究社区复现论文的结果。例如,我们最近发布了一种高度可扩展的分布式训练架构IMPALA,使用V-trace agent探索在单个智能体上完成多种任务的挑战。

这些大型agent代码库对于再现研究非常有用,但也很难修改和扩展。一种不同的、互补的方法是提供可靠的、经过良好测试的通用构建块实现,可以在各种不同的RL智能体中使用。此外,通过将这些核心组件抽象到单个库中,使用一致的API,可以更轻松地组合来自许多不同论文的创新想法。

TRFL库包含实现经典RL算法以及更前沿技术的许多函数。这里提供的损失函数和其他操作是在纯TensorFlow中实现的。它们不是完整的算法,而是在构建功能齐全的RL智能体时所需的特定于RL的数学运算实现。

对于value-based的强化学习,我们提供TensorFlow ops 用于在离散动作空间中学习,例如TD-learning,Sarsa, Q-learning及其变体,以及用于实现连续控制算法的操作,例如DPG。

TRFL库还包含用于学习分配价值函数的ops。这些ops支持批处理,并通过将其输入到TensorFlow Optimiser来返回可以最小化的损失。一些损失函数在批转换运行(例如Sarsa,Q-learning......),其他一些损失在多批轨迹上运行(例如Q lambda,Retrace,......)。

对于基于策略的方法,TRFL提供实用程序,可以轻松实现A2C等在线方法,以及支持off-policy纠正技术,如v-trace。TRFL还支持连续动作空间中的策略梯度计算。

最后,TRFL还提供了UNREAL使用的辅助伪奖励函数(pseudo-reward functions)的实现,我们发现它可以提高各个领域的数据效率。

这不是一次性的发布。由于TRFL库在DeepMind内部广泛使用,因此我们将继续维护它,并随着时间的推移添加新功能。我们也渴望得到更广泛的RL社区对这个库的贡献。

TRFL库由DeepMind研究工程团队创建。

开源获取地址:

https://github.com/deepmind/trfl

开源代码

安装

可以使用以下命令从github直接从pip安装TRFL:pip install git+git://github.com/deepmind/trfl.git

TRFL同时适用于TensorFlow的CPUGPU版本,但它没有将Tensorflow列为一个requirement,因此你需要单独安装Tensorflow和Tensorflow-probability。

用例

loss是代表损失的张量。对于Q-learning,它是预测的Q-values和TD targets之间的平方差的一半。

额外信息位于q_learning命名元组中,包括q_learning.td_error和q_learning.target。

大多数情况下,你可能只对loss感兴趣:

该模块中的所有损失函数使用上述约定返回损失张量和额外信息。

不同的函数可能有不同的额外字段。有关更多信息,请查看每个函数的文档。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 智能体
    +关注

    关注

    1

    文章

    556

    浏览量

    11646
  • 强化学习
    +关注

    关注

    4

    文章

    273

    浏览量

    11997
  • DeepMind
    +关注

    关注

    0

    文章

    131

    浏览量

    12435

原文标题:DeepMind开源强化学习库TRFL,关键算法可编写RL智能体

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    上汽奥迪E5 Sportback车型升级搭载全新Momenta强化学习大模型

    近日,上汽奥迪宣布旗下 E5 Sportback 车型升级搭载 全新Momenta 强化学习大模型。
    的头像 发表于 04-09 09:33 193次阅读

    摩尔线程正式开源MuJoCo Warp MUSA

    3月30日,摩尔线程正式开源MuJoCo Warp MUSA。这是具身智能领域首个基于MUSA架构的全功能GPU加速物理仿真后端,补齐国产算力在强化学习仿真训练底层生态中的关键环。
    的头像 发表于 04-01 10:40 2251次阅读
    摩尔线程正式<b class='flag-5'>开源</b>MuJoCo Warp MUSA

    上汽大众ID. ERA 9X全球首发搭载Momenta R7强化学习世界模型

    3月30日,Momenta R7强化学习世界模型全球首发搭载车型——上汽大众ID. ERA 9X正式开启预售。
    的头像 发表于 03-31 13:48 362次阅读

    NVIDIA携手Google DeepMind与EMBL发布全球最大蛋白质复合物数据集

    进行了大规模扩展,为可搜索数据新增 170 万高置信度预测的蛋白质复合物,并提供约 3000 万额外预测结构供批量下载。
    的头像 发表于 03-25 09:39 313次阅读

    Momenta R6强化学习大模型上车东风日产NX8

    3月20日,东风日产NX8技术暨预售发布会在广州举办,官宣Momenta R6强化学习大模型正式上车东风日产新能源SUV——NX8。以全球顶级大厂合力,融合先锋科技力量,打造更适配全家出行的智能SUV,开启合资品牌智能化全新赛道。
    的头像 发表于 03-24 09:08 828次阅读

    Momenta强化学习大模型助力别克至境世家纯电版正式上市

    3月17日,别克至境世家纯电版正式上市,这是别克与Momenta强化学习大模型的又次深度联手。融合别克在MPV市场深耕27年的技术积淀,以更从容的智慧驾控,重新定义豪华与自在的出行体验。
    的头像 发表于 03-18 15:48 311次阅读

    Momenta R7强化学习世界模型即将推出

    3月16日,上汽大众举办以“人本科技”为主题的ID. ERA技术发布会,首次揭晓ID. ERA 系列包括智能辅助驾驶在内的诸多核心技术亮点。会上,Momenta CEO曹旭东正式宣布:Momenta R7强化学习世界模型即将推出,并将全球首发搭载于上汽大众全新旗舰SUV
    的头像 发表于 03-17 13:57 1192次阅读

    自动驾驶中常提的离线强化学习是什么?

    [首发于智驾最前沿微信公众号]在之前谈及自动驾驶模型学习时,详细聊过强化学习的作用,由于强化学习能让大模型通过交互学到策略,不需要固定的规则,从而给自动驾驶的落地创造更多可能。
    的头像 发表于 02-07 09:21 352次阅读
    自动驾驶中常提的离线<b class='flag-5'>强化学习</b>是什么?

    强化学习会让自动驾驶模型学习更快吗?

    种让机器通过“试错”学会决策的办法。与监督学习不同,监督学习是有人提供示范答案,让模型去模仿;而强化学习不会把每步的“正确答案”都告诉
    的头像 发表于 01-31 09:34 828次阅读
    <b class='flag-5'>强化学习</b>会让自动驾驶模型<b class='flag-5'>学习</b>更快吗?

    多智能体强化学习(MARL)核心概念与算法概览

    训练单个RL智能体的过程非常简单,那么我们现在换一个场景,同时训练五智能体,而且每个都有自己的目标、只能看到部分信息,还能互相帮忙。这就是多智能体强化学习
    的头像 发表于 01-21 16:21 327次阅读
    多智能体<b class='flag-5'>强化学习</b>(MARL)核心概念与算法概览

    上汽别克至境E7首发搭载Momenta R6强化学习大模型

    别克至境家族迎来新成员——大五座智能SUV别克至境E7首发。新车将搭载Momenta R6强化学习大模型,带来全场景的智能出行体验。
    的头像 发表于 01-12 16:23 494次阅读

    今日看点:智元推出真机强化学习;美国软件公司SAS退出中国市场

    智元推出真机强化学习,机器人训练周期从“数周”减至“数十分钟”   近日,智元机器人宣布其研发的真机强化学习技术,已在与龙旗科技合作的验证产线中成功落地。据介绍,此次落地的真机强化学习方案,机器人
    发表于 11-05 09:44 1157次阅读

    自动驾驶中常提的“强化学习”是啥?

    下,就是智能体在环境里行动,它能观察到环境的些信息,并做出动作,然后环境会给出
    的头像 发表于 10-23 09:00 884次阅读
    自动驾驶中常提的“<b class='flag-5'>强化学习</b>”是<b class='flag-5'>个</b>啥?

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是适用于机器人学习开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和
    的头像 发表于 07-14 15:29 2616次阅读
    NVIDIA Isaac Lab可用环境与<b class='flag-5'>强化学习</b>脚本使用指南

    开源电机驱动,免费直播学习!

    开源电机驱动,免费直播学习!
    的头像 发表于 06-13 10:07 2012次阅读
    <b class='flag-5'>开源</b>电机驱动,免费直播<b class='flag-5'>学习</b>!