0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌推出新的基于Tensorflow的强化学习框架,称为Dopamine

DPVg_AI_era 来源:未知 作者:李倩 2018-08-31 09:20 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

今天,谷歌宣布推出一个新的基于Tensorflow的强化学习框架,称为Dopamine,旨在为强化学习研究人员提供灵活性、稳定性和可重复性。这个强大的新框架或将推动强化学习研究取得根本性的新突破。

最近OpenAI在Dota 2上的表现,让强化学习又大大地火了一把,但是OpenAI的强化学习训练环境OpenAI Gym却一直遭到不少抱怨,比如不太稳定、更新没有及时……

今天,谷歌宣布开源基于TensorFlow的强化学习框架——Dopamine,代码现在就能在Github查看。

谷歌研究人员表示,他们开源的这个TensorFlow强化学习框架强调三点:灵活、稳定和可重复性(reproducibility)。

为此,配套开源的还包括一个专用于视频游戏训练结果的平台,以及四种不同的机器学习模型:DQN、C51、简化版的Rainbow智能体和IQN(Implicit Quantile Network)。

为了实现可重复性,Github代码包括Arcade Learning Environment支持的全部60个游戏的完整测试和训练代码,并遵循标准化经验评估结果的最佳实践。

除了开源这个增强学习框架,谷歌还推出了一个网站,允许开发人员将多个训练中智能体的运行情况快速可视化。其他还有训练好的模型、原始统计日志和TensorFlow event files,用于TensorBoard动态图的绘制。

Dopamine框架:灵感来自大脑的多巴胺受体

强化学习(RL)研究在过去几年取得了许多重大进展。强化学习的进步使得AI智能体能够在一些游戏上超过人类,值得关注的例子包括DeepMind攻破Atari游戏的DQN,在围棋中获得瞩目的AlphaGo和AlphaGo Zero,以及在Dota2对战人类职业玩家的Open AI Five。

具体来说,在DQN中引入重放记忆(replay memories)可以利用先前agent的经验,大规模的分布式训练可以在多个workers之间分配学习过程,分布式的方法允许agent建模完整的分布,而不仅仅是建模它们的期望值,从而能够学习更完整的世界。

这类进展非常重要,因为产生这些进展的算法也适用于其他领域,例如机器人技术。

通常,实现这类进展需要快速的迭代设计——通常没有明确的方向——并破坏既定方法的结构。然而,大多数现有的RL框架不能同时提供灵活性和稳定性,研究人员难以有效地迭代RL方法,进而探索新的研究方向,虽然这些新研究方向可能不会立即带来明显的好处。此外,从现有框架中复制结果常常太耗时,这可能导致后续的科学再现性问题。

今天,谷歌宣布推出一个新的基于Tensorflow的框架,称为Dopamine,旨在为RL研究人员提供灵活性、稳定性和可重复性。

这个平台的灵感来自于大脑中奖励动机行为的主要组成部分之一(多巴胺受体,dopamine receptor),这反映了神经科学和强化学习研究之间强大的历史联系,它的目的是使这种推测性的研究能够推动根本性的发现。开源框架还包含一组colabs,说明如何使用这个框架。

易用性

清晰和简洁是这个框架设计中的两个关键考虑因素。谷歌提供了紧凑的代码(大约15个Python files),并且有详细的文档记录。这是通过专注于Arcade Learning环境(一个成熟的、易于理解的baseline)和4个value-based的agent来实现的,分别是:DQN, C51,Rainbow agent的一个简化版本,以及Implicit Quantile Network agent,这是上个月刚在ICML大会上发表的。这种简单性能帮助研究人员更容易理解agent的内部工作原理,并快速尝试新的想法。

可重复性

谷歌尤其重视强化学习研究的可重复性(reproducibility)。他们为代码提供了完整的测试覆盖率;这些测试还可以作为文档的附加形式。此外,他们的实验框架遵循Machado et al. (2018)给出的建议,使用街机学习环境(Arcade Learning Environment)进行标准化经验评估。

基准测试

对于新的研究人员来说,能够快速地将他们的想法与已有的方法进行对比是很重要的。因此,我们在Arcade Learning Environment支持的60款游戏中提供了4个agent的完整训练数据,这些数据可以作为Python pickle文件(用于通过我们的框架训练的agent)和JSON数据文件(用于与在其他框架中训练的agent进行比较);此外,谷歌还开放了一个网站,在上面可以快速地查看所有60款游戏提供的agent的可视化训练运行。

下图是4个agent在Seaquest上的训练,这是Arcade Learning Environment支持的Atari 2600游戏之一。

在Seaquest上,4个agent进行了训练。x轴表示迭代,其中每次迭代是100万帧(4.5小时的实时游戏); y轴表示每场游戏获得的平均分数。阴影区域显示了5次独立运行的置信区间。

谷歌还提供了来自这些agent的训练好的深度网络、原始统计日志以及用于使用Tensorboard绘图的Tensorflow事件文件。这些都可以在官网下载。

开源获取地址:

https://github.com/google/dopamine

其他主要强化学习框架

OpenAI Gym

2016 年 4 月 28 日,OpenAI 对外发布了强化学习开发平台 OpenAI Gym。Gym 平台的基本理念是,研究者建立自己的算法后,可以把该算法置于不同的环境中进行测试,然后把测试后的基本算法发布在 Gym 的平台上,让社区中的其他人看到。该平台现在已经与一些开放资源人工智能工具,例如谷歌的 TensorFlow 展开合作。

在OpenAI Gym上训练强化学习agent

OpenAI Gym 是一款用于研发和比较强化学习算法的工具包,它支持训练智能体(agent)做任何事——从行走到玩Pong或围棋之类的游戏,都在范围中。

OpenAI Universe

2016 年 12 月,OpenAI发布 OpenAI Universe。 根据其官方博客的介绍,这是一个能在几乎所有环境中衡量和训练 AI 通用智能水平的开源平台,当下的目标是让 AI 智能体能像人一样使用计算机。目前,Universe 已经有 1000 种训练环境,由微软、英伟达等公司参与建设。

Universe AI训练平台

Universe 通过一个通用的接口适用于各种场景:智能体通过捕捉屏幕的像素生成对键盘和鼠标的命令来操作远程桌面。场景需要 VNC 服务器,universe 库将智能体转换为 VNC 客户端。

OpenAI Gym Retro

这是OpenAI开源的用于游戏研究的完整版强化学习平台 Gym Retro,支持的游戏从大约 70 多个Atari游戏和 30 多个世嘉游戏扩展到各种仿真器支持的 1000 多个游戏。

Gym Retro支持1000多个游戏

Gym Retro 用于研究强化学习算法及其泛化。RL 之前的研究主要集中在优化 Agent 解决单个任务上。通过 Gym Retro,我们可以研究内部概念相似但外观表现不同的游戏之间泛化的能力。

DeepMind Lab

就在OpenAI 刚刚宣布开源 Universe平台后,DeepMind 也宣布将其 AI 核心平台 DeepMind Lab 开源。该平台将几个不同的 AI 研究领域整合至一个环境下,方便研究人员测试 AI 智能体的导航、记忆和 3D 成像等能力。

DeepMind Lab

DeepMind Lab 是一个专为基于智能体的 AI 研究设计的,完全像 3D 游戏般的平台。它从自己的视角,通过模拟智能体的眼睛进行观察。场景呈现的视觉效果是科幻风格。可用的操作能让智能体环顾四周,并且以 3D 的形式移动。示例任务包括收集水果、走迷宫、穿越危险的通道且要避免从悬崖上坠落、使用发射台在平台间穿越、玩激光笔、以及快速学习并记住随机生成的环境。

阿里Gym StarCraft

阿里去年开源了针对星际AI的研究平台Gym StarCraft。在 Gym StarCraft 中,AI 和强化学习研究者可以非常方便地使用 Python 语言来进行深度强化学习智能 Agent 的开发,它底层完成了对 TorchCraft 和 OpenAI Gym 的封装,支持基于 TensorFlow 和 Keras 等主流算法框架进行开发,仅需几十行代码即可完成一个基本的智能 Agent 的开发。

同时,为了便于评测智能 Agent 的有效性,Gym StarCraft 被集成在了 OpenAI Gym 这一主流的强化学习 AI 评测平台中,支持世界各地的星际 AI 研究者基于它去进行公平、快捷的效果评估。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6259

    浏览量

    111992
  • 强化学习
    +关注

    关注

    4

    文章

    274

    浏览量

    12002

原文标题:谷歌用“多巴胺”怼上OpenAI,开源TensorFlow强化学习框架

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Momenta R7强化学习世界模型实现量产首发

    等话题展开深度对话,正式宣布Momenta R7强化学习世界模型实现量产首发,标志着智能驾驶从“看见世界”到“理解世界”的全新跨越,物理AI正式从技术理念走向规模化量产落地。
    的头像 发表于 04-29 15:44 644次阅读

    Momenta R7强化学习世界模型助力上汽大众ID. ERA 9X正式上市

    2026年4月25日,上汽大众全新旗舰SUV ID. ERA 9X于2026北京国际汽车展览会期间正式上市,并将全球首发搭载Momenta R7强化学习世界模型。这意味着Momenta R7率先在全球强化学习+世界模型方向上取得量产突破——标志着物理AI上车。
    的头像 发表于 04-29 15:42 608次阅读

    上汽奥迪E5 Sportback车型升级搭载全新Momenta强化学习大模型

    近日,上汽奥迪宣布旗下 E5 Sportback 车型升级搭载 全新Momenta 强化学习大模型。
    的头像 发表于 04-09 09:33 235次阅读

    上汽大众ID. ERA 9X全球首发搭载Momenta R7强化学习世界模型

    3月30日,Momenta R7强化学习世界模型全球首发搭载车型——上汽大众ID. ERA 9X正式开启预售。
    的头像 发表于 03-31 13:48 403次阅读

    Momenta R6强化学习大模型上车东风日产NX8

    3月20日,东风日产NX8技术暨预售发布会在广州举办,官宣Momenta R6强化学习大模型正式上车东风日产新能源SUV——NX8。以全球顶级大厂合力,融合先锋科技力量,打造更适配全家出行的智能SUV,开启合资品牌智能化全新赛道。
    的头像 发表于 03-24 09:08 875次阅读

    Momenta强化学习大模型助力别克至境世家纯电版正式上市

    3月17日,别克至境世家纯电版正式上市,这是别克与Momenta强化学习大模型的又一次深度联手。融合别克在MPV市场深耕27年的技术积淀,以更从容的智慧驾控,重新定义豪华与自在的出行体验。
    的头像 发表于 03-18 15:48 337次阅读

    Momenta R7强化学习世界模型即将推出

    3月16日,上汽大众举办以“人本科技”为主题的ID. ERA技术发布会,首次揭晓了ID. ERA 系列包括智能辅助驾驶在内的诸多核心技术亮点。会上,Momenta CEO曹旭东正式宣布:Momenta R7强化学习世界模型即将推出,并将全球首发搭载于上汽大众全新旗舰SUV
    的头像 发表于 03-17 13:57 1248次阅读

    自动驾驶中常提的离线强化学习是什么?

    [首发于智驾最前沿微信公众号]在之前谈及自动驾驶模型学习时,详细聊过强化学习的作用,由于强化学习能让大模型通过交互学到策略,不需要固定的规则,从而给自动驾驶的落地创造了更多可能。 强化学习
    的头像 发表于 02-07 09:21 367次阅读
    自动驾驶中常提的离线<b class='flag-5'>强化学习</b>是什么?

    强化学习会让自动驾驶模型学习更快吗?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶大模型训练时,有的技术方案会采用模仿学习,而有些会采用强化学习。同样作为大模型的训练方式,强化学习有何不同?又有什么特点呢? 什么是强化学习
    的头像 发表于 01-31 09:34 847次阅读
    <b class='flag-5'>强化学习</b>会让自动驾驶模型<b class='flag-5'>学习</b>更快吗?

    多智能体强化学习(MARL)核心概念与算法概览

    训练单个RL智能体的过程非常简单,那么我们现在换一个场景,同时训练五个智能体,而且每个都有自己的目标、只能看到部分信息,还能互相帮忙。这就是多智能体强化学习
    的头像 发表于 01-21 16:21 340次阅读
    多智能体<b class='flag-5'>强化学习</b>(MARL)核心概念与算法概览

    上汽别克至境E7首发搭载Momenta R6强化学习大模型

    别克至境家族迎来新成员——大五座智能SUV别克至境E7首发。新车将搭载Momenta R6强化学习大模型,带来全场景的智能出行体验。
    的头像 发表于 01-12 16:23 521次阅读

    谷歌云发布最强自研TPU,性能比前代提升4倍

    精心设计,能够轻松处理从大型模型训练到实时聊天机器人运行以及AI智能体操作等各类复杂任务。   谷歌在新闻稿中着重强调,“Ironwood”是专为应对最严苛的工作负载而打造的。无论是大规模模型训练、复杂的强化学习(RL),还是高容量、低延迟的AI推理和模型服务,
    的头像 发表于 11-13 07:49 9038次阅读
    <b class='flag-5'>谷歌</b>云发布最强自研TPU,性能比前代提升4倍

    今日看点:智元推出真机强化学习;美国软件公司SAS退出中国市场

    智元推出真机强化学习,机器人训练周期从“数周”减至“数十分钟”   近日,智元机器人宣布其研发的真机强化学习技术,已在与龙旗科技合作的验证产线中成功落地。据介绍,此次落地的真机强化学习
    发表于 11-05 09:44 1172次阅读

    自动驾驶中常提的“强化学习”是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,有些方案中会提到“强化学习(Reinforcement Learning,简称RL)”,强化学习是一类让机器通过试错来学会做决策的技术。简单理解
    的头像 发表于 10-23 09:00 908次阅读
    自动驾驶中常提的“<b class='flag-5'>强化学习</b>”是个啥?

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一个适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习(在尝试和错误中进行
    的头像 发表于 07-14 15:29 2665次阅读
    NVIDIA Isaac Lab可用环境与<b class='flag-5'>强化学习</b>脚本使用指南