0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌、DeepMind重磅推出PlaNet 强化学习新突破

DPVg_AI_era 来源:cc 2019-02-17 09:30 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

Google AI 与 DeepMind 合作推出深度规划网络 (PlaNet),这是一个纯粹基于模型的智能体,能从图像输入中学习世界模型,完成多项规划任务,数据效率平均提升50倍,强化学习又一突破。

通过强化学习 (RL),对 AI 智能体如何随着时间的推移提高决策能力的研究进展迅速。

对于强化学习,智能体在选择动作 (例如,运动命令) 时会观察一系列感官输入(例如,相机图像),并且有时会因为达成指定目标而获得奖励。

RL 的无模型方法 (Model-free) 旨在通过感官观察直接预测良好的行为,这种方法使 DeepMind 的 DQN 能够玩雅达利游戏,使其他智能体能够控制机器人

然而,这是一种黑盒方法,通常需要经过数周的模拟交互才能通过反复试验来学习,这限制了它在实践中的有效性。

相反,基于模型的 RL 方法 (Model-basedRL) 试图让智能体了解整个世界的行为。这种方法不是直接将观察结果映射到行动,而是允许 agent 明确地提前计划,通过 “想象” 其长期结果来更仔细地选择行动。

Model-based 的方法已经取得了巨大的成功,包括 AlphaGo,它设想在已知游戏规则的虚拟棋盘上进行一系列的移动。然而,要在未知环境中利用规划(例如仅将像素作为输入来控制机器人),智能体必须从经验中学习规则或动态。

由于这种动态模型原则上允许更高的效率和自然的多任务学习,因此创建足够精确的模型以成功地进行规划是 RL 的长期目标。

为了推动这项研究挑战的进展,Google AI 与 DeepMind 合作,提出了深度规划网络 (Deep Planning Network, PlaNet),该智能体仅从图像输入中学习世界模型 (world model),并成功地利用它进行规划。

PlaNet 解决了各种基于图像的控制任务,在最终性能上可与先进的 model-free agent 竞争,同时平均数据效率提高了 5000%。研究团队将发布源代码供研究社区使用。

在 2000 次的尝试中,PlaNet 智能体学习解决了各种连续控制任务。以前的没有学习环境模型的智能体通常需要多 50 倍的尝试次数才能达到类似的性能。

PlaNet 的工作原理

简而言之,PlaNet 学习了给定图像输入的动态模型 (dynamics model),并有效地利用该模型进行规划,以收集新的经验。

与以前的图像规划方法不同,我们依赖于隐藏状态或潜在状态的紧凑序列。这被称为latent dynamics model:我们不是直接从一个图像到下一个图像地预测,而是预测未来的潜在状态。然后从相应的潜在状态生成每一步的图像和奖励。

通过这种方式压缩图像,agent 可以自动学习更抽象的表示,例如对象的位置和速度,这样就可以更容易地向前预测,而不需要沿途生成图像。

Learned Latent Dynamics Model:在 latent dynamics 模型中,利用编码器网络(灰色梯形) 将输入图像的信息集成到隐藏状态(绿色) 中。然后将隐藏状态向前投影,以预测未来的图像(蓝色梯形) 和奖励(蓝色矩形)。

为了学习一个精确的 latent dynamics 模型,我们提出了:

循环状态空间模型 (Recurrent State Space Model):一种具有确定性和随机性成分的 latent dynamics 模型,允许根据鲁棒规划的需要预测各种可能的未来,同时记住多个时间步长的信息。我们的实验表明这两个组件对于提高规划性能是至关重要的。

潜在超调目标 (Latent Overshooting Objective):我们通过在潜在空间中强制 one-step 和 multi-step 预测之间的一致性,将 latent dynamics 模型的标准训练目标推广到训练多步预测。这产生了一个快速和有效的目标,可以改善长期预测,并与任何潜在序列模型兼容。

虽然预测未来的图像允许我们教授模型,但编码和解码图像 (上图中的梯形) 需要大量的计算,这会减慢智能体的 planning 过程。然而,在紧凑的潜在状态空间中进行 planning 是很快的,因为我们只需要预测未来的 rewards 来评估一个动作序列,而不是预测图像。

例如,智能体可以想象球的位置和它到目标的距离在特定的动作中将如何变化,而不需要可视化场景。这允许我们在每次智能体选择一个动作时,将 10000 个想象的动作序列与一个大的 batch size 进行比较。然后执行找到的最佳序列的第一个动作,并在下一步重新规划。

在潜在空间中进行规划:为了进行规划,我们将过去的图像 (灰色梯形) 编码为当前的隐藏状态 (绿色)。这样,我们可以有效地预测多个动作序列的未来奖励。请注意,上图中昂贵的图像解码器 (蓝色梯形) 已经消失了。然后,执行找到的最佳序列的第一个操作 (红色框)。

与我们之前关于世界模型的工作 (https://worldmodels.github.io/) 相比,PlaNet 在没有策略网络的情况下工作 —— 它纯粹通过 planning 来选择行动,因此它可以从模型当下的改进中获益。有关技术细节,请参阅我们的研究论文。

PlaNet vs. Model-Free 方法

我们在连续控制任务上评估了 PlaNet。智能体只被输入图像观察和奖励。我们考虑了具有各种不同挑战的任务:

侧手翻任务:带有一个固定的摄像头,这样推车可以移动到视线之外。因此,智能体必须吸收并记住多个帧的信息。

手指旋转任务:需要预测两个单独的对象,以及它们之间的交互。

猎豹跑步任务:包括难以准确预测的地面接触,要求模型预测多个可能的未来。

杯子接球任务:它只在球被接住时提供一个稀疏的奖励信号。这要求准确预测很远的未来,并规划一个精确的动作序列。

走路任务:模拟机器人一开始是躺在地上,然后它必须先学会站立,再学习行走。

PlaNet 智能体接受了各种基于图像的控制任务的训练。动图显示了当智能体解决任务时输入的图像。这些任务提出了不同的挑战:部分可观察性、与地面的接触、接球的稀疏奖励,以及控制一个具有挑战性的双足机器人。

这一研究是第一个使用学习模型进行规划,并在基于图像的任务上优于 model-free 方法的案例。

下表将PlaNet与著名的A3C 智能体和 D4PG 智能体进行了比较,后者结合了 model-free RL 的最新进展。这些基线数据来自 DeepMind 控制套件。PlaNet 在所有任务上都明显优于 A3C,最终性能接近 D4PG,同时与环境的交互平均减少了 5000%。

所有任务只需要一个智能体

此外,我们只训练了一个单一的 PlaNet 智能体来解决所有六个任务。

在不知道任务的情况下,智能体被随机放置在不同的环境中,因此它需要通过观察图像来推断任务。

在不改变超参数的情况下,多任务智能体实现了与单个智能体相同的平均性能。虽然在侧手翻任务中学习速度较慢,但在需要探索的具有挑战性的步行任务中,它的学习速度要快得多,最终表现也更好。

在多个任务上训练的 PlaNet 智能体。智能体观察前 5 个帧作为上下文以推断任务和状态,并在给定动作序列的情况下提前准确地预测 50 个步骤。

结论

我们的结果展示了构建自主 RL 智能体的学习动态模型的前景。我们鼓励进一步的研究,集中在学习更困难的任务的精确动态模型,如三维环境和真实的机器人任务。扩大规模的一个可能因素是 TPU 的处理能力。我们对 model-based 强化学习带来的可能性感到兴奋,包括多任务学习、分层规划和使用不确定性估计的主动探索。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6259

    浏览量

    111990
  • 强化学习
    +关注

    关注

    4

    文章

    274

    浏览量

    12000
  • DeepMind
    +关注

    关注

    0

    文章

    131

    浏览量

    12438

原文标题:一个智能体打天下:谷歌、DeepMind重磅推出PlaNet,数据效率提升50倍

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Momenta R7强化学习世界模型实现量产首发

    等话题展开深度对话,正式宣布Momenta R7强化学习世界模型实现量产首发,标志着智能驾驶从“看见世界”到“理解世界”的全新跨越,物理AI正式从技术理念走向规模化量产落地。
    的头像 发表于 04-29 15:44 627次阅读

    Momenta R7强化学习世界模型助力上汽大众ID. ERA 9X正式上市

    2026年4月25日,上汽大众全新旗舰SUV ID. ERA 9X于2026北京国际汽车展览会期间正式上市,并将全球首发搭载Momenta R7强化学习世界模型。这意味着Momenta R7率先在全球强化学习+世界模型方向上取得量产突破
    的头像 发表于 04-29 15:42 595次阅读

    上汽奥迪E5 Sportback车型升级搭载全新Momenta强化学习大模型

    近日,上汽奥迪宣布旗下 E5 Sportback 车型升级搭载 全新Momenta 强化学习大模型。
    的头像 发表于 04-09 09:33 227次阅读

    上汽大众ID. ERA 9X全球首发搭载Momenta R7强化学习世界模型

    3月30日,Momenta R7强化学习世界模型全球首发搭载车型——上汽大众ID. ERA 9X正式开启预售。
    的头像 发表于 03-31 13:48 400次阅读

    Momenta R6强化学习大模型上车东风日产NX8

    3月20日,东风日产NX8技术暨预售发布会在广州举办,官宣Momenta R6强化学习大模型正式上车东风日产新能源SUV——NX8。以全球顶级大厂合力,融合先锋科技力量,打造更适配全家出行的智能SUV,开启合资品牌智能化全新赛道。
    的头像 发表于 03-24 09:08 865次阅读

    Momenta强化学习大模型助力别克至境世家纯电版正式上市

    3月17日,别克至境世家纯电版正式上市,这是别克与Momenta强化学习大模型的又一次深度联手。融合别克在MPV市场深耕27年的技术积淀,以更从容的智慧驾控,重新定义豪华与自在的出行体验。
    的头像 发表于 03-18 15:48 327次阅读

    Momenta R7强化学习世界模型即将推出

    3月16日,上汽大众举办以“人本科技”为主题的ID. ERA技术发布会,首次揭晓了ID. ERA 系列包括智能辅助驾驶在内的诸多核心技术亮点。会上,Momenta CEO曹旭东正式宣布:Momenta R7强化学习世界模型即将推出,并将全球首发搭载于上汽大众全新旗舰SUV
    的头像 发表于 03-17 13:57 1237次阅读

    自动驾驶中常提的离线强化学习是什么?

    [首发于智驾最前沿微信公众号]在之前谈及自动驾驶模型学习时,详细聊过强化学习的作用,由于强化学习能让大模型通过交互学到策略,不需要固定的规则,从而给自动驾驶的落地创造了更多可能。 强化学习
    的头像 发表于 02-07 09:21 364次阅读
    自动驾驶中常提的离线<b class='flag-5'>强化学习</b>是什么?

    强化学习会让自动驾驶模型学习更快吗?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶大模型训练时,有的技术方案会采用模仿学习,而有些会采用强化学习。同样作为大模型的训练方式,强化学习有何不同?又有什么特点呢? 什么是强化学习
    的头像 发表于 01-31 09:34 841次阅读
    <b class='flag-5'>强化学习</b>会让自动驾驶模型<b class='flag-5'>学习</b>更快吗?

    多智能体强化学习(MARL)核心概念与算法概览

    训练单个RL智能体的过程非常简单,那么我们现在换一个场景,同时训练五个智能体,而且每个都有自己的目标、只能看到部分信息,还能互相帮忙。这就是多智能体强化学习
    的头像 发表于 01-21 16:21 333次阅读
    多智能体<b class='flag-5'>强化学习</b>(MARL)核心概念与算法概览

    上汽别克至境E7首发搭载Momenta R6强化学习大模型

    别克至境家族迎来新成员——大五座智能SUV别克至境E7首发。新车将搭载Momenta R6强化学习大模型,带来全场景的智能出行体验。
    的头像 发表于 01-12 16:23 509次阅读

    今日看点:智元推出真机强化学习;美国软件公司SAS退出中国市场

    智元推出真机强化学习,机器人训练周期从“数周”减至“数十分钟”   近日,智元机器人宣布其研发的真机强化学习技术,已在与龙旗科技合作的验证产线中成功落地。据介绍,此次落地的真机强化学习
    发表于 11-05 09:44 1166次阅读

    自动驾驶中常提的“强化学习”是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,有些方案中会提到“强化学习(Reinforcement Learning,简称RL)”,强化学习是一类让机器通过试错来学会做决策的技术。简单理解
    的头像 发表于 10-23 09:00 905次阅读
    自动驾驶中常提的“<b class='flag-5'>强化学习</b>”是个啥?

    谷歌DeepMind重磅发布Genie 3,首次实现世界模型实时交互

    电子发烧友网综合报道 当地时间2025年8月5日,谷歌DeepMind正式推出第三代通用世界模型Genie3。这款被英伟达科学家Jim Fan誉为“游戏引擎2.0”的模型,通过单文本提示即可生成实时
    的头像 发表于 08-13 08:27 7197次阅读

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一个适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习(在尝试和错误中进行学习),为所有机器
    的头像 发表于 07-14 15:29 2658次阅读
    NVIDIA Isaac Lab可用环境与<b class='flag-5'>强化学习</b>脚本使用指南