0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种利用任何形式的先验策略来改进初始化强化学习任务的探索的方法

倩倩 来源:AI前线 作者:谷歌 AI 2022-09-06 14:20 次阅读

强化学习可以用于训练一种策略,使其能够在试错的情况下来完成任务,但强化学习面临的最大挑战就是,如何在具有艰难探索挑战的环境中从头学习策略。比如,考虑到 adroit manipulation 套件中的 door-binary-v0 环境所描述的设置,其中强化学习智能体必须在三维空间中控制一只手来打开放在它前面的门。

由于智能体没有收到任何中间奖励,它无法衡量自己离完成任务有多远,所以只能在空间里随机探索,直至门被打开为止。鉴于这项任务所需的时间以及对其进行精准的控制,这种可能性微乎其微。

对于这样的任务,我们可以通过使用先验信息来规避对状态空间的随机探索。这种先验信息有助于智能体了解环境的哪些状态是好的,应该进一步探索。

我们可以利用离线数据(即由人类演示者、脚本策略或其他强化学习智能体收集的数据),对策略进行训练,并将之用于初始化新的强化学习策略。如果采用神经网络来表达策略,则需要将预训练好的神经网络复制到新的强化学习策略中。这一过程使得新的强化学习策略看起来就像是预训练好的。但是,用这种幼稚的方式来进行新的强化学习通常是行不通的,尤其是基于值的强化学习方法,如下所示。

7ca49590-2da6-11ed-ba43-dac502259ad0.jpg

用离线数据在 antmaze-large-diverse-v0 D4RL 环境中对一种策略进行预训练(负向步骤对应预训练)。然后,我们使用该策略来初始化 actor-crittic 的微调(从第 0 步开始的正向步骤),以该预训练的策略作为初始 actor。crittic 是随机初始化的。由于未经训练的 critic 提供了一个糟糕的学习信号,并导致良好的初始策略被遗忘,所以 actor 的性能会立即下降,并且不会恢复。

有鉴于此,我们在“跳跃式强化学习”(Jump-Start Reinforcement Learning,JSRL)中,提出了一种可以利用任意一种与现存在的策略对任意一种强化学习算法进行初始化的元算法。

JSRL 在学习任务时采用了两种策略:一种是指导策略,另一种是探索策略。探索策略是一种强化学习策略,通过智能体从环境中收集的新经验进行在线训练,而指导策略是一种预先存在的任何形式的策略,在在线训练中不被更新。在这项研究中,我们关注的是指导策略从演示中学习的情景,但也可以使用许多其他类型的指导策略。JSRL 通过滚动指导策略创建了一个学习课程,然后由自我改进的探索策略跟进,其结果是与竞争性的 IL+RL 方法相比较或改进的性能。

JSRL 方法

指导策略可以采取任何形式:它可以是一种脚本化的策略,一种用于强化学习训练的策略,甚至是一个真人演示者。唯一的要求是,指导策略要合理(也就是优于随机探索),而且可以根据对环境的观察来选择行动。理想情况下,指导策略可以在环境中达到较差或中等的性能,但不能通过额外的微调来进一步改善自己。然后,JSRL 允许我们利用这个指导策略的进展,从而提到它的性能。

在训练开始时,我们将指导策略推出一个固定的步骤,使智能体更接近目标状态。然后,探索策略接手,继续在环境中行动以达到这些目标。随着探索策略性能的提高,我们逐渐减少指导策略的步骤,直到探索策略完全接管。这个过程为探索策略创建了一个起始状态的课程,这样在每个课程阶段,它只需要学习达到之前课程阶段的初始状态。

这个任务是让机械臂拿起蓝色木块。指导策略可以将机械臂移动到木块上,但不能将其拾起。它控制智能体,直到它抓住木块,然后由探索策略接管,最终学会拿起木块。随着探索策略的改进,指导策略对智能体的控制越来越少。

与 IL+RL 基线的比较

由于 JSRL 可以使用先前的策略来初始化强化学习,一个自然的比较是模仿和强化学习(IL+RL)方法,该方法在离线数据集上进行训练,然后用新的在线经验对预训练的策略进行微调。我们展示了 JSRL 在 D4RL 基准任务上与具有竞争力的 IL+RL 方法的比较情况。这些任务包括模拟机器人控制环境,以及来自人类演示者的离线数据集、计划者和其他学到的策略。在 D4RL 任务中,我们重点关注困难的蚂蚁迷宫和 adroit dexterous manipulation 环境。

7cbf5b14-2da6-11ed-ba43-dac502259ad0.jpg

对于每个实验,我们在一个离线数据集上进行训练,然后运行在线微调。我们与专门为每个环境设计的算法进行比较,这些算法包括 AWAC、IQL、CQL 和行为克隆。虽然 JSRL 可以与任何初始指导策略或微调算法结合使用,但我们使用我们最强大的基线——IQL,作为预训练的指导和微调。完整的 D4RL 数据集包括每个蚂蚁迷宫任务的一百万个离线转换。每个转换是一个格式序列(S, A, R, S'),它指定了智能体开始时的状态(S),智能体采取的行动(A),智能体收到的奖励(R),以及智能体在采取行动 A 后结束的状态(S')。

7cdc6a10-2da6-11ed-ba43-dac502259ad0.jpg

7cf95134-2da6-11ed-ba43-dac502259ad0.jpg

在 D4RL 基准套件的 antmaze-medium-diverse-v0 环境中的平均得分(最大值 =100)。即使在有限的离线转换的情况下,JSRL 也可以改进。

基于视觉的机器人任务

由于维度的限制,在复杂的任务中使用离线数据特别困难,比如基于视觉的机器人操纵。连续控制动作空间和基于像素的状态空间的高维度,给 IL+RL 方法带来了学习良好策略所需的数据量方面的扩展挑战。为了研究 JSRL 如何适应这种环境,我们重点研究了两个困难的仿生机器人操纵任务:无差别抓取(即,举起任何物体)和实例抓取(即,举起特定的目标物体)。

7d1396d4-2da6-11ed-ba43-dac502259ad0.jpg

一个仿生机械臂被放置在一张有各种类别物体的桌子前。当机械臂举起任何物体时,对于无差别的抓取任务,会给予稀疏的奖励。对于实例抓取任务,只有在抓取特定的目标物体时,才会给予稀疏的奖励。

我们将 JSRL 与能够扩展到复杂的基于视觉的机器人环境的方法进行比较,如 QT-Opt 和 AW-Opt。每种方法都可以获得相同的成功演示的离线数据集,并被允许运行多达 10 万步的在线微调。

在这些实验中,我们使用行为克隆作为指导策略,并将 JSRL 与 QT-Opt 相结合进行微调。QT-Opt+JSRL 的组合比其他所有方法改进得更快,同时获得了最高的成功率。

7d26259c-2da6-11ed-ba43-dac502259ad0.jpg

7d3ccca2-2da6-11ed-ba43-dac502259ad0.jpg

使用 2 千次成功演示,无差别和实例抓取环境的平均抓取成功率。

结语

我们提出了 JSRL,它是一种利用任何形式的先验策略来改进初始化强化学习任务的探索的方法。我们的算法通过在预先存在的指导策略中滚动,创建了一个学习课程,然后由自我改进的探索策略跟进。探索策略的工作被大大简化,因为它从更接近目标的状态开始探索。随着探索策略的改进,指导策略的影响也随之减弱,从而形成一个完全有能力的强化学习策略。在未来,我们计划将 JSRL 应用于 Sim2Real 等问题,并探索我们如何利用多种指导策略来训练强化学习智能体。

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4582

    浏览量

    99067
  • 智能体
    +关注

    关注

    1

    文章

    111

    浏览量

    10444
  • 强化学习
    +关注

    关注

    4

    文章

    260

    浏览量

    11122

原文标题:如何使用先验策略有效地初始化强化学习?

文章出处:【微信号:AI前线,微信公众号:AI前线】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    什么是强化学习

    强化学习是机器学习的方式之一,它与监督学习、无监督学习并列,是三种机器学习训练方法之一。 在围棋
    的头像 发表于 10-30 11:36 1932次阅读
    什么是<b class='flag-5'>强化学习</b>

    NeurIPS 2023 | 扩散模型解决多任务强化学习问题

    model 能否解决多任务强化学习问题呢?我们最近提出的一篇新工作——“Diffusion Model is an Effective Planner and Data
    的头像 发表于 10-02 10:45 469次阅读
    NeurIPS 2023 | 扩散模型解决多<b class='flag-5'>任务</b><b class='flag-5'>强化学习</b>问题

    如何通过CubeMX初始化个以太网工程

    STM32F769I-Discovery开发板上的LD1和LD2。 实验目的: 1. 学习如何通过CubeMX初始化个以太网工程。 2.
    发表于 09-11 07:56

    模拟矩阵在深度强化学习智能控制系统中的应用

    讯维模拟矩阵在深度强化学习智能控制系统中的应用主要是通过构建一个包含多种环境信息和动作空间的模拟矩阵,来模拟和预测深度强化学习智能控制系统在不同环境下的表现和效果,从而优化控制策略和提高系统的性能
    的头像 发表于 09-04 14:26 343次阅读
    模拟矩阵在深度<b class='flag-5'>强化学习</b>智能控制系统中的应用

    N32903的ADC模块以一种时钟频率初始化后,能切换成另外一种时钟频率吗?

    N32903的ADC模块以一种时钟频率初始化后,能切换成另外一种时钟频率吗? 最近有个应用:条码打印机。 在检测纸张的类型和尺寸的时候,希望ADC模块工作在500KHz左右;
    发表于 09-01 06:56

    语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路

    体的发展,从最早的 AlphaGo、AlphaZero 到后来的多模态、多任务、多具身 AI 智能体 Gato,智能体的训练方法和能力都在不断演进。 从中不难发现,随着大模型越来越成为人工智能发展的主流趋势,DeepMind 在智能体的开发中不断尝试将
    的头像 发表于 07-24 16:55 345次阅读
    语言模型做<b class='flag-5'>先验</b>,统一<b class='flag-5'>强化学习</b>智能体,DeepMind选择走这条通用AI之路

    基于强化学习的目标检测算法案例

    强化学习的目标检测算法。首先,深度强化学习agent根据初始候选区域所提取的信息决定相应搜索行动,根据行动选择下一个逼近真实目标的候选区域;然后,重复上述过程,直至agent能确定当前区域为目标区域时终止搜索过程;最后,
    发表于 07-19 14:35 0次下载

    什么是深度强化学习?深度强化学习算法应用分析

    什么是深度强化学习? 众所周知,人类擅长解决各种挑战性的问题,从低级的运动控制(如:步行、跑步、打网球)到高级的认知任务
    发表于 07-01 10:29 1204次阅读
    什么是深度<b class='flag-5'>强化学习</b>?深度<b class='flag-5'>强化学习</b>算法应用分析

    人工智能强化学习开源分享

    电子发烧友网站提供《人工智能强化学习开源分享.zip》资料免费下载
    发表于 06-20 09:27 1次下载
    人工智能<b class='flag-5'>强化学习</b>开源分享

    利用强化学习探索更优排序算法的AI系统

    前言 DeepMind 最近在 Nature 发表了一篇论文 AlphaDev[2, 3],一个利用强化学习探索更优排序算法的AI系统。 AlphaDev 系统直接从 CPU 汇编指令的层面入手
    的头像 发表于 06-19 10:49 413次阅读
    <b class='flag-5'>利用</b><b class='flag-5'>强化学习</b>来<b class='flag-5'>探索</b>更优排序算法的AI系统

    N32903的ADC模块以一种时钟频率初始化后,能切换成另外一种时钟频率吗?

    N32903的ADC模块以一种时钟频率初始化后,能切换成另外一种时钟频率吗? 最近有个应用:条码打印机。 在检测纸张的类型和尺寸的时候,希望ADC模块工作在500KHz左右;
    发表于 06-13 08:50

    ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

    大模型时代,模型压缩和加速显得尤为重要。传统监督学习可通过稀疏神经网络实现模型压缩和加速,那么同样需要大量计算开销的强化学习任务可以基于稀疏网络进行训练吗?本文提出了一种
    的头像 发表于 06-11 21:40 422次阅读
    ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出<b class='flag-5'>强化学习</b>专用稀疏训练框架RLx2

    彻底改变算法交易:强化学习的力量

    强化学习(RL)是人工智能的一个子领域,专注于决策过程。与其他形式的机器学习相比,强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来
    发表于 06-09 09:23 381次阅读

    CPU CACHE策略初始化

    build_mem_type_table()函数的功能是获取当前CPU的CACHE类型,据此初始化mem_type。
    的头像 发表于 06-05 15:03 912次阅读
    CPU CACHE<b class='flag-5'>策略</b>的<b class='flag-5'>初始化</b>

    基于多智能体深度强化学习的体系任务分配方法

    为了应对在未来复杂的战场环境下,由于通信受限等原因导致的集中式决策模式难以实施的情况,提出了一个基于多智能体深度强化学习方法的分布式作战体系任务分配算法,该算法为各作战单元均设计一个独立的策略网络
    的头像 发表于 05-18 16:46 2816次阅读
    基于多智能体深度<b class='flag-5'>强化学习</b>的体系<b class='flag-5'>任务分配方法</b>