DeepMind提出强化学习新算法，教智能体从零学控制-电子发烧友网

这在真实环境中成功让机械臂从头开始学习拾放物体。SAC-X 是基于从头开始学习复杂的任务这种想法，即一个智能体首先应该学习并掌握一套基本技能。就像婴儿在爬行或走路前必须具有协调能力和平衡能力，为智能体提供与简单技能相对应的内在目标（具有辅助作用），这会增加它理解和执行更复杂任务的可能性。

研究者认为，SAC-X是一种通用的强化学习方法，未来可以应用于机器人以外的更广泛领域。

不管你让小孩还是大人整理物品，他们很大可能都不会乖乖听你的话，如果想要让 AI 智能体进行整理收拾，那就更难了。如果想成功，需要掌握如下几个核心视觉运动技能：接近物体，抓住并举起它，打开盒子，把物体放进去。而更复杂的是，执行这些技能时，必须按照正确的顺序。

对于一些控制类的任务，比如整理桌面或堆叠物体，智能体需要在协调它的模拟手臂和手指的九个关节时，做到三个 W，即如何（how），何时（when）以及在哪里（where），以便正确地移动，最终完成任务。

在任何给定的时间内，需要明确各种可能的运动组合的数量，以及执行一长串正确动作，这些需求引申出一个严肃的问题，这成为强化学习中一个特别有趣的研究领域。

诸如奖赏塑形（reward shaping）、学徒学习（Apprenticeship learning）或从演示中学习（Learning from Demonstration）等技术可以帮助解决这个问题。然而，这些方法依赖于大量与任务相关的知识，而从零开始，通过最少的预先知识学习复杂的控制问题仍然是一个众所周知的挑战。

我们最近的论文提出了一种新的学习范式，叫做「调度辅助控制」（Scheduled Auxiliary Control (SAC-X)），我们试图通过这种学习范式来克服这个问题。

SAC-X 是基于从头开始学习复杂的任务这种想法，即一个智能体首先应该学习并掌握一套基本技能。就像婴儿在爬行或走路前必须具有协调能力和平衡能力，为智能体提供与简单技能相对应的内在目标（具有辅助作用），这会增加它理解和执行更复杂任务的可能性。

我们在几个模拟和真实的机器人任务中演示了 SAC-X 法，包括不同物体的堆叠，将物体放到盒子里。我们定义的辅助任务遵循一般原则：鼓励智能体探索其感应空间。

例如，激活手指上的触觉传感器，感知手腕的力度，利用本体感应器将关节角度调到最大，在视觉传感器范围内强制性移动物体。对于每个任务，如果实现目标，会提供相应的简单奖励。没实现目标的话，奖励为零。

智能体首先学习激活手指上的触觉传感器，然后移动物体

模拟智能体最终掌握复杂的堆叠任务

智能体接下来可以自行决定其当前的「意图」，例如下一步做什么。可能会是一个辅助任务或者是外部定义的目标任务。至关重要的是，对于目前还没有使用基于回放的离策略学习方法的任务，该代理可以从奖励信号中发现和学习。例如，当拾取或移动一个物体时，智能体可能会偶然地将物体堆叠起来，观察到「堆叠奖励」。一系列简单的任务会让智能体观察到罕见的外部奖励，所以让智能体具有安排意图的能力至关重要。

基于收集到的所有的间接知识，智能体会建立一个个性化的学习课程。在如此大的领域中，通过这种方法来利用知识非常高效，在只有很少的外部奖励信号的情况下尤其有用。

通过调度模块，智能体会决定接下来的意图。利用元学习算法，调度器会在训练过程中得到改进，该算法试图最大限度地提高主任务的进程，进而显著提高数据效率。

在探索完许多内部辅助任务之后，智能体学会了如何堆叠和整理物品

评估表明，SAC-X 能够从零开始完成我们设置的所有任务，这些任务都是在相同的辅助任务集下完成的。令人兴奋的是，利用 SAC-X，我们实验室的机器人手臂能够成功地从零开始学习拾取和摆放。在过去这极具挑战性，因为在现实世界中让机器人学习需要高效的数据，所以流行的方法是预训练模拟智能体，然后再将这种能力转移到真正的机器人手臂中。

针对真实的机器人手臂， SAC-X 能学习如何举起和移动绿色的立方体，在此之前它从来没有接触过这类任务

我们认为 SAC-X 是通向从零学习控制任务的重要一步，只需定义好整体目标。SAC-X 允许任意定义辅助任务，这些任务可以基于一般的看法（如有意激活传感器），最终会涵盖研究人员认为重要的任务。从这方面来说，SAC-X 是一种通用的强化学习方法，可以广泛应用于控制和机器人领域之外的一般稀疏强化学习环境。

未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能，互联网和脑科学交叉研究机构。

未来智能实验室的主要工作包括：建立AI智能系统智商评测体系，开展世界人工智能智商评测；开展互联网（城市）云脑研究计划，构建互联网（城市）云脑技术和企业图谱，为提升企业，行业与城市的智能水平服务。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

算法

算法

+关注

关注
23

文章
4454

浏览量
90747
人工智能

人工智能

+关注

关注
1776

文章
43824

浏览量
230584

原文标题：DeepMind提出强化学习新算法，教智能体从零学控制

文章出处：【微信号：AItists，微信公众号：人工智能学家】欢迎添加关注！文章转载请注明出处。

什么是深度强化学习?深度强化学习算法应用分析

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务。

发表于 07-01 10:29 •1185次阅读

什么是深度<b class='flag-5'>强化学习</b>?深度<b class='flag-5'>强化学习</b><b class='flag-5'>算法</b>应用分析

未来的AI 深挖谷歌 DeepMind 和它背后的技术

的游戏可以提高战略思维能力。通过学习如何玩这些复杂的游戏，机器将获得思考和采取战略行动的能力。DeepMind的通用学习算法让机器可以通过游戏化学习

发表于 08-26 12:04

深度强化学习实战

测试)三、主讲内容1:课程一、强化学习简介课程二、强化学习基础课程三、深度强化学习基础课程四、多智能体深度

发表于 01-10 13:42

将深度学习和强化学习相结合的深度强化学习DRL

深度强化学习DRL自提出以来，已在理论和应用方面均取得了显著的成果。尤其是谷歌DeepMind团队基于深度强化学习DRL研发的AlphaGo，将深度

发表于 06-29 18:36 •2.8w次阅读

基于强化学习的MADDPG算法原理及实现

之前接触的强化学习算法都是单个智能体的强化学习算法，但是也有很多重要的应用场景牵涉到多个智能体之

发表于 11-02 16:18 •2.1w次阅读

谷歌、DeepMind重磅推出PlaNet 强化学习新突破

Google AI 与 DeepMind 合作推出深度规划网络 (PlaNet)，这是一个纯粹基于模型的智能体，能从图像输入中学习世界模型，完成多项规划任务，数据效率平均提升50倍，强化学习

发表于 02-17 09:30 •3071次阅读

懒惰强化学习算法在发电调控REG框架的应用

惰性是人类的天性，然而惰性能让人类无需过于复杂的练习就能学习某项技能，对于人工智能而言，是否可有基于惰性的快速学习的方法？本文提出一种懒惰强化学习

发表于 01-16 17:40 •778次阅读

DeepMind发布强化学习库RLax

RLax（发音为“ relax”）是建立在JAX之上的库，它公开了用于实施强化学习智能体的有用构建块。。报道：深度强化学习实验室作者：DeepRL ...

发表于 12-10 18:43 •524次阅读

机器学习中的无模型强化学习算法及研究综述

强化学习（ Reinforcement learning，RL）作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式，通过与环境进行

发表于 04-08 11:41 •11次下载

一种新型的多智能体深度强化学习算法

一种新型的多智能体深度强化学习算法

发表于 06-23 10:42 •36次下载

强化学习的基础知识和6种基本算法解释

定标记训练数据的情况下获得正确的输出无监督学习(UL)：关注在没有预先存在的标签的情况下发现数据中的模式 强化学习(RL) ：关注智能体在环境中如何采取行动以最大化累积奖励通俗地说，强化

发表于 12-20 14:00 •878次阅读

强化学习的基础知识和6种基本算法解释

的情况下获得正确的输出无监督学习(UL)：关注在没有预先存在的标签的情况下发现数据中的模式强化学习(RL)：关注智能体在环境中如何采取行动以最大化累积奖励通俗地说，强

发表于 01-05 14:54 •484次阅读

基于强化学习的目标检测算法案例

摘要：基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为，其产生的候选区域形状和尺寸变化单一，导致目标检测精确度较低。为此，在基于深度强化学习的视觉目标检测算法基础上，

发表于 07-19 14:35 •0次下载

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

在智能体的开发中，强化学习与大语言模型、视觉语言模型等基础模型的进一步融合究竟能擦出怎样的火花？谷歌 DeepMind 给了我们新的答案。一直以来，DeepMind 引领了

发表于 07-24 16:55 •331次阅读

模拟矩阵在深度强化学习智能控制系统中的应用

讯维模拟矩阵在深度强化学习智能控制系统中的应用主要是通过构建一个包含多种环境信息和动作空间的模拟矩阵，来模拟和预测深度强化学习智能

发表于 09-04 14:26 •327次阅读