一种基于模型的元强化学习算法用于提高快速适应性-电子发烧友网

人类具有适应环境变化的强大能力：我们可以迅速地学会住着拐杖走路、也可以在捡起位置物品时迅速地调整自己的力量输出，甚至小朋友在不同地面上行走都能轻松自如地切换自己的步态和行走模式。这样的适应能力对于在复杂多变的环境中生存活动十分重要。但这些看似是人类与生俱来的能力，机器人拼尽全力也未必能实现。

绝大部分的机器人都被部署在固定环境中重复执行固定的动作，但面对未知的全新情况机器人就会失效，甚至是运行环境的些许变化，比如一阵风来了、负载质量改变或意外的扰动都会给机器人带来难以处理的困难。为了缩小机器人与人类对于环境适应能力间的差距，研究人员认为机器人预测状态与实际观测状态间如果存在较大的误差，那么这个误差应该要引导机器人更新自身模型，以更好地描述当前状态，也就是快速的环境适应性。

有一个形象的例子来解释这种适应性，很多小伙伴在开车时，特别在北方的冬天都遇到过车辆侧滑的情况，驾驶员发现预测车的行驶状况与实际不符，本来该直走的车怎么横着开了！这时驾驶员就根据这个误差迅速调整自身操作来纠正车辆行驶状态。这个过程就是我们期望机器人能够学会的快速适应能力。

对于一个要面对错综复杂真实世界的机器人来说，从先前经验中迅速、灵活地调整自身状态和行为适应环境是十分重要的。为了实现这个目标，研究人员开发了一种基于模型的元强化学习算法用于提高快速适应性。先前的工作主要基于试错的方法和无模型的元强化学习方法来处理这一问题，而在本文的研究人员将这一问题拓展到了极端情况，机器人在面对新情况时需要实时在线、在几个时间周期内迅速完成适应，所以实现这一目标的难度可想而知。基于模型的元学习方法不像先前方法基于目标的奖励来优化，而是利用每一时刻预测与观测间的误差作为数据输入来处理模型。这种基于模型的方法使机器人在使用少量数据的情况下实现对环境的实时更新。

这一方法利用了最近的观测数据来对模型进行更新，但真正的挑战在于如何基于少量的数据对复杂、非线性、大容量的模型（例如神经网络）进行自适应控制。简单的随机梯度下降方法对于需要快速适应的方法效率很低，神经网络需要大量的数据来训练模型才能实现有效的更新。所以为了实现快速的自适应调整，研究人员提出了新的方法。首先利用自适应目标对进行（元）训练，而后在使用时利用少量的数据进行精细训练以实现快速适应性调整。在不同情况下训练出的元模型将学会如何去适应，机器人就可以利用元模型在每一个时间步长上进行适应性更新以处理当前所面对的环境，以实现快速在线适应的目标。

元训练

机器人的运动离不开对状态的估计。在任意时刻下我们都可以对当前状态St，施加一定的行为at，从而得到下一时刻的状态St+1，这一状态的变化主要由状态转移函数决定。在真实世界中，我们无法精确建立状态转移动力学过程，但可以利用学习到的动力学模型进行近似，这样就可以基于观测数据进行预测。上图中的规划器就可以利用这一估计的动力学模型来进行行为调整。在训练时模型会选取最近的（M+K）连续的数据点序列，首先利用M个数据来更新模型的权重，随后利用身下的K个点来优化跟新后的模型对于新状态的预测能力。模型的损失函数可以表达为在先前K个点上进行适应后，在未来K个点上的预测误差。这意味着训练模型可以利用邻近的数据点迅速调整权重使自身可以进行较好的动力学预测。

为了测试这种方法对于环境突变的适应能力，研究人员首先在仿真机器人系统中进行了实验。研究人员在相同扰动下的环境中多所有主体进行了元训练，而在主体从未见过的环境及变化中进行测试。下面的猎豹模型在随机浮动的扰动上进行训练，随后在水上浮动的情况下进行了测试，机器人展现了快速适应环境变化的能力。右图显示了在断腿的情况下机器人的适应性：

机器人面对环境变化后的适应能力，图中展示了基于模型的方法和基于在线自适应的方法

对于多足机器人来说，在不同腿配置的情况下进行了训练，而在不同腿部损伤情况下进行了测试。这种基于模型的元强化学习方法使得机器人具有快速适应能力，更多的比较测试详见文末论文。

硬件实验

为了更好地验证算法在真实世界中的有效性，研究人员使用了具有高度随机性和动力学特性微型6足机器人。

快速制造技术和多种定制化的设计，使得每一个机器人的动力学特性都独一无二。它的零部件性能会随着使用逐渐退化，同时也能在不同地面上快速移动。这使机器人控制算法面临着会随时变化的环境状况，十分适合用于验证算法。研究人员首先在不同的地面状况下对机器人进行元训练，随后测试了机器在新情况下的在线适应能力。在断腿、新地表、斜坡路况、负载变化、错误标定扰动等情况下都表现良好。可以看到不同情况下最右边的在线适应方法更为稳定，适应不同情况的能力更强。腿断了也能尽力走直线了：

加上负载也不会走的歪歪扭扭：

位姿错误标定也能及时更新纠正：

在和标准基于模型的方法(MB)、动力学评测的方法(MB+DE)比较中都显示了这种方法的优势。在各个指标上都取得了远超传统方法的结果。

在未来研究人员计划对模型进行改进，使它的能力随着时间逐渐增长而不是每次都需要从预训练模型进行精调。并能够记住在学习过程中学到的技能，将在线适应的学习到的新能力作为未来遇到新情况时的先验技能提高模型表现。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
206

文章
27025

浏览量
201380
算法

算法

+关注

关注
23

文章
4454

浏览量
90747
强化学习

强化学习

+关注

关注
4

文章
259

浏览量
11113

原文标题：伯克利提出高效在线适应算法，让机器人拥有快速适应环境变化的新能力

文章出处：【微信号：thejiangmen，微信公众号：将门创投】欢迎添加关注！文章转载请注明出处。

基于MPEG心理声学模型II的自适应音频水印算法

音频水印作为保护音频作品的版权和秘密通信的可行方法，成为近年数字水印研究领域中的一个热点。针对目前音频水印算法研究中自适应性能没有得到重视的问题，提出一种基于心理声学

发表于 03-04 22:13

反向强化学习的思路

强化学习的另一种策略（二）

发表于 04-03 12:10

深度强化学习实战

内容2:课程一： TensoRFlow入门到熟练：课程二：图像分类：课程三：物体检测：课程四：人脸识别：课程五：算法实现：1、卷积神经网络CNN2、循环神经网络RNN3、强化学习DRL4、对抗性生成

发表于 01-10 13:42

一种适用于室内复杂环境的高精度、环境自适应性强的定位算法

摘要对于室内复杂环境来说, 适用于室外定位的 GPS 系统和蜂窝移动网络在室内中的定位精度明显恶化, 无法满足室内用户精确定位的需求。因此, 研究一种适用于室内复杂环境的高精度、环境自适应性

发表于 08-18 08:12

基于强化学习的MADDPG算法原理及实现

之前接触的强化学习算法都是单个智能体的强化学习算法，但是也有很多重要的应用场景牵涉到多个智能体之间的交互。

发表于 11-02 16:18 •2.1w次阅读

如何构建强化学习模型来训练无人车算法

本文作者通过简单的方式构建了强化学习模型来训练无人车算法，可以为初学者提供快速入门的经验。

发表于 11-12 14:47 •4599次阅读

如何测试强化学习智能体适应性

强化学习（RL）能通过奖励或惩罚使智能体实现目标，并将它们学习到的经验转移到新环境中。

发表于 12-24 09:29 •2980次阅读

谷歌发布非政策强化学习算法OPC的最新研究机器学习即将开辟新篇章？

在谷歌最新的论文中，研究人员提出了“非政策强化学习”算法OPC，它是强化学习的一种变体，它能够评估哪种机器学习

发表于 06-22 11:17 •3399次阅读

深度强化学习到底是什么？它的工作原理是怎么样的

深度学习DL是机器学习中一种基于对数据进行表征学习的方法。深度学习DL有监督和非监督之分，都已经得到广泛的研究和应用。

发表于 06-13 11:39 •5611次阅读

机器学习中的无模型强化学习算法及研究综述

强化学习（ Reinforcement learning，RL）作为机器学习领域中与监督学习、无监督学习并列的第三种学习范式，通过与环境进行

发表于 04-08 11:41 •11次下载

模型化深度强化学习应用研究综述

化强化学习。无模型强仳学习方法的训练过程需要大量样本，当采样预算不足，无法收集大量样本时，很难达到预期效果。然而，模型化强化学习可以充分利用

发表于 04-12 11:01 •9次下载

基于深度强化学习仿真集成的压边力控制模型

压边力控制策略的学习优化。基于深度强化学习的压边力优化算法，利用深度神经网络处理巨大的状态空间，避免了系统动力学的拟合，并且使用一种新的网络结构来构建策略网络，将压边力策略划分为全局与

发表于 05-27 10:32 •0次下载

一种新型的多智能体深度强化学习算法

一种新型的多智能体深度强化学习算法

发表于 06-23 10:42 •36次下载

7个流行的强化学习算法及代码实现

作者：Siddhartha Pramanik 来源：DeepHub IMBA 目前流行的强化学习算法包括 Q-learning、SARSA、DDPG、A2C、PPO、DQN 和 TRPO。这些算法

发表于 02-03 20:15 •818次阅读

强化学习的基础知识和6种基本算法解释

来源：DeepHubIMBA强化学习的基础知识和概念简介（无模型、在线学习、离线强化学习等）机器学习(ML)分为三个分支:监督

发表于 01-05 14:54 •485次阅读

搜索历史

一种基于模型的元强化学习算法用于提高快速适应性

评论

基于MPEG心理声学模型II的自适应音频水印算法

反向强化学习的思路

深度强化学习实战

一种适用于室内复杂环境的高精度、环境自适应性强的定位算法

基于强化学习的MADDPG算法原理及实现

如何构建强化学习模型来训练无人车算法

如何测试强化学习智能体适应性

谷歌发布非政策强化学习算法OPC的最新研究机器学习即将开辟新篇章？

深度强化学习到底是什么？它的工作原理是怎么样的

机器学习中的无模型强化学习算法及研究综述

模型化深度强化学习应用研究综述

基于深度强化学习仿真集成的压边力控制模型

一种新型的多智能体深度强化学习算法

7个流行的强化学习算法及代码实现

强化学习的基础知识和6种基本算法解释