电子发烧友网>人工智能>谷歌和DeepMind研究人员合作提出新的强化学习方法Dreamer 可利用世界模型实现高效的行为学习

谷歌和DeepMind研究人员合作提出新的强化学习方法Dreamer 可利用世界模型实现高效的行为学习

近年来随着强化学习的发展，使得智能体选择恰当行为以实现目标的能力得到迅速地提升。目前研究领域主要使用两种方法：一种是无模型（model－free）的强化学习方法，通过试错的方式来学习预测成功的行为，其中著名的方法包括用于完成雅达利游戏的DeepMind的DQN方法和在星际争霸二中与世界冠军同台竞技的AlphaStar，但这类方法需要与环境进行大量的交互限制了其在真实场景中的应用。

而基于模型（model－based）的强化学习方法则额外学习一个简化的环境模型，这一环境模型使得主体可以预测潜在行为序列的输出，使得它可以通过假设的场景来在新环境中作出明智的决策，减少了实现目标所需的试错。先前学习精确的世界模型并将其充分应用于行为学习中还面临一系列挑战，但随着近来像深度规划网络（DeepPlanningNetwork， PlaNet）的研究出现，极大地拓展了从图像中学习出精确世界模型的边界，但基于模型的方法却依然受到规划（planning）机制庞大计算消耗的约束，限制了其在解决复杂任务上的应用。

为了解决这些问题，来自谷歌和DeepMind的研究人员合作提出了一种基于图像学习出世界模型（world model）的强化学习方法Dreamer，并在此基础上学习出有远见的行为。Dreamer基于模型预测的反向传播来利用世界模型实现高效的行为学习。通过从原始图像输入中计算出紧致的模型状态，这种方法可以使得主体在单个GPU上并行地从上千个预测序列中进行高效的学习。通过20个基于原始图像输入的连续控制基准任务上测评表明，Dreamer在性能、数据效率和计算时间上都达到了先进水平。

Dreamer的基本架构

Dreamer和典型的基于模型方法一样包含三个过程：学习世界模型、基于世界模型的预测学习行为、在环境中执行学习到的行为来收集新的经验。为了学习行为，Dreamer中利用价值网络（valuenetwork ）将规划视野外的奖励纳入考量，同时利用行为网络（actor network）来高效的计算行为。这三部分可以并行地执行，一直重复运行直到达成目标：

Dreamer主体的三个过程，世界模型基于过去经验学习、随后基于这一模型预测，主体通过价值网络来预测未来奖励、行为网络来选择行为。行为网络用于与环境交互。

学习世界模型

Dreamer采用了PlaNet的世界模型，通过一系列紧致的模型状态来预测输出，而这些模型状态则通过输入图像计算得到，而不是直接利用图像来进行处理。它将自动学习得出代表有益于预测未来输出概念的模型状态，例如目标类型、位置以及目标与周围环境的交互等等。给定数据集中一个过去的图像、行为和奖励序列，Dreamer按照下图的方式进行世界模型的学习：

Dreamer 从经验中学习世界模型，利用过去的图像（o1–o3）、行为（a1–a2），它将计算出紧致的模型状态（绿色圆），并可以基于这些状态重建出图像并预测出奖励。

利用PlaNet世界模型的优势在于利用紧致的模型状态代替了图像来进行预测，极大地提高了计算效率。这使得模型可以在单个GPU上预并行的预测上千个序列。这种方式同时可以提高模型的泛化性，进行精确的长时视频预测。为了更好地理解模型的工作原理，下图展示了将预测序列模型状态解码回图像的结果：

复杂环境下的长程预测结果，上图显示了两个主体未曾遇到过的序列，给定五张输入图像，模型对其进行重建并预测出了后续到50步的图像结果。

高效行为学习

先前基于模型的主体选择行为的方法分为两种，要么通过多个模型预测来进行规划、要么通过将世界模型代替模拟器来复用无模型方法的技术，但两种方法都需要庞大的计算需求，同时也未充分利用学习到的世界模型。此外及时强大的世界模型也会受制于精确预测的长度，很多先前基于模型的主体表现出短视的缺点。Dreamer通过世界模型的预测进行反向传播学习价值网络和行为网络来克服上述局限。

Dreamer通过预测的状态序列反向传播奖励来高效地学习行为网络用于预测正确的行为，这在无模型方法中是无法实现的。这将告诉Dreamer其多小的行为变化将会影响未来预测的奖励，使得它可以向最大化奖励的方向上优化行为网络。为了考虑预测范围外的奖励，价值网络将估计每一个模型状态未来的奖励和，奖励和价值将反向传播来优化行为网络去改善行为。

Dreamer通过模型状态预测序列来学习长程行为，首先学习每个状态的长程价值，而后通过反向传播到行为网络来预测能够得到高价值和奖励的行为。

Dreamer与PlaNet有诸多不同，在环境中的给定状态下，PlaNet在不同行为序列的多个预测中搜索最佳行为，而Dreamer则避开了这种计算消耗巨大的搜索方式，利用规划和行为解耦的方式来提高计算效率。一旦在预测序列上训练好了行为网络，它将计算与环境交互的行为而无需额外的搜索。此外Dreamer利用价值函数考虑到了规划以外的奖励并通过反向传播提高了规划的效率。

控制任务上的表现

为了测试Dreamer的性能，研究人员在20个不同的任务上对其进行了测评，包括平衡、控制、运动等多种复杂的强化学习任务。

多种复杂的任务，其输入为图像。包括了碰撞、稀疏奖励、混沌动力学和高自由度甚至三维视角等复杂情况。

研究人员将Dreamer与多个先进的模型进行了比较，包括先前最先进的基于模型的方法PlaNet、无模型方法A3C、结合多种先进手段的无模型方法D4PG。实验表明，基于模型的主体可以在五百万帧内完成高效学习，大概对应28小时的仿真，而无模型的方法则需要近100万帧的学习，大概对应23天的仿真训练。在20个任务的测评基准上，Dreamer领先于目前最先进的无模型方法D4PG（平均分823＞786），同时其与环境的交互大概要少二十倍。此外它最终的结果在所有任务上也超过了先前最好的基于模型方法PlaNet，最终的结果如下图所示：

Dreamer的性能与其他方法的比较，其得分、数据效率和计算时间都比先前方法要好。

此外研究人员还在连续任务上进行了实验，以验证Dreamer面对复杂环境的能力。下面的任务需要不仅需要长程行为预测，同时还需要模型具有空间感知能力。实验表明Dreamer对于这些更具挑战的任务依然能够很好的进行处理：

Dreamer成功的在雅达利游戏和DeepMind环境中运行，这些离散的任务更具挑战性。

Dreamer不仅在性能上超越了原有基于模型的方法，同时在计算效率上也大幅提升。研究人员认为Dreamer将为强化学习提供更为坚实的发展根基，同时也将促进更好的表示学习、基于不确定性的方向探索、时域抽象和多任务学习的发展。
责任编辑：wv

阅读全文

谷歌(103102) 谷歌(103102)
人工智能(229987) 人工智能(229987)
深度学习(119798) 深度学习(119798)

基于带约束强化学习的高效能在线码垛机器人

国防科技大学、克莱姆森大学和视比特机器人的研究人员合作使用深度强化学习求解在线装箱问题，该方法的性能表现优于现有的启发式算法。用户研究显示，该算法达到甚至超越了人类的在线码垛水平。作者团队还将训练

2021-01-13 15:22:38

2147

什么是深度强化学习?深度强化学习算法应用分析

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务。

2023-07-01 10:29:50

1002

FPGA技术的学习方法

。那么究竟如何才能高效学习好FPGA技术呢？本期邀请到的FPGA专家梅雪松，将为大家解答FPGA有效学习方法。专家观点：学习FPGA技术，或者不仅局限于FPGA，学习任何一个新技术只要运用科学

2017-01-11 13:58:34

STM32的学习方法分享？

STM32的学习方法

2020-08-14 04:00:51

arm单片机学习方法

大家给推荐下 arm 学习方法

2012-03-30 09:10:09

单片机的学习方法和步骤

不同的学习方法，根据笔者的亲身学习经验，提出笔者的学习方法和步骤。Part 1 基础理论知识学习基础理论知识包括模拟电路、数字电路和C语言知识。模拟电路和数字电路属于抽象学科，要把它学好还得费点精神。在你

2021-11-30 06:38:31

单片机的学习方法和步骤

，根据笔者的亲身学习经验和教授徒弟学习的感受，提出笔者的学习方法和步骤。第一步：基础理论知识学习基础理论知识包括模拟电路、数字电路和C语言知识。模拟电路和数字电路属于抽象学科，要把它学好还得费点精神。在...

2021-07-15 09:11:11

反向强化学习的思路

强化学习的另一种策略（二）

2019-04-03 12:10:44

基于深度学习的异常检测的研究方法

异常检测的深度学习研究综述原文：arXiv:1901.03407摘要异常检测是一个重要的问题，在不同的研究领域和应用领域都得到了很好的研究。本文的研究目的有两个：首先，我们对基于深度学习的异常检测

2021-07-12 07:10:19

快速的学习方法?

有老师跟我说学习方法,直接从模块化电路一个一个的学,不明白的再看电路基础的相关章节,这样好吗?有没有具体有哪些模块,求详细说下,,或有其他快速学习的方法.请指点下.

2016-06-25 22:28:08

未来的AI 深挖谷歌 DeepMind 和它背后的技术

GridWorld，它可确保AI对自身、开发人员和其他接触到它的人都是安全无害的。DeepMind 的深度强化学习DeepMind通过实现一个完全不同的技术系统，将深度学习提升到了一个全新的水平。该系统称为深度

2020-08-26 12:04:19

深度学习技术的开发与应用

2.算法设计 3.实验结果高频问题：如何将一个控制问题设计成马尔可夫决策问题并使用强化学习算法进行训练关键点：1.基于模型的离线强化学习方法 2.基于数据的在线强化学习方法实操解析与训练二实验

2022-04-21 14:57:39

深度强化学习实战

内容2:课程一： TensoRFlow入门到熟练：课程二：图像分类：课程三：物体检测：课程四：人脸识别：课程五：算法实现：1、卷积神经网络CNN2、循环神经网络RNN3、强化学习DRL4、对抗性生成

2021-01-10 13:42:26

请教STM32开发板的学习方法

请教STM32开发板的学习方法，请教快速高效的方法

2019-04-22 06:35:06

第1章 ZigBee简介和学习方法

ZigBee简介和学习方法很适合入门级别的人学习。

2015-12-07 18:36:58

强化学习在RoboCup带球任务中的应用刘飞

强化学习在RoboCup带球任务中的应用_刘飞

2017-03-14 08:00:00

谷歌发布新版AlphaGo，对弈自我学习，已击败柯洁系统

谷歌旗下人工智能研究部门DeepMind发布了新版AlphaGo软件，它可以完全靠自己学习围棋。这款名为AlphaGo Zero的系统可以通过自我对弈进行学习，它利用了一种名为强化学习的技术。在不断训练的过程中，这套系统开始靠自己的能力学会围棋中的一些高级概念。

2017-10-19 17:57:00

4553

深度强化学习是什么？有什么优点？

与监督机器学习不同，在强化学习中，研究人员通过让一个代理与环境交互来训练模型。当代理的行为产生期望的结果时，它得到正反馈。例如，代理人获得一个点数或赢得一场比赛的奖励。简单地说，研究人员加强了代理人的良好行为。

2018-07-13 09:33:00

24320

将深度学习和强化学习相结合的深度强化学习DRL

深度强化学习DRL自提出以来，已在理论和应用方面均取得了显著的成果。尤其是谷歌DeepMind团队基于深度强化学习DRL研发的AlphaGo，将深度强化学习DRL成推上新的热点和高度，成为人工智能历史上一个新的里程碑。因此，深度强化学习DRL非常值得研究。

2018-06-29 18:36:00

27596

萨顿科普了强化学习、深度强化学习，并谈到了这项技术的潜力和发展方向

萨顿在专访中（再次）科普了强化学习、深度强化学习，并谈到了这项技术的潜力，以及接下来的发展方向：预测学习

2017-12-27 09:07:15

10857

基于分层强化学习的多Agent路径规划

策略可获得的最大回报；其次，利用分层强化学习方法的无环境模型学习以及局部更新能力将策略更新过程限制在规模较小的局部空间或维度较低的高层空间上，提高学习算法的性能；最后，针对出租车问题在栅格环境中对所提算法进行了仿真实验

2017-12-27 14:32:02

多示例多标记学习方法

针对现有的大部分多示例多标记（ MIML）算法都没有考虑如何更好地表示对象特征这一问题，将概率潜在语义分析（ PLSA）模型和神经网络（NN）相结合，提出了基于主题模型的多示例多标记学习方法。算法

2018-01-05 10:22:27

基于LCS和LS-SVM的多机器人强化学习

本文提出了一种LCS和LS-SVM相结合的多机器人强化学习方法，LS-SVM获得的最优学习策略作为LCS的初始规则集。LCS通过与环境的交互，能更快发现指导多机器人强化学习的规则，为强化学习系统

2018-01-09 14:43:49

随机块模型学习算法

的一个主要挑战．提出一种精细随机块模型及其快速学习算法，该学习方法基于提出的模型与最小消息长度推导出一个新成本函数，利用期望最大化参数估计方法，实现了边评价模型边估计参数的并行学习策略。以此方式显著降低随机块模

2018-01-09 18:20:04

模型驱动深度学习的标准流程与学习方法解析

模型驱动的深度学习方法近年来，深度学习在人工智能领域一系列困难问题上取得了突破性成功应用。

2018-01-24 11:30:13

4608

强化学习的风储合作决策

在风储配置给定前提下，研究风电与储能系统如何有机合作的问题。核心在于风电与储能组成混合系统参与电力交易，通过合作提升其市场竞争的能力。针对现有研究的不足，在具有过程化样本的前提下，引入强化学习算法

2018-01-27 10:20:50

解析图像分类器结构搜索的正则化异步进化方法并和强化学习方法进行对比

在本篇论文中，研究人员使用流行的异步进化算法（asynchronous evolutionary algorithm）的正则化版本，并将其与非正则化的形式以及强化学习方法进行比较。

2018-02-09 14:47:41

3454

如何深度强化学习人工智能和深度学习的进阶

传统上，强化学习在人工智能领域占据着一个合适的地位。但强化学习在过去几年已开始在很多人工智能计划中发挥更大的作用。

2018-03-03 14:16:56

3924

DeepMind提出强化学习新算法，教智能体从零学控制

3月2日，DeepMind发表博客文章，提出一种称为SAC-X（计划辅助控制）的新学习范式，旨在解决让AI以最少的先验知识，从头开始学习复杂控制问题的挑战。

2018-03-17 09:12:51

3621

【重磅】DeepMind发布通用强化学习新范式，自主机器人可学会任何任务

SAC-X是一种通用的强化学习方法，未来可以应用于机器人以外的更广泛领域

2018-03-19 14:45:48

1746

简单随机搜索：无模型强化学习的高效途径

没有设计目标函数的最佳方法，并且模型是分段线性的。只要机器人的任何部位碰到坚硬物体，模型就会变化，因此会出现此前没有的作用于机器人的法向力。于是，让机器人无需处理复杂的非凸非线性模型而正常工作，对强化学习来说是个有趣的挑战。

2018-04-01 09:35:00

4193

强化学习新方法，机器人究竟是怎么学习新动作的呢？

用强化学习方法教机器人（模拟器里的智能体），能学会的动作花样繁多，细致到拿东西、豪放到奔跑都能搞定，还可以给机器人设置一个明确的目的。但是，总难免上演一些羞耻或惊喜play。

2018-04-13 11:00:32

9514

强化学习究竟是什么？它与机器学习技术有什么联系？

Q-learning和SARSA是两种最常见的不理解环境强化学习算法，这两者的探索原理不同，但是开发原理是相似的。Q-learning是一种离线学习算法，智能体需要从另一项方案中学习到行为a*的价值

2018-04-15 10:32:22

12973

人工智能机器学习之强化学习

强化学习是智能系统从环境到行为映射的学习，以使奖励信号（强化信号）函数值最大，强化学习不同于连接主义学习中的监督学习，主要表现在教师信号上，强化学习中由环境提供的强化信号是对产生动作的好坏作一种评价

2018-05-30 06:53:00

1234

斯坦福提出基于目标的策略强化学习方法——SOORL

为了达到人类学习的速率，斯坦福的研究人员们提出了一种基于目标的策略强化学习方法——SOORL，把重点放在对策略的探索和模型选择上。

2018-06-06 11:18:23

4988

探讨机器学习、强化学习、NLP、计算机视觉最新进展

谷歌在人工智能领域最终目标是三点：利用人工智能和机器学习让谷歌的产品更加实用（Making products more useful）；帮助企业和外部开发者利用人工智能和机器学习进行创新（Helping others innovate）；为研究人员提供更好的工具，解决人类面临的重大挑战。

2018-07-02 16:27:43

5453

强化学习的经典基础性缺陷可能限制它解决很多复杂问题

这些都是除了从零学习之外的强化学习方法。特别是元学习和零次学习体现了人在学习一种新技能时更有可能的做法，与纯强化学习有差别。一个元学习智能体会利用先验知识快速学习棋类游戏，尽管它不明白游戏规则

2018-07-14 08:42:28

7602

什么是强化学习？纯强化学习有意义吗？强化学习有什么的致命缺陷？

强化学习是人工智能基本的子领域之一，在强化学习的框架中，智能体通过与环境互动，来学习采取何种动作能使其在给定环境中的长期奖励最大化，就像在上述的棋盘游戏寓言中，你通过与棋盘的互动来学习。

2018-07-15 10:56:37

17106

OpenAI 把在模拟器中强化学习学到的方案迁移到机械手上

这些具有一定难度的任务 OpenAI 自己也在研究，他们认为这是深度强化学习发展到新时代之后可以作为新标杆的算法测试任务，而且也欢迎其它机构与学校的研究人员一同研究这些任务，把深度强化学习的表现推上新的台阶。

2018-08-03 14:27:26

4305

强化学习环境研究，智能体玩游戏为什么厉害

强化学习作为一种常用的训练智能体的方法，能够完成很多复杂的任务。在强化学习中，智能体的策略是通过将奖励函数最大化训练的。奖励在智能体之外，各个环境中的奖励各不相同。深度学习的成功大多是有密集并且有效的奖励函数，例如电子游戏中不断增加的“分数”。

2018-08-18 11:38:57

3363

强化学习和监督式学习, 非监督式学习的区别

而这时，强化学习会在没有任何标签的情况下，通过先尝试做出一些行为得到一个结果，通过这个结果是对还是错的反馈，调整之前的行为，就这样不断的调整，算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。

2018-08-21 09:18:25

19123

谷歌推出新的基于Tensorflow的强化学习框架，称为Dopamine

强化学习（RL）研究在过去几年取得了许多重大进展。强化学习的进步使得 AI 智能体能够在一些游戏上超过人类，值得关注的例子包括 DeepMind 攻破 Atari 游戏的 DQN，在围棋中获得瞩目的 AlphaGo 和 AlphaGo Zero，以及在 Dota2 对战人类职业玩家的Open AI Five。

2018-08-31 09:20:49

3498

Google强化学习框架，要满足哪三大特性

强化学习是一种非常重要 AI 技术，它能使用奖励（或惩罚）来驱动智能体（agents）朝着特定目标前进，比如它训练的 AI 系统 AlphaGo 击败了顶尖围棋选手，它也是 DeepMind 的深度

2018-09-03 14:06:30

2653

深度强化学习将如何控制机械臂的灵活动作

直接的强化学习方法很有吸引力，它无需过多假设，而且能自动掌握很多技能。由于这种方法除了建立函数无需其他信息，所以很容易在改进后的环境中重新学习技能，例如更换了目标物体或机械手。

2018-09-05 08:54:15

9616

用PopArt进行多任务深度强化学习

按照以往的做法，如果研究人员要用强化学习算法对奖励进行剪枝，以此克服奖励范围各不相同的问题，他们首先会把大的奖励设为+1，小的奖励为-1，然后对预期奖励做归一化处理。虽然这种做法易于学习，但它也改变了智能体的目标。

2018-09-16 09:32:03

5336

DeepMind携手Unity，加速机器学习和人工智能研究

2014年被谷歌收购的英国人工智能公司DeepMind部门与Unity合作，加速机器学习和人工智能（AI）研究。该合作将重点关注DeepMind和其他人可用于测试和可视化实验算法的“虚拟环境”。

2018-09-28 10:43:58

1254

基于强化学习的MADDPG算法原理及实现

之前接触的强化学习算法都是单个智能体的强化学习算法，但是也有很多重要的应用场景牵涉到多个智能体之间的交互。

2018-11-02 16:18:15

21017

如何构建强化学习模型来训练无人车算法

本文作者通过简单的方式构建了强化学习模型来训练无人车算法，可以为初学者提供快速入门的经验。

2018-11-12 14:47:39

4570

利用机器学习来捕捉内部漏洞的工具运用无监督学习方法可发现入侵者

Darktrace新网络安全公司与剑桥大学的数学家合作，开发了一种利用机器学习来捕捉内部漏洞的工具。它运用无监督学习方法，查看大量未标记的数据，并找到不遵循典型模式的碎片。这些原始数据汇集到60多种不同的无监督学习算法中，它们相互竞争以发现异常行为。

2018-11-22 16:01:50

1099

如何测试强化学习智能体适应性

强化学习（RL）能通过奖励或惩罚使智能体实现目标，并将它们学习到的经验转移到新环境中。

2018-12-24 09:29:56

2949

使用加权密集连接卷积网络的深度强化学习方法说明

针对深度强化学习中卷积神经网络（CNN）层数过深导致的梯度消失问题，提出一种将密集连接卷积网络应用于强化学习的方法。首先，利用密集连接卷积网络中的跨层连接结构进行图像特征的有效提取；然后，在密集连接

2019-01-23 10:41:51

谷歌大脑的“世界模型”简述与启发

在所谓的“世界模型”，其中的组件模型几乎没有是谷歌大脑自己创新研制的。但世界模型会很大提高强化学习训练稳定性和成绩从而使其与其他强化学习相比有一些明显优势，如下表所示;

2019-01-30 09:48:25

3047

谷歌、DeepMind重磅推出PlaNet 强化学习新突破

Google AI 与 DeepMind 合作推出深度规划网络 (PlaNet)，这是一个纯粹基于模型的智能体，能从图像输入中学习世界模型，完成多项规划任务，数据效率平均提升50倍，强化学习又一突破。

2019-02-17 09:30:28

3036

开辟新篇章!谷歌机器学习又有新进展!

在谷歌最新的论文中，研究人员提出了“非政策强化学习”算法OPC，它是强化学习的一种变体，它能够评估哪种机器学习模型将产生最好的结果。

2019-06-22 11:16:29

2280

谷歌发布非政策强化学习算法OPC的最新研究机器学习即将开辟新篇章？

在谷歌最新的论文中，研究人员提出了“非政策强化学习”算法OPC，它是强化学习的一种变体，它能够评估哪种机器学习模型将产生最好的结果。数据显示，OPC比基线机器学习算法有着显著的提高，更加稳健可靠。

2019-06-22 11:17:08

3374

太秀了！DeepMind推出最强表示学习模型BigBiGAN

研究人员广泛评估了BigBiGAN模型的表示学习和生成性能，证明这些基于生成的模型在ImageNet上的无监督表示学习和无条件图像生成方面都达到了state of the art的水平。

2019-07-13 08:01:00

3950

Facebook的研究人员提出了Mesh R-CNN模型

这一研究的目标是通过单张图像输入，对图像中的物体进行检测、获取不同物体的类别、掩膜和对应的三维网格，并对真实世界中的复杂模型进行有效处理。在2D深度网络的基础上，研究人员改进并提出了新的架构。

2019-08-02 15:51:22

3558

强化学习应用中对话系统的用户模拟器

近几年来，强化学习在任务导向型对话系统中得到了广泛的应用，对话系统通常被统计建模成为一个马尔科夫决策过程（Markov Decision Process）模型，通过随机优化的方法来学习对话策略。

2019-08-06 14:16:29

1836

基于序列信息来预测潜在的抗癌多肽的深度学习方法

中国科学院新疆理化技术研究所研究人员首次开发和提出了基于序列信息来预测潜在的抗癌多肽的深度学习方法。首先，研究人员基于现有的研究，整理构建了用于机器学习的抗癌多肽数据集

2019-09-20 15:13:00

2495

区块链数据集有怎样的机器学习方法

区块链数据集提供了一个与加密货币资产行为相关的独特的数据宇宙，因此，为机器学习方法的应用提供了独特的机会。

2019-11-26 09:49:14

758

深度强化学习你知道是什么吗

强化学习非常适合实现自主决策，相比之下监督学习与无监督学习技术则无法独立完成此项工作。

2019-12-10 14:34:57

1092

懒惰强化学习算法在发电调控REG框架的应用

惰性是人类的天性，然而惰性能让人类无需过于复杂的练习就能学习某项技能，对于人工智能而言，是否可有基于惰性的快速学习的方法？本文提出一种懒惰强化学习(Lazy reinforcement learning, LRL) 算法。

2020-01-16 17:40:00

745

谷歌发明自主学习机器人结合了深度学习和强化学习两种类型的技术

）的研究人员联合发表了一篇论文，详细介绍了他们构建的一个通过 AI 技术自学走路的机器人。该机器人结合了深度学习和强化学习两种不同类型的 AI 技术，具备直接放置于真实环境中进行训练的条件。

2020-03-17 15:15:30

1354

研究人员实现无创早期肺癌筛查，以机器学习为基础

根据 Nature 杂志发表的一项研究，斯坦福大学研究人员开发了一种机器学习方法，能够实现早期肺癌患者的鉴别筛查。

2020-03-27 16:06:04

674

研究人员正在利用机器学习算法来预测电池的健康状况和使用寿命

来自剑桥大学和纽卡斯尔大学的研究人员设计了一种新的方法，通过向电池发送电脉冲并测量其响应来监测电池。然后，他们利用机器学习算法对测量数据进行处理，以预测电池的健康状况和使用寿命。

2020-04-09 11:18:22

1021

研究人员开源RAD以改进及强化智能学习算法

加州大学伯克利分校的一组研究人员本周开放了使用增强数据进行强化学习(RAD)的资源。

2020-05-11 23:09:04

1179

深度强化学习的概念和工作原理的详细资料说明

深度学习DL是机器学习中一种基于对数据进行表征学习的方法。深度学习DL有监督和非监督之分，都已经得到广泛的研究和应用。强化学习RL是通过对未知环境一边探索一边建立环境模型以及学习得到一个最优策略。强化学习是机器学习中一种快速、高效且不可替代的学习算法。

2020-05-16 09:20:40

3150

深度强化学习到底是什么？它的工作原理是怎么样的

2020-06-13 11:39:40

5528

机器学习方法迁移学习的发展和研究资料说明

样本满足独立同分布的条件;（2）必须有足够可利用的训练样本才能学习得到一个好的分类模型。目的是迁移已有的知识来解决目标领域中仅有少量有标签样本数据甚至没有的学习问题。对迁移学习算法的研究以及相关理论研究的进展进行

2020-07-17 08:00:00

一文详谈机器学习的强化学习

强化学习属于机器学习中的一个子集，它使代理能够理解在特定环境中执行特定操作的相应结果。目前，相当一部分机器人就在使用强化学习掌握种种新能力。

2020-11-06 15:33:49

1552

谷歌研究人员发现了机器学习模型常见失败的一个主要原因

，经过训练，能够在高质量的医学图像中发现疾病迹象的人工智能，将难以识别繁忙的诊所中廉价相机捕捉到的模糊或裁剪的图像。现在，谷歌的7个不同团队的40名研究人员发现了机器学习模型常见失败的另一个主要原因。这被称为

2020-11-30 17:44:45

1379

83篇文献、万字总结强化学习之路

深度强化学习是深度学习与强化学习相结合的产物，它集成了深度学习在视觉等感知问题上强大的理解能力，以及强化学习的决策能力，实现了...

2020-12-10 18:32:50

374

DeepMind发布强化学习库RLax

RLax（发音为“ relax”）是建立在JAX之上的库，它公开了用于实施强化学习智能体的有用构建块。。报道：深度强化学习实验室作者：DeepRL ...

2020-12-10 18:43:23

499

强化学习在智能对话上的应用介绍

本文主要介绍深度强化学习在任务型对话上的应用，两者的结合点主要是将深度强化学习应用于任务型对话的策略学习上来源：腾讯技术工程微信号

2020-12-10 19:02:45

781

机器学习中的无模型强化学习算法及研究综述

模型化强化学习（Mode- based reinforcement Lear-ning）和无模型强化学习（ Model- ree reirη forcement Learning）。模型化强化学习需要

2021-04-08 11:41:58

模型化深度强化学习应用研究综述

化强化学习。无模型强仳学习方法的训练过程需要大量样本，当采样预算不足，无法收集大量样本时，很难达到预期效果。然而，模型化强化学习可以充分利用环境模型，降低真实样本需求量，在一定程度上提高样本效率。将以模型化强化学习为核心，介绍

2021-04-12 11:01:52

当机器人遇见强化学习，会碰出怎样的火花？

Control of Bipedal Robots）为题，已被机器人国际学术顶会 ICRA 收录。通过强化学习，它能自己走路，并能进行自我恢复。在现实世界中，通过反复试

2021-04-13 09:35:09

2164

强化学习的双权重最小二乘Sarsa算法

强化学习是人工智能领域中的一个研究热点。在求解强化学习问题时，传统的最小二乘法作为一类特殊的函数逼近学习方法，具有收敛速度快、充分利用样本数据的优势。通过对最小二乘时序差分算法

2021-04-23 15:03:03

基于深度强化学习的路口单交叉信号控制

利用深度强化学习技术实现路口信号控制是智能交通领域的硏究热点。现有硏究大多利用强化学习来全面刻画交通状态以及设计有效强化学习算法以解决信号配时问题，但这些研究往往忽略了信号灯状态对动作选择的影响以及

2021-04-23 15:30:53

基于迁移学习的驾驶分心行为识别模型

为了提高驾驶分心识别的应用性及识别模型的可解释性，利用迁移学习方法硏究构建驾驶人驾驶分心行为识别模型并采用神经网络可视化技术硏究对模型进行解释。以ⅤGσ-6模型为基础，对原模型全连接层进行修改以适应

2021-04-30 13:46:51

基于生成对抗网络的模仿学习研究综述

行为克隆、基于逆向强化学习的模仿学习两类方法。基于逆向强化学习的模仿学习把模仿学习的过程分解成逆向强化学习和强化学习两个子过程，并反复迭代。逆向强化学习用于推导符合专家决策数据的奖赏函数，而强化学习基于该

2021-05-10 16:33:24

虚拟乒乓球手的强化学习模仿训练方法

沉浸感是虚拟现实应用的重要特征之一，而虚拟场景中角色行为的智能性与真实性对虚拟现实应用的沉浸感有着显著影响。利用强化学习方法对球拍的击球策略进行训练，根据乒乓球游戏规则设计了一系列奖励函数，使之能

2021-05-12 14:55:05

基于强化学习的壮语词标注方法

目前壮语智能信息处理研究处于起步阶段，缺乏自动词性标注方法。针对壮语标注语料匮乏、人工标注费时费力而机器标注性能较差的现状，提出一种基于强化学习的壮语词性标注方法。依据壮语的文法特点和中文宾州

2021-05-14 11:29:35

基于深度强化学习仿真集成的压边力控制模型

压边为改善板料拉深制造的成品质量，釆用深度强化学习的方法进行拉深过程旳压边力优化控制。提岀一种基于深度强化学习与有限元仿真集成的压边力控制模型，结合深度神经网络的感知能力与强化学习的决策能力，进行

2021-05-27 10:32:39

基于深度强化学习的无人机控制律设计方法

基于深度强化学习的无人机控制律设计方法

2021-06-23 14:59:10

基于图嵌入的兵棋联合作战态势实体知识表示学习方法

战态势实体知识的特点,提出一种基于图嵌入的兵棋联合作战态势实体知识表示学习方法。该方法采用基于元路径的多层异构图嵌入模型,对想定场景中的兵棋联合作战态势实体及其关系知识进行表示学习,将其映射为连续向量空间中的稠密实值

2022-01-11 08:34:32

559

《自动化学报》—多Agent深度强化学习综述

突破.由于融合了深度学习强大的表征能力和强化学习有效的策略搜索能力,深度强化学习已经成为实现人工智能颇有前景的学习范式.然而,深度强化学习在多Agent 系统的研究与应用中,仍存在诸多困难和挑战,以StarCraft II 为代表的部分观测环境下的多Agent学习仍然很难达到理想效果.本文简要介绍了深度Q

2022-01-18 10:08:01

1226

融合零样本学习和小样本学习的弱监督学习方法综述

融合零样本学习和小样本学习的弱监督学习方法综述来源：《系统工程与电子技术》，作者潘崇煜等摘要: 深度学习模型严重依赖于大量人工标注的数据，使得其在数据缺乏的特殊领域内应用严重受限。面对数据缺乏

2022-02-09 11:22:37

1731

世界模型在实体机器人上能发挥多大的作用？

Dreamer 世界模型是谷歌、多伦多大学等机构在 2021 年提出的一种。如下图 2 所示，Dreamer 从过去经验的回放缓存中学习世界模型，从世界模型的潜在空间中想象的 rollout 中学习

2022-07-01 10:48:14

628

基于优化的元学习方法

为了解决上述问题，本文将目光从任务专用的soft prompt模型设计转移到任务通用的模型参数初始化点搜索，以帮助模型快速适应到不同的少标注任务上。本文采用近年提出的基于优化的元学习方法，例如MAML[4]、Reptile[5]等

2022-12-15 15:19:30

830

强化学习的基础知识和6种基本算法解释

来源：DeepHub IMBA 强化学习的基础知识和概念简介（无模型、在线学习、离线强化学习等）机器学习(ML)分为三个分支:监督学习、无监督学习和强化学习。监督学习(SL) ：关注在给

2022-12-20 14:00:02

828

基于交通世界模型优化的的交通信号控制

本文使用车辆位置图像描述路口交通状态，同时受基于模型的强化学习方法DreamerV2的启发，引入基于学习的交通世界模型。

2023-01-11 14:59:51

298

彻底改变算法交易：强化学习的力量

强化学习（RL）是人工智能的一个子领域，专注于决策过程。与其他形式的机器学习相比，强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习。

2023-06-09 09:23:23

355

ICLR 2023 Spotlight｜节省95%训练开销，清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

大模型时代，模型压缩和加速显得尤为重要。传统监督学习可通过稀疏神经网络实现模型压缩和加速，那么同样需要大量计算开销的强化学习任务可以基于稀疏网络进行训练吗？本文提出了一种强化学习专用稀疏训练框架

2023-06-11 21:40:02

356

强化学习的基础知识和6种基本算法解释

来源：DeepHubIMBA强化学习的基础知识和概念简介（无模型、在线学习、离线强化学习等）机器学习(ML)分为三个分支:监督学习、无监督学习和强化学习。监督学习(SL)：关注在给定标记训练数据

2023-01-05 14:54:05

419

联合学习在传统机器学习方法中的应用

联合学习在传统机器学习方法中的应用

2023-07-05 16:30:28

489

基于强化学习的目标检测算法案例

摘要：基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为，其产生的候选区域形状和尺寸变化单一，导致目标检测精确度较低。为此，在基于深度强化学习的视觉目标检测算法基础上，提出联合回归与深度

2023-07-19 14:35:02

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

在智能体的开发中，强化学习与大语言模型、视觉语言模型等基础模型的进一步融合究竟能擦出怎样的火花？谷歌 DeepMind 给了我们新的答案。一直以来，DeepMind 引领了强化学习（RL）智能

2023-07-24 16:55:02

296

NeurIPS 2023 | 扩散模型解决多任务强化学习问题

扩散模型（diffusion model）在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习（RL）中来解决序列决策问题

2023-10-02 10:45:02

403

什么是强化学习

强化学习是机器学习的方式之一，它与监督学习、无监督学习并列，是三种机器学习训练方法之一。在围棋上击败世界第一李世石的 AlphaGo、在《星际争霸2》中以 10：1 击败了人类顶级职业玩家

2023-10-30 11:36:40

1051

已全部加载完成

搜索历史

谷歌和DeepMind研究人员合作提出新的强化学习方法Dreamer 可利用世界模型实现高效的行为学习

评论