DeepMind终于公开了它联合UCL的“高级深度强化学习课程”！-电子发烧友网

一直走在深度学习研究最前沿的DeepMind，终于公开了它联合UCL的“高级深度强化学习课程”！18节课24小时，一天看完Deep RL及其2018最新进展。

今天，DeepMind 官推贴出一则告示，将 DeepMind 研究人员今年在 UCL 教授的深度强化学习课程“Advanced Deep Learning and Reinforcement Learning” 资源全部公开。

一共18节课，走过路过不能错过。

深度强化学习是人工智能领域的一个新的研究热点，从AlphaGo开始，DeepMind便在这一领域独占鳌头。

深度强化学习以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合，并能够通过端对端的学习方式实现从原始输入到输出的直接控制。自提出以来，在许多需要感知高维度原始输入数据和决策控制的任务中都取得了实质性的突破。

2018年，南京大学的AI单机训练一天，击败《星际争霸》最高难度内置Bot，OpenAI 打 DOTA2 超越了Top 1%的人类玩家，深度强化学习不断在进展。

结合算法的发展和实际应用场景，DeepMind在UCL教授的这门课程内容也是最前沿的。

还有关键一点，那就是视频的质量和清晰度超赞啊（需要科学上网）。

DeepMind亲授“高级深度强化学习课程”

这门课程是DeepMind与伦敦大学学院（UCL）的合作项目，由于DeepMind的研究人员去UCL授课，内容由两部分组成，一是深度学习（利用深度神经网络进行机器学习），二是强化学习（利用强化学习进行预测和控制），最后两条线结合在一起，也就成了DeepMind的拿手好戏——深度强化学习。

关于深度强化学习，DeepMind一直在努力，比如最新发表的研究让 AI 行动符合人类意图。

这门课也是结合案例讲解的，值得一提，最后一课“第18节：深度强化学习的经典案例”，讲师是 David Silver，这位AlphaGo背后的英雄以及AlphaZero灵魂人物，他讲的课程无论如何也应该听一听。

David Silver在UCL讲课的视频截图

在深度学习部分，课程简要介绍了神经网络和使用TensorFlow的监督学习，然后讲授卷积神经网络、递归神经网络、端到端并基于能量的学习、优化方法、无监督学习以及注意力和记忆。讨论的应用领域包括对象识别和自然语言处理。

强化学习部分将涵盖马尔科夫决策过程、动态规划、无模型预测和控制、价值函数逼近、策略梯度方法、学习与规划的集成以及探索/开发困境。讨论的可能应用包括学习玩经典的棋盘游戏和电子游戏。

总体来说，这是一门偏向实践的课程，需要PyTorch和编码基础，学完以后，学生能够在TensorFlow上熟练实现深度学习、强化学习以及深度强化学习相关的一系列算法。

因此，除了深度学习、强化学习和深度强化学习的基础知识，深度神经网络的训练以及优化方法，这门课更加注重如何在TensorFlow中实现深度学习算法，以及如何在复杂动态环境中应用强化学习。

18节课一共24小时，一天看完深度强化学习进展

课程团队

深度学习1：介绍基于机器学习的AI

深度学习2：介绍TensorFlow

深度学习3：神经网络基础

强化学习1：强化学习简介

强化学习2：开发和利用

强化学习3：马尔科夫决策过程和动态编程

强化学习4：无模型的预测和控制

深度学习4：图像识别、端到端学习和Embeddings之外

强化学习5：函数逼近和深度强化学习

强化学习6：策略梯度和Actor Critics

深度学习5：机器学习的优化方法

强化学习7：规划和模型

深度学习6：NLP的深度学习

强化学习8：深度强化学习中的高级话题

深度学习7：深度学习中的注意力和记忆

强化学习9：深度RL智能体简史

深度学习8：无监督学习和生成式模型

强化学习10：经典游戏的案例学习

18节课一共24小时，一天看完高级深度强化学习

下面我们介绍第14节“深度强化学习中的高级话题”。讲课人是DeepMind研究科学家Hado Van Hasselt。Hado Van Hasselt的研究兴趣包括人工智能、机器学习、深度学习，尤其是强化学习。加入DeepMind之前，他在阿尔伯塔大学与Richard Sutton教授合作过。

Hado Van Hasselt是许多前沿论文的共同作者，包括Double Q-learning、DuelingDQN、rainbow DQN、强化学习的Ensemble算法等。

在这一节，Hasselt讲了深度强化学习中一些积极的研究主题，这些主题很好地突出了这一领域中正在取得的进展。

前面已经介绍过的强化学习研究主题包括：学习在bandit问题中做决策；序列决策问题；model-free的预测和控制；deep RL中的函数逼近；策略梯度和actor-critic方法；以及从模型中学习。

而高级话题，是这些。

最主要的问题是：如何将未来的奖励最大化？

这个大问题可以分解成一些子问题：

学习什么？（预测、模型、策略……）

如何学习这些？（TD、规划……）

如何表示这些学习到的知识？（深度网络、sample buffers，……）

如何利用这些学习到的知识？

其中一些活跃研究主题包括：

在完全序列，函数逼近设置中的“探索”（Exploration）

利用延迟奖励的credit assignment

局部规划或不精确的模型

样本效率模型

Appropriate generalization

构建有用、通用且信息丰富的agent state

Case study：rainbow DQN(Hasselt et al. 2018)

在这个研究中，Hasselt等人提出rainbow DQN，整合了DQN算法的6种变体，并证明它们很大程度上是互补。DQN的基本想法是利用target networks和experience replay。

这节课接下来的大部分内容围绕这个case，介绍了最新的技术和思想，请观看视频获得更详细的解释。

理解了分布（distribution），或许能对任务有所帮助。这是分布式强化学习的想法。分布式强化学习也意味着representation（例如深度神经网络）被迫要学习更多。

这可以加快学习：因为学习更多意味着更少的样本。

以下是分布式强化学习的具体案例。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

神经网络

神经网络

+关注

关注
42

文章
4562

浏览量
98646
强化学习

强化学习

+关注

关注
4

文章
258

浏览量
11112
DeepMind

DeepMind

+关注

关注
0

文章
126

浏览量
10707

原文标题：DeepMind高赞课程：24小时看完深度强化学习最新进展（视频）

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

什么是强化学习

强化学习是机器学习的方式之一，它与监督学习、无监督学习并列，是三种机器学习训练方法之一。在围棋上击败世界第一李世石的 AlphaGo、在《

发表于 10-30 11:36 •1526次阅读

MIT公开课程6002讲义

MIT公开课程6002讲义麻省理工学院

发表于 10-19 16:58 •0次下载

NeurIPS 2023 | 扩散模型解决多任务强化学习问题

扩散模型（diffusion model）在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习（RL）中来解决序列决策问题

发表于 10-02 10:45 •444次阅读

NeurIPS 2023 | 扩散模型解决多任务<b class='flag-5'>强化学习</b>问题

模拟矩阵在深度强化学习智能控制系统中的应用

讯维模拟矩阵在深度强化学习智能控制系统中的应用主要是通过构建一个包含多种环境信息和动作空间的模拟矩阵，来模拟和预测深度强化学习智能控制系统在不同环境下的表现和效果，从而优化控制策略和提

发表于 09-04 14:26 •324次阅读

模拟矩阵在<b class='flag-5'>深度</b><b class='flag-5'>强化学习</b>智能控制系统中的应用

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

在智能体的开发中，强化学习与大语言模型、视觉语言模型等基础模型的进一步融合究竟能擦出怎样的火花？谷歌 DeepMind 给了我们新的答案。一直以来，DeepMind 引领了强化学习（

发表于 07-24 16:55 •325次阅读

语言模型做先验，统一<b class='flag-5'>强化学习</b>智能体，<b class='flag-5'>DeepMind</b>选择走这条通用AI之路

基于强化学习的目标检测算法案例

摘要：基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为，其产生的候选区域形状和尺寸变化单一，导致目标检测精确度较低。为此，在基于深度强化学习的视觉目标检测算法基础上，提出联合

发表于 07-19 14:35 •0次下载

45. 5 2 强化学习（深度强化学习） #硬声创作季

机器学习

充八万
发布于 :2023年07月07日 01:56:26

什么是深度强化学习?深度强化学习算法应用分析

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务。

发表于 07-01 10:29 •1180次阅读

人工智能强化学习开源分享

电子发烧友网站提供《人工智能强化学习开源分享.zip》资料免费下载

发表于 06-20 09:27 •1次下载

利用强化学习来探索更优排序算法的AI系统

前言 DeepMind 最近在 Nature 发表了一篇论文 AlphaDev[2, 3]，一个利用强化学习来探索更优排序算法的AI系统。 AlphaDev 系统直接从 CPU 汇编指令的层面入手

发表于 06-19 10:49 •388次阅读

深度Q学习网络：弥合从虚拟游戏到实际应用的差距

人工智能（AI）和机器学习（ML）对从医疗保健和金融到能源和运输的广泛行业产生了深远的影响。在各种人工智能技术中，强化学习（RL）——一种机器学习，代理通过与环境交互来学习做出

发表于 06-15 09:45 •211次阅读

基于深度强化学习的视觉反馈机械臂抓取系统

机械臂抓取摆放及堆叠物体是智能工厂流水线上常见的工序，可以有效的提升生产效率，本文针对机械臂的抓取摆放、抓取堆叠等常见任务，结合深度强化学习及视觉反馈，采用AprilTag视觉标签、后视经验回放机制

发表于 06-12 11:25 •1367次阅读

ICLR 2023 Spotlight｜节省95%训练开销，清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

，可以节省至多 95% 的训练开销。深度强化学习模型的训练通常需要很高的计算成本，因此对深度强化学习模型进行稀疏化处理具有加快训练速度和拓展模型部署的巨大潜力。然而现有的生成小型模

发表于 06-11 21:40 •389次阅读

彻底改变算法交易：强化学习的力量

强化学习（RL）是人工智能的一个子领域，专注于决策过程。与其他形式的机器学习相比，强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习。

发表于 06-09 09:23 •366次阅读

基于多智能体深度强化学习的体系任务分配方法

为了应对在未来复杂的战场环境下，由于通信受限等原因导致的集中式决策模式难以实施的情况，提出了一个基于多智能体深度强化学习方法的分布式作战体系任务分配算法，该算法为各作战单元均设计一个独立的策略网络

发表于 05-18 16:46 •2643次阅读