0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepMind终于公开了它联合UCL的“高级深度强化学习课程”!

DPVg_AI_era 来源:未知 作者:李倩 2018-11-26 09:27 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

一直走在深度学习研究最前沿的DeepMind,终于公开了它联合UCL的“高级深度强化学习课程”!18节课24小时,一天看完Deep RL及其2018最新进展。

今天,DeepMind 官推贴出一则告示,将 DeepMind 研究人员今年在 UCL 教授的深度强化学习课程“Advanced Deep Learning and Reinforcement Learning” 资源全部公开。

一共18节课,走过路过不能错过。

深度强化学习是人工智能领域的一个新的研究热点,从AlphaGo开始,DeepMind便在这一领域独占鳌头。

深度强化学习以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制。自提出以来, 在许多需要感知高维度原始输入数据和决策控制的任务中都取得了实质性的突破。

2018年,南京大学的AI单机训练一天,击败《星际争霸》最高难度内置Bot,OpenAI 打 DOTA2 超越了Top 1%的人类玩家,深度强化学习不断在进展。

结合算法的发展和实际应用场景,DeepMind在UCL教授的这门课程内容也是最前沿的。

还有关键一点,那就是视频的质量和清晰度超赞啊(需要科学上网)。

DeepMind亲授“高级深度强化学习课程”

这门课程是DeepMind与伦敦大学学院(UCL)的合作项目,由于DeepMind的研究人员去UCL授课,内容由两部分组成,一是深度学习(利用深度神经网络进行机器学习),二是强化学习(利用强化学习进行预测和控制),最后两条线结合在一起,也就成了DeepMind的拿手好戏——深度强化学习。

关于深度强化学习,DeepMind一直在努力,比如最新发表的研究让 AI 行动符合人类意图。

这门课也是结合案例讲解的,值得一提,最后一课“第18节:深度强化学习的经典案例”,讲师是 David Silver,这位AlphaGo背后的英雄以及AlphaZero灵魂人物,他讲的课程无论如何也应该听一听。

David Silver在UCL讲课的视频截图

在深度学习部分,课程简要介绍了神经网络和使用TensorFlow的监督学习,然后讲授卷积神经网络、递归神经网络、端到端并基于能量的学习、优化方法、无监督学习以及注意力和记忆。讨论的应用领域包括对象识别和自然语言处理。

强化学习部分将涵盖马尔科夫决策过程、动态规划、无模型预测和控制、价值函数逼近、策略梯度方法、学习与规划的集成以及探索/开发困境。讨论的可能应用包括学习玩经典的棋盘游戏和电子游戏。

总体来说,这是一门偏向实践的课程,需要PyTorch和编码基础,学完以后,学生能够在TensorFlow上熟练实现深度学习、强化学习以及深度强化学习相关的一系列算法。

因此,除了深度学习、强化学习和深度强化学习的基础知识,深度神经网络的训练以及优化方法,这门课更加注重如何在TensorFlow中实现深度学习算法,以及如何在复杂动态环境中应用强化学习。

18节课一共24小时,一天看完深度强化学习进展

课程团队

深度学习1:介绍基于机器学习的AI

深度学习2:介绍TensorFlow

深度学习3:神经网络基础

强化学习1:强化学习简介

强化学习2:开发和利用

强化学习3:马尔科夫决策过程和动态编程

强化学习4:无模型的预测和控制

深度学习4:图像识别、端到端学习和Embeddings之外

强化学习5:函数逼近和深度强化学习

强化学习6:策略梯度和Actor Critics

深度学习5:机器学习的优化方法

强化学习7:规划和模型

深度学习6:NLP的深度学习

强化学习8:深度强化学习中的高级话题

深度学习7:深度学习中的注意力和记忆

强化学习9:深度RL智能体简史

深度学习8:无监督学习和生成式模型

强化学习10:经典游戏的案例学习

18节课一共24小时,一天看完高级深度强化学习

下面我们介绍第14节“深度强化学习中的高级话题”。讲课人是DeepMind研究科学家Hado Van Hasselt。Hado Van Hasselt的研究兴趣包括人工智能、机器学习、深度学习,尤其是强化学习。加入DeepMind之前,他在阿尔伯塔大学与Richard Sutton教授合作过。

Hado Van Hasselt是许多前沿论文的共同作者,包括Double Q-learning、DuelingDQN、rainbow DQN、强化学习的Ensemble算法等。

在这一节,Hasselt讲了深度强化学习中一些积极的研究主题,这些主题很好地突出了这一领域中正在取得的进展。

前面已经介绍过的强化学习研究主题包括:学习在bandit问题中做决策;序列决策问题;model-free的预测和控制;deep RL中的函数逼近;策略梯度和actor-critic方法;以及从模型中学习。

而高级话题,是这些。

最主要的问题是:如何将未来的奖励最大化?

这个大问题可以分解成一些子问题:

学习什么?(预测、模型、策略……)

如何学习这些?(TD、规划……)

如何表示这些学习到的知识?(深度网络、sample buffers,……)

如何利用这些学习到的知识?

其中一些活跃研究主题包括:

在完全序列,函数逼近设置中的“探索”(Exploration)

利用延迟奖励的credit assignment

局部规划或不精确的模型

样本效率模型

Appropriate generalization

构建有用、通用且信息丰富的agent state

Case study:rainbow DQN(Hasselt et al. 2018)

在这个研究中,Hasselt等人提出rainbow DQN,整合了DQN算法的6种变体,并证明它们很大程度上是互补。DQN的基本想法是利用target networks和experience replay。

这节课接下来的大部分内容围绕这个case,介绍了最新的技术和思想,请观看视频获得更详细的解释。

理解了分布(distribution),或许能对任务有所帮助。这是分布式强化学习的想法。分布式强化学习也意味着representation(例如深度神经网络)被迫要学习更多。

这可以加快学习:因为学习更多意味着更少的样本。

以下是分布式强化学习的具体案例。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4842

    浏览量

    108150
  • 强化学习
    +关注

    关注

    4

    文章

    273

    浏览量

    11997
  • DeepMind
    +关注

    关注

    0

    文章

    131

    浏览量

    12431

原文标题:DeepMind高赞课程:24小时看完深度强化学习最新进展(视频)

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    上汽奥迪E5 Sportback车型升级搭载全新Momenta强化学习大模型

    近日,上汽奥迪宣布旗下 E5 Sportback 车型升级搭载 全新Momenta 强化学习大模型。
    的头像 发表于 04-09 09:33 188次阅读

    上汽大众ID. ERA 9X全球首发搭载Momenta R7强化学习世界模型

    3月30日,Momenta R7强化学习世界模型全球首发搭载车型——上汽大众ID. ERA 9X正式开启预售。
    的头像 发表于 03-31 13:48 356次阅读

    Momenta R6强化学习大模型上车东风日产NX8

    3月20日,东风日产NX8技术暨预售发布会在广州举办,官宣Momenta R6强化学习大模型正式上车东风日产新能源SUV——NX8。以全球顶级大厂合力,融合先锋科技力量,打造更适配全家出行的智能SUV,开启合资品牌智能化全新赛道。
    的头像 发表于 03-24 09:08 824次阅读

    Momenta强化学习大模型助力别克至境世家纯电版正式上市

    3月17日,别克至境世家纯电版正式上市,这是别克与Momenta强化学习大模型的又一次深度联手。融合别克在MPV市场深耕27年的技术积淀,以更从容的智慧驾控,重新定义豪华与自在的出行体验。
    的头像 发表于 03-18 15:48 306次阅读

    Momenta R7强化学习世界模型即将推出

    3月16日,上汽大众举办以“人本科技”为主题的ID. ERA技术发布会,首次揭晓了ID. ERA 系列包括智能辅助驾驶在内的诸多核心技术亮点。会上,Momenta CEO曹旭东正式宣布:Momenta R7强化学习世界模型即将推出,并将全球首发搭载于上汽大众全新旗舰SUV ID. ERA 9X。
    的头像 发表于 03-17 13:57 1187次阅读

    自动驾驶中常提的离线强化学习是什么?

    [首发于智驾最前沿微信公众号]在之前谈及自动驾驶模型学习时,详细聊过强化学习的作用,由于强化学习能让大模型通过交互学到策略,不需要固定的规则,从而给自动驾驶的落地创造了更多可能。 强化学习
    的头像 发表于 02-07 09:21 351次阅读
    自动驾驶中常提的离线<b class='flag-5'>强化学习</b>是什么?

    强化学习会让自动驾驶模型学习更快吗?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶大模型训练时,有的技术方案会采用模仿学习,而有些会采用强化学习。同样作为大模型的训练方式,强化学习有何不同?又有什么特点呢? 什么是强化学习
    的头像 发表于 01-31 09:34 825次阅读
    <b class='flag-5'>强化学习</b>会让自动驾驶模型<b class='flag-5'>学习</b>更快吗?

    多智能体强化学习(MARL)核心概念与算法概览

    训练单个RL智能体的过程非常简单,那么我们现在换一个场景,同时训练五个智能体,而且每个都有自己的目标、只能看到部分信息,还能互相帮忙。这就是多智能体强化学习
    的头像 发表于 01-21 16:21 327次阅读
    多智能体<b class='flag-5'>强化学习</b>(MARL)核心概念与算法概览

    上汽别克至境E7首发搭载Momenta R6强化学习大模型

    别克至境家族迎来新成员——大五座智能SUV别克至境E7首发。新车将搭载Momenta R6强化学习大模型,带来全场景的智能出行体验。
    的头像 发表于 01-12 16:23 488次阅读

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    深度学习技能的工程师起薪18K,3-5年经验可达35-50K • 行业分布:电子制造(38%)、汽车零部件(22%)、半导体(19%)、医疗器械(11%)为主要就业领域 本次团购通过整合11大系列课程
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课程(11大系列课程,共5000+分钟)

    深度学习技能的工程师起薪18K,3-5年经验可达35-50K • 行业分布:电子制造(38%)、汽车零部件(22%)、半导体(19%)、医疗器械(11%)为主要就业领域 本次团购通过整合11大系列课程
    发表于 12-03 13:50

    今日看点:智元推出真机强化学习;美国软件公司SAS退出中国市场

    智元推出真机强化学习,机器人训练周期从“数周”减至“数十分钟”   近日,智元机器人宣布其研发的真机强化学习技术,已在与龙旗科技合作的验证产线中成功落地。据介绍,此次落地的真机强化学习方案,机器人
    发表于 11-05 09:44 1155次阅读

    自动驾驶中常提的“强化学习”是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,有些方案中会提到“强化学习(Reinforcement Learning,简称RL)”,强化学习是一类让机器通过试错来学会做决策的技术。简单理解
    的头像 发表于 10-23 09:00 881次阅读
    自动驾驶中常提的“<b class='flag-5'>强化学习</b>”是个啥?

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一个适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习(在尝试和错误中进行学习),为所有机器
    的头像 发表于 07-14 15:29 2613次阅读
    NVIDIA Isaac Lab可用环境与<b class='flag-5'>强化学习</b>脚本使用指南

    18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现

    本来转自:DeepHubIMBA本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。为确保内容
    的头像 发表于 04-23 13:22 1771次阅读
    18个常用的<b class='flag-5'>强化学习</b>算法整理:从基础方法到<b class='flag-5'>高级</b>模型的理论技术与代码实现