0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

深度强化学习已经达到了尽头?

DPVg_AI_era 来源:lq 2019-04-29 08:56 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

近日,Reddit一位网友根据近期OpenAI Five、AlphaStar的表现,提出“深度强化学习是否已经到达尽头”的问题。此问题一出便引起了众网友的热烈讨论,观点向一边倒:根本没到尽头!

深度强化学习已经达到了尽头?

前几日,OpenAI Five摆擂三天,以99%的胜率秒杀人类玩家。但值得注意的是,OpenAI Five是接受了45000年的训练,而人类只通过一天的时间便找到了战胜它的策略。

OpenAI Five和AlphaStar都是深度强化学(DRL)最大规模、最精细的实现方式。但即便是AlphaStar上场,估计结果都是一样的。

Reddit网友便针对此现象,抛出了这样一个问题:

有很多研究正在进行,以使DRL更具数据效率,并使深度学习对于分布不均和对抗性的例子更加强大,但与人类的差距是如此极端以至于我怀疑是不是快要达到深度学习的极限了?亦或还是有希望能够推动范式的发展?

许多网友比较倾向的观点是:根本没有达到所谓的极限,而只是可能到了人们不再用“智能”这样的词来谈论DRL的地步。

网友hobbesfanclub认为:

我觉得我们才刚刚开始。每天都有很多东西被释放出来,我甚至都跟不上。几天前我认为是最先进的技术突然间就不存在了,因为在这个领域里有大量的工作要做。对于我们这些在这一领域工作的人来说,这些进步仍然是令人难以置信的,在我看来,真正令人印象深刻的是,这些技术在整体上仍然非常年轻……

网友adventuringraw认为:

这是一个很有趣的问题,关于深度学习本身也有类似的讨论——我们已经达到神经网络的极限了吗?如果没有根本性的范式转变,是否更不可能?

但是你看,在神经网络上有各种各样的方法,这些方法在2012年可能会让一些人大吃一惊。很明显,GAN、VAE、神经风格迁移、深度强化学习本身就属于神经网络范畴内,与其说深学习被取代了,不如说它被置于“堆栈”之下了。它是一个组成部分,一个解决问题的策略,一种思考方式。即使是深度网络自己,也是建立在过去各种进步和见解的基础上的。

我个人的想法是:这似乎是无模型方法的一个基本问题。你需要在特征空间中进行密集的覆盖,或者换句话说,你知道在一个已经完全探索过的领域里该做什么,但你不一定能够推断和推理出新的环境,你需要一个全局模型来进行推理。

我之前看过基于Google Brain的'SimPLe'模型的RL论文,开始向基于模型的RL过渡并不是一个全新的概念。但是在我们得到一个能够在空间中进行抽象推理的智能体之前,还有一些严重的问题有待解决:

它如何学习空间中相关的独立实体、动作、等等?

它能在无人监督的情况下完成吗?

它如何将当前的世界理解压缩为一个更低的维度表示,从而完美地捕捉到解决当前问题最需要的维度?

它能学会周围环境的地图吗?

创建分层长期计划的最佳方法是什么?

......

即使只使用图像分类,我们仍然很难提取基于形状的特征而不是基于纹理的特征。一般来说,局部模式似乎比全局模式更容易获取,所以我想OpenAI Five更容易利用局部模式所采用的策略,这使得它很容易受到具有正确洞察力的玩家的攻击。

我一直在读Judea Pearl的《因果关系》(Causality),有一些有趣的东西是值得思考的。我不认为他的因果关系模型是我们需要让智能体明确地向世界学习什么东西,但是若是让一个智能体能够完全适应新环境并在宏观规模上进行规划的整体似乎是需要它能够反事实地推理,并对它自己的世界有一个强有力的理解。

考虑到我们才刚刚开始了解创建一个鲁棒的图像分类器需要什么(即使是在有监督的环境中,更不用说无监督的环境了),我认为在深度强化学习完全成长之前,我们已经有了一些基础理论。

但非常疯狂的事情是,我们似乎正在逐步消除了这些障碍。而另一方面,却出现 了一个可以玩Dota2、学会合作、学会对世界进行推理的无监督系统,这似乎让人觉得我们快要到达技术的顶尖了,但实际上并没有。所以我对于OpenAI没有到达那个点并不感到惊讶。但对于接下来即将发生的事情还是抱有很大的期待的。

该问题似乎在reddit的讨论热度很高,但是纵观网友们的评论,可以很容易看出对这个问题的看法是向一边倾倒的:

深度强化学习远未及极限,还有很长的一段路要走。

“寒冬论”四起,荣耀属于熬过寒冬的人

但其实,人们不仅会对深度强化学习提出“寒冬论”的言论,深度学习亦是如此。

多年来,深度学习一直处于所谓的人工智能革命的最前沿,许多人相信深度学习将带领我们进入通用AI时代。在2014,2015,2016年,很多事件每每推动人们对 Ai的理解边界。例如Alpha Go等。特斯拉等公司甚至宣称:全自动驾驶汽车正在路上。

但是现在,2018年中期,事情开始发生变化。从表面上看,NIPS会议仍然很火,关于AI的新闻也很多,Elon Mask仍然看好自动驾驶汽车,而Google CEO不断重申Andrew Ng的口号,即AI比电力作出了更大的贡献。但是这些言论已经开始出现裂纹。裂纹最明显的地方是自动驾驶- 这种现实世界中的实际应用。

当ImageNet有了很好的解决方案(注意这并不意味着视觉问题得到已经解决),该领域的许多杰出研究人员(甚至包括一直保持低调的Geoff Hinton)都在积极地接受采访,在社交媒体上发布内容(例如Yann Lecun,吴恩达,李飞飞等)。他们的话,可以总结为:世界正处在一场巨大的AI革命中。然而,好几年已经过去了,这些人的Twitter信息变得不那么活跃了,比如 Andrew Ng:

2013年 - 每天0.413推文

2014 年- 每天0.605条推文

2015 -每天0.320条推文

2016 -每天0.802推文

2017 -每天0.668推文

2018 -每天0.263推文(至5月24日)

也许这是因为Andrew 的某些夸张言论,在当下会被进行更详细的审查,如下面的推文所示:

不可否认,深度学习的热度已经大大下降,赞美深度学习作为AI终极算法的推文少得多了,而且论文正在变得不那么“革命”,现在大家换了个词,叫:进化。

自从Alpha Zero以来,DeepMind已经许久没有产出令人惊叹的东西了。OpenAI更是相当的低调,他们最近一次出现在媒体的报道上,是他们做了一个自动打Dota 2的机器人 [我一开始以为,这是跟 Alpha Go 一样的伟大,然后后来证明,并不是]。

从某些文章来看,貌似Google实际上并不知道如何处理Deepmind,因为他们的结果显然不如原先预期的那么实际......至于杰出的研究人员,他们一般都为了funding 在各种政府机构间游走,Yann Lecun甚至从 Facebook的AI首席科学家的位置上下台了。

像这种从富有的大公司向政府资助的研究机构的逐渐转变表明,这些公司对这类研究的兴趣(我认为是谷歌和Facebook)实际上正在慢慢消失。这些都是早期迹象,没有人大声的宣扬,但这些行动就像肢体语言,也能传达某种意思。

深度学习的一个重要口号是它可以轻松的扩展。我们在2012年拥有60M参数的AlexNet,现在我们已经有至少1000倍的数量的模型了吗?好吧,我们可能会这样做,但问题是 - 这些东西有1000x的能力提升吗?100倍的能力?openAI的研究派上用场:

因此,就视觉应用而言,我们看到VGG和Resnets在计算资源应用的一个数量级上饱和(就参数数量而言实际上较少)。Xception是谷歌Inception架构的一种变体,实际上它在ImageNet上的表现只是略微优于其他模型,因为AlexNet基本上解决了ImageNet。

因此,在比AlexNet计算量提高100倍的情况下,我们在视觉方面已经有了近乎饱和的体系结构,换句话说,图像分类的精确已经提不动了。

神经机器翻译是所有大型网络搜索玩家(google, baidu, yahoo 等)的一大努力,难怪它有多少机器就用多少机器(尽管谷歌翻译仍然很糟糕,虽然已经在变得更好了)。

该图上的最新三点有趣地显示了Deep Mind和OpenAI应用于游戏的强化学习相关项目。特别是AlphaGo Zero和稍微更通用的Alpha Zero需要大量计算,但不适用于真实世界的应用程序,因为需要大量计算来模拟和生成这些数据来供这些模型使用。

好的,现在我们可以在几分钟内完成AlexNet的训练,但是我们可以在几天内训练一个比AlexNet大1000倍,质量更好的模型吗?显然不是。

迄今为止,对深度学习的声誉打击最大的事件来自自动驾驶领域。一开始人们认为End-to-End的深度学习可以以某种方式解决自动驾驶问题 (Nvidia特别推崇这一理念)。现在我觉得地球上应该没有人还相信这一点(尽管我可能是错的)。

看看前年加州车辆管理局DMV给各个厂商的自动驾驶车辆人为干预报告,Nvidia的自动驾驶汽车在缺少人为干预的情况下,连开10英里都做不到。

自2016年以来,特斯拉自动驾驶系统发生了几起事故,其中一些事件是致命的。可以说,特斯拉的自动驾驶辅助技术不应该与自动驾驶混淆起来虽然在核心上它依赖于同一种技术。

都到今天了,它仍然不能自动停在路口,不能识别交通信号灯,甚至不能通过环形交叉路口。那是在2018年5月,在承诺特斯拉将自动驾驶从西海岸开到东海岸的几个月后(尽管传言是他们已经尝试过但是在小于30次人工干预的情况下无法实现)。几个月前(2018年2月),伊隆马斯克(Elon Musk)在一次电话会议上被问及海岸到海岸的行驶问题时重复说到:

“我们本可以实现海岸到海岸的驾驶,但它需要太多的专门代码来有效地进行游戏;或者使代码变得脆弱一些,这样它只适用于一个特定的路线,这不是通用的解决方案。

我对神经网络方面取得的进展感到非常兴奋。但是看起来并没有太多的进展。它会觉得这是一个蹩脚的司机。就像…好吧,这是一个非常好的司机。像“Holy Cow!”

因此,有许多人开始对深度学习提出“寒冬论”:

预测人工智能的冬天就像是猜测股市崩盘一样——不可能精确地知道发生的时间,但几乎可以肯定会在某个时刻发生,就像股市崩盘之前,有迹象表明会发生危机,但在当时的环境中,却很容易被大家忽视。

在我看来,深度学习已经出现了明显的下降迹象。我并不知道这个冬天会有多“深度”,我也不知道接下来会发生什么,但我可以肯定,这个冬天一定会来临,并且只会来的比想象的要早。

然而,上个月2018年图灵奖公布,深度学习三巨头:Yoshua Bengio、Geoffrey Hinton、Yann LeCun获奖,三人瓜分100万美元奖金。

Yann LeCun、Geoffrey Hinton、Yoshua Bengio

去年,”深度学习寒冬论“频起,三位大神也在多个场合对”寒冬“做出了回应。实际上,三人对“寒冬”早有抗体,在上世纪八十年代,Geoffrey Hinton等人坐了数年的冷板凳,直到本世纪AI的再度爆发。

不仅如此,Geoffrey Hinton还提出新的神经网络模型Capsule Network(胶囊网络),试图找到解决深度学习缺陷的新方法,这位71岁的老人熬过最冷的AI冬天,并且认定下一个“冬天”不会到来。

事实证明,荣耀是属于熬过寒冬的人。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261465
  • 自动驾驶
    +关注

    关注

    791

    文章

    14668

    浏览量

    176454
  • 强化学习
    +关注

    关注

    4

    文章

    269

    浏览量

    11900

原文标题:灵魂一问:深度强化学习终到尽头?

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    如何深度学习机器视觉的应用场景

    深度学习视觉应用场景大全 工业制造领域 复杂缺陷检测:处理传统算法难以描述的非标准化缺陷模式 非标产品分类:对形状、颜色、纹理多变的产品进行智能分类 外观质量评估:基于学习的外观质量标准判定 精密
    的头像 发表于 11-27 10:19 47次阅读

    今日看点:智元推出真机强化学习;美国软件公司SAS退出中国市场

    智元推出真机强化学习,机器人训练周期从“数周”减至“数十分钟”   近日,智元机器人宣布其研发的真机强化学习技术,已在与龙旗科技合作的验证产线中成功落地。据介绍,此次落地的真机强化学习方案,机器人
    发表于 11-05 09:44 893次阅读

    自动驾驶中常提的“强化学习”是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,有些方案中会提到“强化学习(Reinforcement Learning,简称RL)”,强化学习是一类让机器通过试错来学会做决策的技术。简单理解
    的头像 发表于 10-23 09:00 324次阅读
    自动驾驶中常提的“<b class='flag-5'>强化学习</b>”是个啥?

    沐曦助力上海创智学院siiRL 2.0全面升级

    在人工智能加速迈向大模型与智能体时代的今天,强化学习(Reinforcement Learning,RL)已经成为推动智能系统演化的关键技术。
    的头像 发表于 09-29 11:38 566次阅读
    沐曦助力上海创智学院siiRL 2.0全面升级

    如何在机器视觉中部署深度学习神经网络

    图 1:基于深度学习的目标检测可定位已训练的目标类别,并通过矩形框(边界框)对其进行标识。 在讨论人工智能(AI)或深度学习时,经常会出现“神经网络”、“黑箱”、“标注”等术语。这些概
    的头像 发表于 09-10 17:38 678次阅读
    如何在机器视觉中部署<b class='flag-5'>深度</b><b class='flag-5'>学习</b>神经网络

    自动驾驶中Transformer大模型会取代深度学习吗?

    [首发于智驾最前沿微信公众号]近年来,随着ChatGPT、Claude、文心一言等大语言模型在生成文本、对话交互等领域的惊艳表现,“Transformer架构是否正在取代传统深度学习”这一话题一直被
    的头像 发表于 08-13 09:15 3916次阅读
    自动驾驶中Transformer大模型会取代<b class='flag-5'>深度</b><b class='flag-5'>学习</b>吗?

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一个适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习(在尝试和错误中进行学习),为所有机器
    的头像 发表于 07-14 15:29 1825次阅读
    NVIDIA Isaac Lab可用环境与<b class='flag-5'>强化学习</b>脚本使用指南

    18个常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现

    本来转自:DeepHubIMBA本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。为确保内容
    的头像 发表于 04-23 13:22 1300次阅读
    18个常用的<b class='flag-5'>强化学习</b>算法整理:从基础方法到高级模型的理论技术与代码实现

    嵌入式AI技术之深度学习:数据样本预处理过程中使用合适的特征变换对深度学习的意义

      作者:苏勇Andrew 使用神经网络实现机器学习,网络的每个层都将对输入的数据做一次抽象,多层神经网络构成深度学习的框架,可以深度理解数据中所要表示的规律。从原理上看,使用
    的头像 发表于 04-02 18:21 1280次阅读

    如何排除深度学习工作台上量化OpenVINO™的特定层?

    无法确定如何排除要在深度学习工作台上量化OpenVINO™特定层
    发表于 03-06 07:31

    详解RAD端到端强化学习后训练范式

    受限于算力和数据,大语言模型预训练的 scalinglaw 已经趋近于极限。DeepSeekR1/OpenAl01通过强化学习后训练涌现了强大的推理能力,掀起新一轮技术革新。
    的头像 发表于 02-25 14:06 1019次阅读
    详解RAD端到端<b class='flag-5'>强化学习</b>后训练范式

    军事应用中深度学习的挑战与机遇

    人工智能尤其是深度学习技术的最新进展,加速了不同应用领域的创新与发展。深度学习技术的发展深刻影响了军事发展趋势,导致战争形式和模式发生重大变化。本文将概述
    的头像 发表于 02-14 11:15 818次阅读

    BP神经网络与深度学习的关系

    BP神经网络与深度学习之间存在着密切的关系,以下是对它们之间关系的介绍: 一、BP神经网络的基本概念 BP神经网络,即反向传播神经网络(Backpropagation Neural Network
    的头像 发表于 02-12 15:15 1338次阅读

    浅谈适用规模充电站的深度学习有序充电策略

    深度强化学习能够有效计及电动汽车出行模式和充电需求的不确定性,实现充电场站充电成本化的目标。通过对电动汽车泊车时间和充电需求特征进行提取,建立适用于大规模电动汽车有序充电的马尔可夫决策过程模型,并
    的头像 发表于 02-08 15:00 805次阅读
    浅谈适用规模充电站的<b class='flag-5'>深度</b><b class='flag-5'>学习</b>有序充电策略

    智谱推出深度推理模型GLM-Zero预览版

    近日,智谱公司正式发布了其深度推理模型GLM-Zero的预览版——GLM-Zero-Preview。这款模型标志着智谱在扩展强化学习技术训练推理模型方面的重大突破,成为其首个专注于增强AI推理能力
    的头像 发表于 01-03 10:42 764次阅读