强化学习之父Richard Sutton总结AI研究“苦涩教训”-电子发烧友网

强化学习之父Richard Sutton总结AI研究“苦涩教训”，认为利用算力才是王道，不应依靠人类知识。对此，著名机器人专家Rodney Brooks 撰文反驳，阐述了Sutton观点错误的六大原因。

The Bitter Lesson还是A Better Lesson？

近日，强化学习之父、加拿大计算机科学家 Richard S. Sutton 在其个人网站上发文The Bitter Lesson，指出了过去 70 年来 AI 研究方面的苦涩教训：我们过于依靠人类知识了。

参考阅读：

强化学习之父：AI研究70年教训深刻，未来探索要靠智能体自己

他认为，过去 70 年来，AI 研究走过的最大弯路，就是过于重视人类既有经验和知识，研究人员在训练 AI 模型时，往往想将人类知识灌输给智能体，而不是让智能体自己去探索。这实际上只是个记录的过程，并未实现真正的学习。

Sutton说，事实证明，这种基于人类知识的所谓 “以人为本” 的方法，并未收到很好的效果，尤其是在可用计算力迅猛增长的大背景下，在国际象棋、围棋、计算机视觉等热门领域，智能体本身已经可以自己完成 “规模化搜索和学习”，取得的效果要远好于传统方法。

由此，Sutton认为利用算力才是王道，过去的教训必须总结，未来的研究中，应该让 AI 智能体自己去发现，而不是将我们发现的东西记下来。

这番言论引来许多反对的声音，比如，牛津大学计算机科学教授 Shimon Whiteson 写道：“Sutton 说 AI 的发展历程告诉我们，利用计算力要胜过利用人类知识。我认为这是对历史的一种很奇怪的解释。AI 的成功不仅取决于丰富的计算资源，还取决于没有被抛弃的人类知识。”

近日，著名 AI 专家 Rodney Brooks 也加入反对Sutton的队伍，他撰文 “A Better Lesson”，阐述Rich Sutton的观点错误的六大原因。

Rodney Brooks 被誉为机器人教父，机器人领域祖师爷级别的学者，他还是澳洲科学院院士，美国国家工程院院士，前 MIT 计算机科学和人工智能实验室主任。

Rodney Brooks

新智元对 Rodney Brooks 的评论文章翻译如下：

Sutton观点错误的六大原因

就在上周，Rich Sutton 发表了一篇题为《苦涩的教训》(The Bitter Lesson) 的短文。我打算尽量把这篇评论写得比他的帖子更短。Sutton 在强化学习领域有着长期而持续的贡献。

在他的文章中，Sutton 用了很多很好的例子来论证，在人工智能 70 年的历史中，更多的计算和更少的内置知识总是构建 AI 系统的最佳方式。这与许多新进入 AI 领域的人们目前的思维模式产生了共鸣，他们认为，设计学习网络并投入大量计算能力，要比为某个任务专门设计一个计算架构更好。然而，我必须要说的是，上周在美国国家科学院 (National Ac ademy of Science) 举办的为期两天的深度学习研讨会上，后一种观点更为流行，某种程度上这与 Sutton 的观点正好相反。

我认为 Sutton 错了，原因有很多。

1.深度学习最著名的成功之一就是图像标注 (image labeling)，使用 CNN，即卷积神经网络，但 CNN 的本质是网络的前端由人类设计来处理平移不变性，即对象可以出现在框架的任何地方。使用深度学习网络也必须学习那些看起来学究气十足的东西，并且会使学习的计算成本提高许多个数量级。

2.在图像标记方面，还有其他一些东西受到了极大的影响，因为目前的 CNN 中缺乏某些众所周知对人类表现很重要的内置功能。例如，颜色恒常性 (color constancy)。

有这么一个著名的例子：一个停车标志上被贴了一些胶带，就被一个为自动驾驶训练的 CNN 误认为是一个 “限速 45 英里” 的限速标志了。

人类不会犯这样的错误，因为他们知道停车标志是红色的，限速标志是白色的。CNN 并不知道这一点，因为相机中的像素颜色和物体的实际颜色之间的关系是一种非常复杂的关系，而这种关系并没有被训练算法使用的区区数千万张训练图像所阐明。

未来可行的训练集可以是将人类的工作负载转移为创建大量的训练集，并编码我们希望系统学习的标签。这就像直接构建一个颜色恒常性阶段一样需要内置知识。这是把人类的智力工作转移到其他地方的花招。

3.事实上，对于今天的大多数机器学习问题，都需要人来设计一个特定的网络架构才能使学习顺利进行。所以，我们现在期望的不是由人类构建特定的知识，而是由人类构建特定的、适当的网络，以及构建需要使用的特定训练机制。再说一次，说 AI 在没有人类参与的情况下取得成功，这是一种花招。相反，我们要求人类将他们的智慧以一种不同的形式注入算法中。

4. 大量的数据集根本不是人类学习东西所需要的，所以这里缺失了某些东西。今天的数据集可以有数十亿个样本，但一个人可能只需要少数几个样本就能学会同样的东西。但更糟糕的是，训练我们今天所看到的大多数网络所需的计算量只能由预算非常庞大的大公司提供，AI 的成本过高使得个人甚至大学院系难以推动。对于智能系统，这不是一个可持续发展的模式。对于一些机器学习问题，由于在训练过程中需要消耗大量能耗，我们已经开始看到一些明显节约的方法。

5. 摩尔定律 (Moore’s Law) 正在放缓，因此，一些计算机架构师报告称，单个芯片上计算量倍增的时间正在从一年延长到 20 年。此外，登纳德缩放定律 (Dennard scaling) 在 2006 年的崩溃意味着机器的功耗随着性能提升而提高，因此我们甚至可能无法承受在小型机器上提高机器学习的结果 (更不用说实际的学习)，例如，自动驾驶汽车可能需要 2500 瓦的电力来进行计算 —— 而人脑只需要 20 瓦。因此，Sutton 的观点只会让情况变得更糟，让 AI 和 ML 的使用变得不切实际。

6.计算机架构师现在正试图通过为训练好的网络构建专用芯片来解决这些问题。但他们需要将硬件锁定到特定的网络结构，并利用人工分析，在不改变计算结果的情况下大幅降低电力预算。这有两个缺点。首先，它锁定了特定于特定解决方案的硬件，因此每当我们遇到新的 ML 问题，我们都需要设计新的硬件。其次，它只是简单地转移了应用人类智能的地方，而不是完全消除人类参与设计的需要。

因此，我对 Rich Sutton 这篇文章的看法是，我们应该从过去 70 年的 AI 研究中吸取的教训，根本不是只要使用更多的计算力就总能成功。相反，我认为应该吸取的更好的教训是，我们必须考虑任何解决方案的总成本，而且到目前为止，这些都需要大量的人类智慧。

这篇评论，包括这句话，比 Sutton 的帖子短了 78 个词。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
206

文章
27033

浏览量
201383
智能体

智能体

+关注

关注
1

文章
111

浏览量
10424
强化学习

强化学习

+关注

关注
4

文章
259

浏览量
11113

原文标题：算力不是王道，强化学习之父Rich Sutton的六点错误

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

什么是强化学习

强化学习是机器学习的方式之一，它与监督学习、无监督学习并列，是三种机器学习训练方法之一。在围棋上击败世界第一李世石的 AlphaGo、在《

发表于 10-30 11:36 •1641次阅读

NeurIPS 2023 | 扩散模型解决多任务强化学习问题

扩散模型（diffusion model）在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习（RL）中来解决序列决策问题

发表于 10-02 10:45 •447次阅读

NeurIPS 2023 | 扩散模型解决多任务<b class='flag-5'>强化学习</b>问题

模拟矩阵在深度强化学习智能控制系统中的应用

讯维模拟矩阵在深度强化学习智能控制系统中的应用主要是通过构建一个包含多种环境信息和动作空间的模拟矩阵，来模拟和预测深度强化学习智能控制系统在不同环境下的表现和效果，从而优化控制策略和提高系统的性能

发表于 09-04 14:26 •327次阅读

模拟矩阵在深度<b class='flag-5'>强化学习</b>智能控制系统中的应用

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

体的发展，从最早的 AlphaGo、AlphaZero 到后来的多模态、多任务、多具身 AI 智能体 Gato，智能体的训练方法和能力都在不断演进。从中不难发现，随着大模型越来越成为人工智能发展的主流趋势，DeepMind 在智能体的开发中不断尝试将强化学习与自然语言处

发表于 07-24 16:55 •331次阅读

语言模型做先验，统一<b class='flag-5'>强化学习</b>智能体，DeepMind选择走这条通用<b class='flag-5'>AI</b>之路

基于强化学习的目标检测算法案例

摘要：基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为，其产生的候选区域形状和尺寸变化单一，导致目标检测精确度较低。为此，在基于深度强化学习的视觉目标检测算法基础上，提出联合回归与深度

发表于 07-19 14:35 •0次下载

特斯拉前AI总监Karpathy：我被自动驾驶分了心，AI智能体才是未来！

但是因为当时的技术所限，做出来的效果不好，于是他和OpenAI就改变了方向，开始做大语言模型了。最简单的例子就是，现在没有人再像2016年那样用强化学习的方法来研究AI智能体了。

发表于 07-11 11:17 •504次阅读

45. 5 2 强化学习（深度强化学习） #硬声创作季

机器学习

充八万

发布于 :2023年07月07日 01:56:26

什么是深度强化学习?深度强化学习算法应用分析

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务。

发表于 07-01 10:29 •1186次阅读

什么是深度<b class='flag-5'>强化学习</b>?深度<b class='flag-5'>强化学习</b>算法应用分析

电化学研究领域巨人锂离子电池之父、诺贝尔化学奖得主约翰·B·古迪纳夫逝世

电化学研究领域巨人锂离子电池之父、诺贝尔化学奖得主约翰·B·古迪纳夫逝世 2023年6月26日，电化学研

发表于 06-27 12:00 •813次阅读

人工智能强化学习开源分享

电子发烧友网站提供《人工智能强化学习开源分享.zip》资料免费下载

发表于 06-20 09:27 •1次下载

利用强化学习来探索更优排序算法的AI系统

前言 DeepMind 最近在 Nature 发表了一篇论文 AlphaDev[2, 3]，一个利用强化学习来探索更优排序算法的AI系统。 AlphaDev 系统直接从 CPU 汇编指令的层面入手

发表于 06-19 10:49 •392次阅读

基于深度强化学习的视觉反馈机械臂抓取系统

机械臂抓取摆放及堆叠物体是智能工厂流水线上常见的工序，可以有效的提升生产效率，本文针对机械臂的抓取摆放、抓取堆叠等常见任务，结合深度强化学习及视觉反馈，采用AprilTag视觉标签、后视经验回放机制

发表于 06-12 11:25 •1389次阅读

ICLR 2023 Spotlight｜节省95%训练开销，清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

大模型时代，模型压缩和加速显得尤为重要。传统监督学习可通过稀疏神经网络实现模型压缩和加速，那么同样需要大量计算开销的强化学习任务可以基于稀疏网络进行训练吗？本文提出了一种强化学习专用稀疏训练框架

发表于 06-11 21:40 •401次阅读

彻底改变算法交易：强化学习的力量

强化学习（RL）是人工智能的一个子领域，专注于决策过程。与其他形式的机器学习相比，强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习。

发表于 06-09 09:23 •369次阅读

亿图AI × 学习，终身学习的效率加速器

“学习型组织之父”彼得·圣吉在《第五项修炼：终身学习者》中提到，我们所有的学习都涉及我们如何与世界交往互动，而学习所带来的实践将影响我们如何

发表于 06-08 11:28 •367次阅读