谷歌提出对加速智能体的学习过程-电子发烧友网

在强化学习问题中，关于任务目标的制定，往往需要开发人员花费很多的精力，在本文中，谷歌大脑联合佐治亚理工学院提出了正向-反向强化学习（Forward-Backward Reinforcement Learning，FBRL），它既能从开始位置正向进行探索，也可以从目标开始进行反向探索，从而加速智能体的学习过程。

一般来说，强化学习问题的目标通常是通过手动指定的奖励来定义的。为了设计这些问题，学习算法的开发人员必须从本质上了解任务的目标是什么。然而我们却经常要求智能体在没有任何监督的情况下，在这些稀疏奖励之外，独自发现这些任务目标。虽然强化学习的很多力量来自于这样一种概念，即智能体可以在很少的指导下进行学习，但这一要求对训练过程造成了极大的负担。

如果我们放松这一限制，并赋予智能体关于奖励函数的知识，尤其是目标，那么我们就可以利用反向归纳法（backwards induction）来加速训练过程。为了达到这个目的，我们提出训练一个模型，学习从已知的目标状态中想象出反向步骤。

我们的方法不是专门训练一个智能体以决策该如何在前进的同时到达一个目标，而是反向而行，共同预测我们是如何到达目标的。我们在Gridworld和汉诺塔（Towers of Hanoi）中对我们的研究进行了评估，并通过经验证明了，它的性能比标准的深度双Q学习（Deep Double Q-Learning，DDQN）更好。

强化学习（Reinforcement Learning，RL）问题通常是由智能体在对环境的任务奖励盲然无知的情况下规划的。然而，对于许多稀疏奖励问题，包括点对点导航、拾取和放置操纵、装配等等目标导向的任务，赋予该智能体以奖励函数的知识，对于学习可泛化行为来说，既可行又实用。

通常，这些问题的开发人员通常知道任务目标是什么，但不一定知道如何解决这些问题。在本文中，我们将介绍我们如何利用对目标的知识，使我们甚至能够在智能体到达这些领域之前学习这些领域中的行为。相比于那些从一开始就将学习初始化的方法，这种规划性方案可能更容易解决。

例如，如果我们知道所需的位置、姿势或任务配置，那么我们就可以逆转那些将我们带到那里的操作，而不是迫使智能体独自通过随机发现来解决这些难题。

Gridworld和汉诺塔环境

本文中，我们介绍了正向-反向强化学习（Forward-Backward Reinforcement Learning，FBRL），它引入反向归纳，使我们的智能体能够及时进行逆向推理。通过一个迭代过程，我们既从开始位置正向进行了探索，也从目标开始进行了反向探索。

为了实现这一点，我们引入了一个已学习的反向动态模型，以从已知的的目标状态开始进行反向探索，并在这个局部领域中更新值。这就产生了“展开”稀疏奖励的效果，从而使它们更容易发现，并因此加速了学习过程。

标准的基于模型的方法旨在通过正向想象步骤并使用这些产生幻觉的事件来增加训练数据，从而减少学习优秀策略所必需的经验的数量。然而，并不能保证预期的状态会通向目标，所以这些转出结果可能是不充分的。

预测一个行为的结果的能力并不一定能提供指导，告诉我们哪些行为会通向目标。与此相反，FBRL采用了一种更有指导性的方法，它给定了一个精确的模型，我们相信，每一个处于反向步骤中的状态都有通向目标的路径。

Gridworld中的实验结果，其中n =5、10、15、20。我们分别使用50、100、150、200步的固定水平，结果是10次实验的平均值。

NVIDIA和谷歌云宣布开展一项新的合作，加速AI开发

NVIDIA 和谷歌云宣布开展一项新的合作，以帮助全球初创企业加速创建生成式 AI 应用和服务。

发表于 04-11 14:03 •158次阅读

谷歌模型框架是什么软件？谷歌模型框架怎么用？

谷歌模型框架通常指的是谷歌开发的用于机器学习和人工智能的软件框架，其中最著名的是TensorFlow。TensorFlow是一个开源的机器学习

发表于 03-01 16:25 •235次阅读

谷歌模型框架是什么？有哪些功能和应用？

谷歌模型框架（Google Model Framework）并不是一个特定的框架，而是指谷歌开发的一系列软件框架，用于支持机器学习和人工智能的应用。以下是一些与

发表于 02-29 18:11 •659次阅读

家居智能化，推动AI加速器的发展

电子发烧友网报道（文/黄山明）AI加速芯片，也称为人工智能加速器（AI Accelerator），是一种专为执行机器学习和深度学习任务而设计

发表于 02-23 00:18 •4064次阅读

英特尔、谷歌、英伟达运用人工智能推动处理器设计与生产

两家著名的芯片设计软件企业，Cadence和Synopsys，均利用人工智能强化设计工具。谷歌展示了使用人工智能开发AI加速度器的方法。英伟达亦在产品制造

发表于 12-15 10:16 •274次阅读

GPU在深度学习中的应用与优势

人工智能的飞速发展，深度学习作为其重要分支，正在推动着诸多领域的创新。在这个过程中，GPU扮演着不可或缺的角色。就像超级英雄电影中的主角一样，GPU在深度学习中拥有举足轻重的地位。那么

发表于 12-06 08:27 •714次阅读

Infosys与谷歌云扩大合作，助力企业转型成为人工智能优先组织

生成式人工智能实验室将利用Infosys Topaz和谷歌云生成式人工智能技术加速行业AI解决方案的开发 Infosys 将对2万名从业者提供谷歌

发表于 10-27 16:35 •321次阅读

用赛灵思FPGA加速机器学习推断

电子发烧友网站提供《用赛灵思FPGA加速机器学习推断.pdf》资料免费下载

发表于 09-15 15:02 •1次下载

人工智能是谁提出的

人工智能是谁提出的人工智能是一项众所周知的技术，当前它的发展迅速，广泛应用于各个领域。但是，有关人工智能最早提出的人物以及它的历史背景，却

发表于 08-12 16:58 •2241次阅读

人工智能谁提出的

需要智力来完成。这些任务可以包括语言理解，图像处理，机器学习和自然语言处理等。人工智能的概念已经存在了很长时间，但是，它是由哪个人提出的呢？这是一个有趣的问题，本文将为您解答。人工智能

发表于 08-12 16:48 •2087次阅读

人工智能如何学习

人工智能如何学习人工智能（AI）是一种复杂的技术，能够模拟人类的思考和行为，并使用数据分析，机器学习和深度学习技术来执行一系列任务。然而

发表于 08-12 16:44 •818次阅读

人工智能怎么学习

人工智能怎么学随着科技的不断发展，人工智能（Artificial Intelligence，AI）已经成为一个备受关注的领域。从Apple的Siri到谷歌的AlphaGo，人工智能的

发表于 08-12 16:31 •1073次阅读

放弃谷歌百度，和chatGPT结对编程。效率会不会更高。#编程 #chatgpt #ai #程序员

谷歌

学习电子知识
发布于 :2023年07月03日 20:16:25

AI 人工智能的未来在哪？

人工智能、AI智能大模型已经孵化；繁衍过程将突飞猛进，ChatGPT已经上线。世界首富马斯克认为AI对人类是一种威胁；谷歌前CEO施密特认为AI和机器

发表于 06-27 10:48

截止在即！谷歌出海创业加速器报名仅剩 5 天，导师阵容持续更新中

扫描下方二维码报名加入谷歌出海创业加速器，把握最后机遇，在出海创业道路上加速前行! 作为初创团队的出海 "同行者"，谷歌出海创业加速器凝结

发表于 06-26 10:15 •239次阅读

搜索历史

谷歌提出对加速智能体的学习过程

评论

NVIDIA和谷歌云宣布开展一项新的合作，加速AI开发

谷歌模型框架是什么软件？谷歌模型框架怎么用？

谷歌模型框架是什么？有哪些功能和应用？

家居智能化，推动AI加速器的发展

英特尔、谷歌、英伟达运用人工智能推动处理器设计与生产

GPU在深度学习中的应用与优势

Infosys与谷歌云扩大合作，助力企业转型成为人工智能优先组织

用赛灵思FPGA加速机器学习推断

人工智能是谁提出的

人工智能谁提出的

人工智能如何学习

人工智能怎么学习

放弃谷歌百度，和chatGPT结对编程。效率会不会更高。#编程 #chatgpt #ai #程序员

AI 人工智能的未来在哪？

截止在即！谷歌出海创业加速器报名仅剩 5 天，导师阵容持续更新中