0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌提出对加速智能体的学习过程

mK5P_AItists 来源:未知 作者:邓佳佳 2018-04-02 09:50 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在强化学习问题中,关于任务目标的制定,往往需要开发人员花费很多的精力,在本文中,谷歌大脑联合佐治亚理工学院提出了正向-反向强化学习(Forward-Backward Reinforcement Learning,FBRL),它既能从开始位置正向进行探索,也可以从目标开始进行反向探索,从而加速智能体的学习过程。

一般来说,强化学习问题的目标通常是通过手动指定的奖励来定义的。为了设计这些问题,学习算法的开发人员必须从本质上了解任务的目标是什么。然而我们却经常要求智能体在没有任何监督的情况下,在这些稀疏奖励之外,独自发现这些任务目标。虽然强化学习的很多力量来自于这样一种概念,即智能体可以在很少的指导下进行学习,但这一要求对训练过程造成了极大的负担。

如果我们放松这一限制,并赋予智能体关于奖励函数的知识,尤其是目标,那么我们就可以利用反向归纳法(backwards induction)来加速训练过程。为了达到这个目的,我们提出训练一个模型,学习从已知的目标状态中想象出反向步骤。

我们的方法不是专门训练一个智能体以决策该如何在前进的同时到达一个目标,而是反向而行,共同预测我们是如何到达目标的。我们在Gridworld和汉诺塔(Towers of Hanoi)中对我们的研究进行了评估,并通过经验证明了,它的性能比标准的深度双Q学习(Deep Double Q-Learning,DDQN)更好。

强化学习(Reinforcement Learning,RL)问题通常是由智能体在对环境的任务奖励盲然无知的情况下规划的。然而,对于许多稀疏奖励问题,包括点对点导航、拾取和放置操纵、装配等等目标导向的任务,赋予该智能体以奖励函数的知识,对于学习可泛化行为来说,既可行又实用。

通常,这些问题的开发人员通常知道任务目标是什么,但不一定知道如何解决这些问题。在本文中,我们将介绍我们如何利用对目标的知识,使我们甚至能够在智能体到达这些领域之前学习这些领域中的行为。相比于那些从一开始就将学习初始化的方法,这种规划性方案可能更容易解决。

例如,如果我们知道所需的位置、姿势或任务配置,那么我们就可以逆转那些将我们带到那里的操作,而不是迫使智能体独自通过随机发现来解决这些难题。

Gridworld和汉诺塔环境

本文中,我们介绍了正向-反向强化学习(Forward-Backward Reinforcement Learning,FBRL),它引入反向归纳,使我们的智能体能够及时进行逆向推理。通过一个迭代过程,我们既从开始位置正向进行了探索,也从目标开始进行了反向探索。

为了实现这一点,我们引入了一个已学习的反向动态模型,以从已知的的目标状态开始进行反向探索,并在这个局部领域中更新值。这就产生了“展开”稀疏奖励的效果,从而使它们更容易发现,并因此加速了学习过程。

标准的基于模型的方法旨在通过正向想象步骤并使用这些产生幻觉的事件来增加训练数据,从而减少学习优秀策略所必需的经验的数量。然而,并不能保证预期的状态会通向目标,所以这些转出结果可能是不充分的。

预测一个行为的结果的能力并不一定能提供指导,告诉我们哪些行为会通向目标。与此相反,FBRL采用了一种更有指导性的方法,它给定了一个精确的模型,我们相信,每一个处于反向步骤中的状态都有通向目标的路径。

Gridworld中的实验结果,其中n =5、10、15、20。我们分别使用50、100、150、200步的固定水平,结果是10次实验的平均值。

相关研究

当我们访问真正的动态模型时,可以使用纯粹基于模型的方法(如动态编程)来计算所有状态的值(Sutton和Barto于1998年提出),尽管当状态空间较大或连续时,难以在整个状态空间中进行迭代。Q-Learning是一种无模型方法,它通过直接访问状态以在线方式更新值,而函数逼近技术(如Deep Q-Learning)可以泛化到未见的数据中(Mnih等人于2015年提出)。

基于模型和无模型信息的混合方法也可以使用。例如,DYNA-Q(Sutton于1990年提出)是一种早期的方法,它使用想象的转出出来更新Q值,就如同在真实环境中经历过一样。最近出现了更多方法,例如NAF(Gu等人于2016年提出)和I2A(Weber等人于2017年提出)。但这些方法只使用正向的想象力。

与我们自己的方法相似的方法是反向的值迭代(Zang等人于2007年提出),但这是一种纯粹基于模型的方法,并且它不学习反向模型。一个相关的方法从一开始就实现双向搜索和目标(Baldassarre于2003年提出),但这项研究只是学习值,而我们的目标是学习行动和值。

另一项相似的研究是通过使用接近目标状态的反向课程来解决问题(Florensa等人于2017年提出)。但是,该方法假设智能体可以在目标附近得以初始化。我们不做这个假设,因为了解目标状态并不意味着我们知道该如何达到这一状态。

汉诺塔中的实验结果,其中n = 2、3。我们分别使用50、100步的固定水平。 结果是10次试验的平均值。

许多研究通过使用域知识来帮助加速学习,例如奖励塑造(Ng等人于1999年提出)。另一种方法是更有效地利用回放缓冲区中的经验。优先经验复现(Schaul等人于2015年提出)旨在回放具有高TD误差的样本。事后经验回放(Hindsight experience replay)将环境中的每个状态视为一个潜在目标,这样即使系统无法达到所需的目标,也可以进行学习。

使用反向动力学的概念类似于动力学逆过程(Agrawal等人于2016年,Pathak等人于2017年提出)。在这些方法中,系统预测在两个状态之间产生转换的动态。我们的方法是利用状态和动作来预测前一个状态。此函数的目的是进行反向操作,并使用此分解来学习靠近目标的值。

本文中,我们介绍了一种加速学习具有稀缺奖励问题的方法。我们介绍了FBRL,它从目标的反向过程中得到了想象步骤。我们证明了该方法在Gridworld和诺塔中的性能表现优于DDQN。这项研究有多个扩展方向。

我们对于评估一个反向计划方法很感兴趣,但我们也可以运用正向和反向的想象力进行训练。另一项进步是改善规划策略。我们使用了一种具有探索性和贪婪性的方法,但没有评估如何在两者之间进行权衡。我们可以使用优先扫描(Moore和Atkeson等人于1993年提出),它选择那些能够导致具有高TD误差状态的行为。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6245

    浏览量

    110269
  • 智能
    +关注

    关注

    8

    文章

    1745

    浏览量

    121903

原文标题:谷歌大脑提出对智能体进行「正向-反向」强化学习训练,加速训练过程

文章出处:【微信号:AItists,微信公众号:人工智能学家】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    智能设计模式和智能框架,你会了么?

    一、新闻 先播放一条最新新闻,通义团队官宣开源了两个智能 Alias-Agent 和 Data-Juicer Agent 。 Alias-Agent 提供了RaAct,Planner
    的头像 发表于 11-12 16:30 1059次阅读
    多<b class='flag-5'>智能</b><b class='flag-5'>体</b>设计模式和<b class='flag-5'>智能</b><b class='flag-5'>体</b>框架,你会了么?

    IBM发布全新智能工作流和业务域智能

    各行各业的企业正超越 AI 的实验阶段,加速迈入 AI 智能时代——在新阶段里,智能不仅能响应用户需求,更能进行推理、协作,并采取行动来
    的头像 发表于 10-18 10:49 941次阅读

    如何有效管理和部署的AI智能

    随着人工智能技术的快速发展,AI智能正从单一任务执行工具演进为具备自主决策能力的复杂系统。在这个演进过程中,如何有效管理规模化部署的智能
    的头像 发表于 10-17 14:35 232次阅读
    如何有效管理和部署的AI<b class='flag-5'>智能</b><b class='flag-5'>体</b>

    AI智能的技术应用与未来图景

    深度学习与逻辑推理,实现复杂情境的语义解析与因果推断;行动层依托强化学习框架驱动自主决策链,形成感知-决策-执行的闭环能力。这种架构演进使智能具备了环境动态响应、多目标优化决策和自主
    的头像 发表于 07-24 11:04 816次阅读

    从大模型到智能:企业级智能如何搭建

    自主决策能力的数字化代理,其核心特征包括环境感知、自主决策、持续学习和多模态交互。构建智能需要融合认知科学、计算机科学和管理学的跨学科知识,形成完整的理论框架。 从技术架构看,智能
    的头像 发表于 07-21 15:46 700次阅读
    从大模型到<b class='flag-5'>智能</b><b class='flag-5'>体</b>:企业级<b class='flag-5'>智能</b><b class='flag-5'>体</b>如何搭建

    IBM推动AI智能应用加速普及

    受访企业高管表示,预计 2025年,人工智能支持的工作流程将激增 8倍,人工智能将提高流程效率、降低成本并改变工作流程。
    的头像 发表于 06-28 10:41 859次阅读

    GLAD应用:全息光栅模拟

    概述 自从伽伯1948年提出全息术后,光学全息术已经被广泛用于三维光学成像领域。全息成像技术是采用全息光栅作为成像元件对物体进行三维成像的技术。 1990年,由Barbastathis
    发表于 05-15 09:32

    宇视科技2025合作伙伴大会丨业内首次提出“AIoT智能”新理念

    4月29日,春满长安,雁塔风起,2025宇视合作伙伴大会在西安国际会展中心隆重举行。宇视和近两千名合作伙伴齐聚古都,共探AIoT与行业大模型深度融合的创新实践,共绘智能时代产业升级蓝图。本次大会以
    的头像 发表于 04-30 11:08 649次阅读
    宇视科技2025合作伙伴大会丨业内首次<b class='flag-5'>提出</b>“AIoT<b class='flag-5'>智能</b><b class='flag-5'>体</b>”新理念

    什么是AI智能

    在当今数字化迅速发展的时代,AI智能作为技术进步的重要标志之一,正逐渐渗透到我们生活的各个方面。简单来说,AI智能是指能够执行特定任务、解决问题或做出决策的人工
    的头像 发表于 04-16 09:52 1773次阅读
    什么是AI<b class='flag-5'>智能</b><b class='flag-5'>体</b>

    硅基觉醒已至前夜,联发科携手生态加速智能化用户体验时代到来

    、主动、无界的“智能化用户体验“时代。 “智能化用户体验”将会拥有“主动及时、知你懂你、互动协作、学习进化、专属隐私信息守护”五大特征。
    发表于 04-13 19:51

    请求赠阅《零基础开发AI Agent——手把手教你用扣子做智能

    博主好!致敬叶涛 管锴 张心雨三位AI具身智能-智能方面的专家、导师! 《零基础开发AI Agent——手把手教你用扣子做智能》一不懂编
    发表于 04-10 12:16

    学习智能开发

    智能是大模型的应用落地,正在学习中,这本书太及时了,非常想看看。
    发表于 03-27 15:48

    AI智能套件

    智能解决方案。一、应用领域AI智能套件具备自然语言处理、机器学习以及人机交互能力,可以渗入用户的日常生活与工作环境,对传统设备进行升级。教育领域:
    发表于 02-25 16:48 0次下载

    谷歌AI智能执行复杂任务能力大幅提升

    自然语言描述任务,随后由AI智能代替用户执行并最终完成任务,极大地提升工作效率和便捷性。 为了推进这一技术的实现,谷歌正在积极开发两个相关项目。其中备受瞩目的是名为“Mariner”的浏览器扩展程序。通过该程序,AI
    的头像 发表于 02-17 14:39 999次阅读

    谷歌加速AI部门整合:AI Studio团队并入DeepMind

    近日,谷歌正紧锣密鼓地推进其人工智能(AI)部门的整合工作。据谷歌AI Studio主管Logan Kilpatrick在领英页面上的透露,谷歌已将AI Studio团队整体转移至De
    的头像 发表于 01-13 14:40 1146次阅读