0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

智能体的连接问题,如何创建能符合人类目标的智能体?

zhKF_jqr_AI 来源:未知 作者:李倩 2018-11-24 09:31 次阅读

将强化学习算法应用到现实问题中的一个障碍就是缺少合适的奖励函数,而设计奖励函数又比较困难,因为用户只能自己理解任务的目标,很难传达给强化学习智能体。这就引出了智能体和用户的连接问题(agent alignment problem):我们如何创建一款符合用户想法的智能体呢?

近日,DeepMind的新论文Scalable agent alignment via reward modeling: a research direction就提出了一种研究方向,本文对该论文进行了概述总结。简单来说,本次提出的方法依靠奖励模型的循环应用,通过连接(align)用户的目的解决复杂的现实世界问题。以下是论智对原文的详细编译:

最近几年,强化学习在复杂的游戏环境中得到了不错的表现,例如雅达利游戏、围棋、象棋、Dota 2、星际争霸II等等,AI智能体在这些复杂领域的表现甚至超过了人类水平。游戏是开发和测试机器学习算法的理想平台,其中有很多挑战性的任务,需要具备多种认知能力才能完成。机器学习研究者可以在云端同时运行数千个模拟实验,生成足够多的训练数据供系统学习。

重要的是,游戏通常有清晰的目标,还有可以表现距离目标远近的分数。分数能为强化学习智能体提供有用的奖励函数,当选择了正确的算法或架构时,能让我们获得快速的反馈。

智能体的连接问题

总的来说,AI的目标是不断具备解决现实中复杂问题的能力,从而造福人类。但是现实生活中的任务并没有内置的奖励函数。这样一来,智能体在任务中的表现就无法轻易地定义,所以我们需要一种好方法提供反馈,让智能体确切地了解我们想要什么,从而帮我们实现目标。换句话说,我们想用人类的反馈训练AI系统,用这种方法将系统的行为和我们的目标联系在一起。针对这一目标,于是”智能体的连接“问题的定义如下:

如何创建能符合人类目标的智能体?

连接问题可以在强化学习框架中进行,只不过其中要接受数字类型的奖励信号,智能体可以通过交互协议和用户进行互动,从而让用户将他们的想法传递给智能体。该协议有多种形式,用户可以提供示范、偏好、最佳行为或者提供奖励函数。解决智能体连接问题的一种方法就是根据用户目标作出动作。

DeepMind的新论文对这一问题指明了研究方向。基于此前的AI安全性问题和各种相关研究,我们设想了这些研究成果能为智能体的连接问题做出哪些帮助。这为了解如何与用户互动打开了新的大门,即从他们的反馈中学习并预测偏好,这些都是更复杂、更抽象的话题,需要用超越人类水平的方式去理解。

用奖励建模进行连接

研究方向的重点是基于奖励建模:我们用用户反馈训练了一个奖励模型,来捕捉他们的意图。同时,我们还训练了一个带有强化学习的策略,用来让奖励最大化。换句话说,我们将“学习做什么”从“学习怎么做”中分离出来。

奖励建模图示

例如,在之前的研究中我们教智能体如何根据用户的要求进行后空翻、根据目标状态放置目标物体、根据用户选择和专业玩家示范玩雅达利游戏。未来,我们想设计的算法能够学习适应用户提供反馈的方式(例如使用自然语言)。

扩大规模

长期来看,我们会扩大奖励建模的规模,将其应用于人类难以评估的领域。为了做到这一点,我们需要增强用户衡量输出的能力。我们讨论了如何循环应用奖励建模:我们可以用奖励建模训练智能体,帮助用户进行评估。如果评估过程比做出动作更容易,我们就能从简单的任务中转移到更复杂的任务上。这也可以看作是迭代增强的例子。

循环奖励建模图示

例如,假设我们现在想训练智能体设计一款计算机芯片,为了检测一款芯片设计,我们训练了其他带有奖励模型的智能体,模拟测试芯片的性能,计算热损耗、估计芯片的使用寿命、寻找安全漏洞等等。最后,智能体的输出能让用户训练出符合要求的智能体。尽管每个智能体都要解决很多比当前机器学习系统更难的任务,但这些任务会比设计芯片要简单。因为设计一款计算机芯片,你要理解每种评估任务,但是反之则不是必要的。在这种情况下,循环奖励模型可以让我们的智能体解决更复杂的任务,同时保留和用户目标之间的联系。

研究挑战

想将奖励建模扩大到复杂问题中,我们会遇到一些挑战。下图列出了五种主要问题以及可能的解决方法,论文对这些问题进行了深入的讲解。

这也是智能体匹配问题中最后一个重要因素:当将智能体应用在现实世界中时,我们需要向用户充分证明我们的智能体的确和用户目标完全匹配。论文中提到了五种不同的方法,帮助用户增加对智能体的信心:设计选择、测试、可解释性、正式验证以及理论保证。

结语

虽然我们相信循环奖励建模是训练相连智能体的正确方向,但目前我们还不知道它扩展的情况如何。幸运的是,我们还有一些与智能体连接相关的研究方向:

模仿学习

短期强化学习

反向强化学习

协作反向强化学习

迭代增强

辩论

智能体基础

论文中对它们的相似之处和不同点都做了更深介绍。

正如对抗输入对计算机视觉系统的稳健性一样,在复杂的显示领域中部署机器学习系统也是未来需要面对的难题。尽管我们会在扩展奖励建模时遇到挑战,但这些挑战是可以从中获取进展的具体技术性问题。从这个意义上讲,我们的研究方向已经准备就绪,可以开展深层强化学习智能体的实证研究了。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130567
  • 智能体
    +关注

    关注

    1

    文章

    111

    浏览量

    10424
  • 强化学习
    +关注

    关注

    4

    文章

    259

    浏览量

    11114

原文标题:如何让智能体了解用户意图?DeepMind提出奖励建模

文章出处:【微信号:jqr_AI,微信公众号:论智】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    谈谈机电一化技术的现状及发展趋势

    、模糊数学、心理学、生理学和混沌动力学等新思想、新方法,模拟人类智能,使它具有判断推理、逻辑思维、自主决策等能力,以求得到更高的控制目标。机电一化产品不可能具有与人完全相同的
    发表于 10-16 11:16

    在这五件事情上 人工智能人类更出色

    导读:虽然人工智能已经征服了很多人类凭借自身智力所筑起的“高城”,但由于其缺乏人类的普遍推理能力,因此依然有着自身的局限性。 在很多方面我们已经看到了这样的变化,即便是在一些和我们人类
    发表于 01-15 12:09

    【MM32 MiniBoard申请】一智能仪表

    项目名称:一智能仪表试用计划:先做测量电压,电流,温度,无线信号强度的仪表熟悉开发板,后期打算做智能玩具开发
    发表于 12-07 16:52

    什么是机电一

    人类那样会思考判断。4) 机电一化的例子机电一化产品中一定有运动机械,并且采用了电子技术使运动机械实现柔性化和智能化。机器人、微机控制型缝纫机、自动对焦相机、自动对焦防颤型摄像机
    发表于 08-29 09:06

    机电一化系统

    如图1.1所示,机电一化系统与灵活性和智能型最强的人体相对应,由如下5个要素构成;1) 机械装置:能够实现某种运动的机构(相当于人类的骨骼)。2) 执行装置:驱动机械装置运动的部分(相当于
    发表于 08-29 09:11

    热销智能会议平板多媒体教学一

    `教学会议一机的优势:丰富教育内容使用触摸一化教育不仅可以丰富了教育内容,拓宽教育水平,促进教育目标明确,加快教育的速度,并且可以更形象生动地显示在课堂上,满足学生实践的时间。老师使用人均触摸
    发表于 11-28 10:16

    华硕智能音箱与网状网路由器于一智能产品

      导读:华硕推出一款集智能音箱与网状网路由器于一智能产品,并为其命名“Lyra Voice”,有望将于本周上市,售价预计为220美元(约合1508元人民币)。[img][/img]  1月9日
    发表于 01-11 09:27

    【瑞芯微RK3308智能语音套件试用申请 】智能车载一

    项目名称:智能车载一机试用计划:申请理由本人在测试领域有多年的学习和开发经验,曾设计过类似天猫精灵智能音箱产品的自动化测试系统,想设计一款智能车载一
    发表于 09-23 16:58

    智能双屏触控一机软件与自助查询软件有什么区别?

    `“自助触摸查询一机软件”又称为触摸查询软件,该设备是通过硬件+软件结合展示方式,在很多场合下均能够看到该设备的身影,也是近些年来,所重点发展的对象,实现社会进步往智能化方向发展,在发展的过程中
    发表于 07-31 14:59

    汽车动力传动系统一智能控制是什么?

    汽车动力传动系统一智能控制是什么?汽车动力传动系统一化控制系统由什么组成?智能控制技术及其在动力传动系统中的应用是什么
    发表于 05-17 06:32

    基于4位单片机SH66P58的智能脂秤方案设计

    智能脂秤又称健康秤,测出不同时间人体的脂肪和水分等所占比例,从而反映出人体在不同时间的健康状况。由于测试人体电阻时,需要人体和测试电极直接接触,所以脂肪秤产品要有很强的抗ESD静电干扰性能,本文
    发表于 11-29 07:42

    如何创建串口设备结构

    如何创建串口设备结构
    发表于 12-09 06:06

    一种基于聚类和竞争克隆机制的多智能免疫算法

    包含分布式电源的配电网无功优化matlab源代码,代码按照高水平文章复现,保证正确,可先发您文章看是否满足您的要求利用分布式电源的无功补偿能力,提出了一种基于聚类和竞争克隆机制的多智能免疫算法来
    发表于 12-29 06:50

    智能组卷中组卷目标的满足性检查与处理

    智能组卷是教育测量标准化、规范化的重要组成部分,但不符合题库条件的组卷目标会导致组卷失败。为此,提出一种组卷目标的满足性检查与处理模型,给出满足性检查的判定准则,
    发表于 06-20 10:09 9次下载

    基于形状统计模型的多类目标自动识别方法

    形状是人类视觉系统分析和识别目标的基础。针对现有方法的不足,该文提出了一种新的基于形状统计模型的多类目标自动识别方法。该模型定义形状基元对作为特征描述子,从样
    发表于 02-10 14:23 22次下载