0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何让AI符合人类的意图?如何创建符合用户意图的智能体?

DPVg_AI_era 来源:未知 作者:李倩 2018-11-24 10:24 次阅读

如何让AI依照人类的意图行事?这是将AI应用于现实世界复杂问题的最大障碍之一。DeepMind将这个问题定义为“智能体对齐问题”,并提出了新的解决方案。

如何让AI符合人类的意图?

这个问题是将AI系统部署到真实世界、帮助人类解决复杂问题的最大障碍之一。

DeepMind将这个问题定义为“智能体对齐问题”(agent alignment problem),并提出依赖于奖励建模,正面解决agent alignment问题的研究方向。

这篇文章基于DeepMind的新论文Scalable agent alignment via reward modeling: a research direction,概述了解决agent alignment问题的研究方向。所提出的方法依赖于奖励建模的递归应用,以符合用户意图的方式解决复杂的现实世界问题。

近年来,强化学习在许多复杂游戏环境中取得了令人瞩目的成绩,从Atari游戏、围棋、象棋到Dota 2和星际争霸II,AI智能体在越来越复杂的领域迅速超越了人类水平。游戏是开发和测试机器学习算法的理想平台。它们提出了需要多种认知能力才能完成的具有挑战性的任务,反映出解决现实世界问题所需的技能。机器学习研究人员可以在云上并行运行数千个模拟实验,生成系统学习所需的训练数据。

至关重要的是,游戏通常都有一个明确的目标,以及一个近似于实现该目标的进展的分数。这个分数为强化学习智能体提供了有用的奖励信号,使我们能够得到关于哪些算法和架构选择最有效的快速反馈。

智能体对齐问题

AI发展的终极目标是让人类受益,让我们能够应对现实世界中日益复杂的挑战。但现实世界并没有内置的奖励机制。这就带来了挑战,因为现实世界任务的表现不容易定义。我们需要一种好的方式来提供反馈,并使AI能够可靠地理解我们想要什么,以帮助我们实现目的。

换句话说,我们想用人类反馈的方式训练AI系统,使AI的行为与我们的意图一致。为了达到这个目的,我们将智能体对齐问题(agent alignment problem)定义如下:

如何创建符合用户意图的智能体?

对齐问题可以在强化学习框架中构建,不同之处是,智能体可以通过交互协议与用户交互,而不是接收数字奖励信号。这个交互协议允许用户向智能体传达他们的意图。协议可以采用多种形式:例如,用户可以提供演示、偏好、最佳操作或传达奖励函数。Agent alignment问题的解决方案之一是根据用户的意图行事的策略。

DeepMind的新论文概述了正面解决agent alignment问题的研究方向。基于我们之前对AI安全问题分类的研究,以及对众多AI安全问题的论述,我们描绘了这些领域的进展如何能够产生一个解决agent alignment问题的方案。这将为构建能够更好地理解如何与用户交互、如何从用户的反馈中学习、以及如何预测用户偏好的系统打开大门。

通过奖励模型进行对齐

我们研究方向的要点是基于奖励建模(reward modeling):训练一个奖励模型,其中包含来自用户的反馈,从而捕捉他们的意图。与此同时,我们通过强化学习训练一个策略,使奖励模型的奖励最大化。换句话说,我们把学习做什么(奖励模型)和学习怎么做(策略)区分开来。

奖励建模的示意图:根据用户的反馈训练奖励模型,以获取用户的意图;这个奖励模型为经过强化学习训练的智能体提供奖励。

例如,在以前的工作中,我们教智能体根据用户偏好做一个后空翻,根据目标状态示例将对象排列成特定形状,以及根据用户偏好和专家演示玩Atari游戏。未来,我们希望设计能够学习适应用户提供反馈的方式(例如使用自然语言)的算法。

扩大奖励模型的规模

从长远来看,我们希望将奖励模型的规模扩大到人类无法直接评估的过于复杂的领域。要做到这一点,我们需要提高用户评估结果的能力。我们将讨论如何递归地应用奖励建模:可以使用奖励建建模来训练agent,让agent帮助用户进行评估过程。如果评估比行为更容易,就可以从简单的任务过渡到更加普遍、更加复杂的任务。这可以看作是一个迭代扩增(iterated amplification)的实例。

递归奖励建模的示意图:使用递归奖励建模训练的agent(右边的小圆圈)帮助用户评估当前正在训练的agent(大圆圈)产生的结果。

例如,假设我们想训练一个agent来设计计算机芯片。为了评估某个提议的芯片设计,我们使用奖励建模训练其他的“helper”智能体,以对芯片的模拟性能进行基准测试、计算散热、估计芯片的寿命、查找安全漏洞,等等。总的来说,这些helper agents的输出使用户能够通过协助评估所提议的芯片设计来训练芯片设计agent。虽然helper agent必须解决一系列非常困难的任务,但这些任务总比直接设计一个芯片更容易执行:要设计一个计算机芯片,你必须理解每一项评估任务,但反过来则不然。从这个意义上说,递归奖励建模可以让我们“支持”agent来解决越来越难的任务,同时保持与用户意图一致。

研究挑战

为了对这些复杂的问题进行奖励建模,需要解决几个挑战性问题。下面列出了其中的五项挑战,论文中对这些挑战及其解决办法进行了更深入的描述。

我们希望扩大奖励建模时遇到的挑战(左)和有前景的解决方法(右)。

那么就来到了agent alignment的最后一个重要组成部分:在现实世界中部署AI智能体时,我们需要向用户提供证据,证明我们的智能体确实已经充分对齐了。

本文讨论了五种不同的研究途径,可以帮助增加对agent的信任:设计选择、测试、可解释性、形式验证和理论保证。

我们的一个雄心勃勃的目标是制作安全证书(safety certificates):可以用来证明负责任的技术开发工作,并让用户对依赖训练好的智能体有信心。

未来研究方向

虽然我们相信递归奖励建模是训练对齐智能体的一个非常有前景的方向,但目前还不知道它可以如何扩展(需要更多的研究)。幸运的是,追求agent alignment还有其他一些研究方向:

模仿学习

短视强化学习(Myopic reinforcement learning)

逆强化学习(Inverse reinforcement learning)

合作逆强化学习

迭代扩增

Debate

Agent foundations

本文进一步探讨它们的异同。

正如对计算机视觉系统相对对抗性输入的鲁棒性的积极研究对于当今的ML应用程序是至关重要的一样,对齐研究对于在复杂的现实世界中部署ML系统也是至关重要的。我们有理由保持乐观:虽然我们希望在扩大奖励模型时面对挑战,但这些挑战是我们可以取得进展的具体技术研究问题。从这个意义上说,我们的研究方向已经准备就绪,可以对深度强化学习智能体进行实证研究。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26443

    浏览量

    264038
  • 机器学习
    +关注

    关注

    66

    文章

    8122

    浏览量

    130556
  • 智能体
    +关注

    关注

    1

    文章

    111

    浏览量

    10424

原文标题:DeepMind重磅论文:通过奖励模型,让AI按照人类意图行事

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    鸿蒙原生应用/元服务开发-通知添加行为意图

    方触发WantAgent中指定的意图。例如,在通知消息的发布者发布通知时,通常期望用户可以通过通知栏点击拉起目标应用组件。为了达成这一目标,开发者可以将WantAgent封装至通知消息中,当系统接收
    发表于 01-05 15:07

    氯离子结构示意图和钠离子结构示意图

    氯离子结构示意图和钠离子结构示意图
    发表于 05-28 22:34 5.4w次阅读
    氯离子结构示<b class='flag-5'>意图</b>和钠离子结构示<b class='flag-5'>意图</b>

    电脑键盘示意图,计算机键盘示意图

    电脑键盘示意图,计算机键盘示意图
    发表于 03-10 10:51 12.7w次阅读

    飞机示意图

    飞机示意图
    发表于 05-26 15:47 2252次阅读

    失会聚示意图

    失会聚示意图
    发表于 07-31 12:13 1026次阅读

    基于用户的隐私消费意图识别

    不同于已有的显式消费意图识别的研究,提出了社会媒体中用户的隐式消费意图自动识别方法.该方法将隐式消费意图识别视作多标记分类问题,并综合使用了基于用户
    发表于 01-08 10:58 0次下载
    基于<b class='flag-5'>用户</b>的隐私消费<b class='flag-5'>意图</b>识别

    逻辑示意图创建技巧

    本文是关于创建逻辑示意图的特殊主题的集合。这些主题是我多年来一直在脑子里传播的主题。我希望你发现它们很有用。
    的头像 发表于 09-14 17:46 4293次阅读
    逻辑示<b class='flag-5'>意图</b>的<b class='flag-5'>创建</b>技巧

    基于意图的网络怎样来选择

    基于意图的网络(IBN)在IT领域引起广泛的关注。IBN是确保网络操作员的高级意图和策略需求与整个网络的设计和配置保持一致的过程的自动化。
    发表于 09-10 14:25 530次阅读

    三星电视的智能应答系统

    该项专利技术将语音识别技术和用户身份特征识别模块融入到电视机中,将用户特征和语音命令进行融合,让电视机更加智能的理解用户意图和更
    的头像 发表于 01-13 16:33 2185次阅读
    三星电视的<b class='flag-5'>智能</b>应答系统

    亚马逊升级Alexa语音,更好的通过问题预测用户意图

    为了让 Alexa 语音助理能够更好地了解用户的真实意图,科技巨头亚马逊已于近日升级了它的 AI 智能。比如当用户询问某海滩天气的时候,Al
    的头像 发表于 11-12 14:52 1232次阅读

    胶囊网络在短文本多种意图识别的应用及研究

    意图识别是人机对话系统中口语理解的关键子任务。考虑到当前用户表达存在多个意图的问题,主要采用胶囊网络构造基于单意图标记的多意图分类器对
    发表于 04-07 14:14 10次下载
    胶囊网络在短文本多种<b class='flag-5'>意图</b>识别的应用及研究

    华为开发者大会2021:深入理解用户意图

     如何深入理解用户意图,实现服务精准分发。
    的头像 发表于 10-22 15:41 1622次阅读
    华为开发者大会2021:深入理解<b class='flag-5'>用户</b><b class='flag-5'>意图</b>

    浅析自主、意图与感性

    意图和动机是人类行为的两个重要方面,它们之间有着密切的联系。意图是指一个人有意识地去做一件事情的计划或行动,而动机则是指一个人内心的驱动力,促使他去做某件事情。
    的头像 发表于 07-12 11:32 272次阅读

    爱立信基于AI赋能的意图运营方案将提供卓越5G服务

    日前,爱立信宣布:在其托管服务交付平台——爱立信运营引擎(Ericsson Operations Engine)中,嵌入了基于AI赋能的意图驱动运营方案,为消费者和企业用户提供差异化优质5G服务。
    的头像 发表于 02-21 09:16 759次阅读
    爱立信基于<b class='flag-5'>AI</b>赋能的<b class='flag-5'>意图</b>运营方案将提供卓越5G服务

    爱立信发布基于AI意图驱动运营方案

    日前,爱立信宣布:在其托管服务交付平台——爱立信运营引擎(Ericsson Operations Engine)中,嵌入了基于AI赋能的意图驱动运营方案,为消费者和企业用户提供差异化优质5G服务。
    的头像 发表于 02-21 09:15 947次阅读