如何让AI符合人类的意图？如何创建符合用户意图的智能体？-电子发烧友网

如何让AI依照人类的意图行事？这是将AI应用于现实世界复杂问题的最大障碍之一。DeepMind将这个问题定义为“智能体对齐问题”，并提出了新的解决方案。

如何让AI符合人类的意图？

这个问题是将AI系统部署到真实世界、帮助人类解决复杂问题的最大障碍之一。

DeepMind将这个问题定义为“智能体对齐问题”（agent alignment problem），并提出依赖于奖励建模，正面解决agent alignment问题的研究方向。

这篇文章基于DeepMind的新论文Scalable agent alignment via reward modeling: a research direction，概述了解决agent alignment问题的研究方向。所提出的方法依赖于奖励建模的递归应用，以符合用户意图的方式解决复杂的现实世界问题。

近年来，强化学习在许多复杂游戏环境中取得了令人瞩目的成绩，从Atari游戏、围棋、象棋到Dota 2和星际争霸II，AI智能体在越来越复杂的领域迅速超越了人类水平。游戏是开发和测试机器学习算法的理想平台。它们提出了需要多种认知能力才能完成的具有挑战性的任务，反映出解决现实世界问题所需的技能。机器学习研究人员可以在云上并行运行数千个模拟实验，生成系统学习所需的训练数据。

至关重要的是，游戏通常都有一个明确的目标，以及一个近似于实现该目标的进展的分数。这个分数为强化学习智能体提供了有用的奖励信号，使我们能够得到关于哪些算法和架构选择最有效的快速反馈。

智能体对齐问题

AI发展的终极目标是让人类受益，让我们能够应对现实世界中日益复杂的挑战。但现实世界并没有内置的奖励机制。这就带来了挑战，因为现实世界任务的表现不容易定义。我们需要一种好的方式来提供反馈，并使AI能够可靠地理解我们想要什么，以帮助我们实现目的。

换句话说，我们想用人类反馈的方式训练AI系统，使AI的行为与我们的意图一致。为了达到这个目的，我们将智能体对齐问题（agent alignment problem）定义如下:

如何创建符合用户意图的智能体？

对齐问题可以在强化学习框架中构建，不同之处是，智能体可以通过交互协议与用户交互，而不是接收数字奖励信号。这个交互协议允许用户向智能体传达他们的意图。协议可以采用多种形式：例如，用户可以提供演示、偏好、最佳操作或传达奖励函数。Agent alignment问题的解决方案之一是根据用户的意图行事的策略。

DeepMind的新论文概述了正面解决agent alignment问题的研究方向。基于我们之前对AI安全问题分类的研究，以及对众多AI安全问题的论述，我们描绘了这些领域的进展如何能够产生一个解决agent alignment问题的方案。这将为构建能够更好地理解如何与用户交互、如何从用户的反馈中学习、以及如何预测用户偏好的系统打开大门。

通过奖励模型进行对齐

我们研究方向的要点是基于奖励建模（reward modeling）：训练一个奖励模型，其中包含来自用户的反馈，从而捕捉他们的意图。与此同时，我们通过强化学习训练一个策略，使奖励模型的奖励最大化。换句话说，我们把学习做什么(奖励模型)和学习怎么做(策略)区分开来。

奖励建模的示意图：根据用户的反馈训练奖励模型，以获取用户的意图；这个奖励模型为经过强化学习训练的智能体提供奖励。

例如，在以前的工作中，我们教智能体根据用户偏好做一个后空翻，根据目标状态示例将对象排列成特定形状，以及根据用户偏好和专家演示玩Atari游戏。未来，我们希望设计能够学习适应用户提供反馈的方式(例如使用自然语言)的算法。

扩大奖励模型的规模

从长远来看，我们希望将奖励模型的规模扩大到人类无法直接评估的过于复杂的领域。要做到这一点，我们需要提高用户评估结果的能力。我们将讨论如何递归地应用奖励建模：可以使用奖励建建模来训练agent，让agent帮助用户进行评估过程。如果评估比行为更容易，就可以从简单的任务过渡到更加普遍、更加复杂的任务。这可以看作是一个迭代扩增（iterated amplification）的实例。

递归奖励建模的示意图：使用递归奖励建模训练的agent(右边的小圆圈)帮助用户评估当前正在训练的agent(大圆圈)产生的结果。

例如，假设我们想训练一个agent来设计计算机芯片。为了评估某个提议的芯片设计，我们使用奖励建模训练其他的“helper”智能体，以对芯片的模拟性能进行基准测试、计算散热、估计芯片的寿命、查找安全漏洞，等等。总的来说，这些helper agents的输出使用户能够通过协助评估所提议的芯片设计来训练芯片设计agent。虽然helper agent必须解决一系列非常困难的任务，但这些任务总比直接设计一个芯片更容易执行：要设计一个计算机芯片，你必须理解每一项评估任务，但反过来则不然。从这个意义上说，递归奖励建模可以让我们“支持”agent来解决越来越难的任务，同时保持与用户意图一致。

研究挑战

为了对这些复杂的问题进行奖励建模，需要解决几个挑战性问题。下面列出了其中的五项挑战，论文中对这些挑战及其解决办法进行了更深入的描述。

我们希望扩大奖励建模时遇到的挑战(左)和有前景的解决方法(右)。

那么就来到了agent alignment的最后一个重要组成部分：在现实世界中部署AI智能体时，我们需要向用户提供证据，证明我们的智能体确实已经充分对齐了。

本文讨论了五种不同的研究途径，可以帮助增加对agent的信任：设计选择、测试、可解释性、形式验证和理论保证。

我们的一个雄心勃勃的目标是制作安全证书（safety certificates）：可以用来证明负责任的技术开发工作，并让用户对依赖训练好的智能体有信心。

未来研究方向

虽然我们相信递归奖励建模是训练对齐智能体的一个非常有前景的方向，但目前还不知道它可以如何扩展（需要更多的研究）。幸运的是，追求agent alignment还有其他一些研究方向：

模仿学习

短视强化学习（Myopic reinforcement learning）

逆强化学习（Inverse reinforcement learning）

合作逆强化学习

迭代扩增

Debate

Agent foundations

本文进一步探讨它们的异同。

正如对计算机视觉系统相对对抗性输入的鲁棒性的积极研究对于当今的ML应用程序是至关重要的一样，对齐研究对于在复杂的现实世界中部署ML系统也是至关重要的。我们有理由保持乐观：虽然我们希望在扩大奖励模型时面对挑战，但这些挑战是我们可以取得进展的具体技术研究问题。从这个意义上说，我们的研究方向已经准备就绪，可以对深度强化学习智能体进行实证研究。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
26443

浏览量
264038
机器学习

机器学习

+关注

关注
66

文章
8122

浏览量
130556
智能体

智能体

+关注

关注
1

文章
111

浏览量
10424

原文标题：DeepMind重磅论文：通过奖励模型，让AI按照人类意图行事

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

鸿蒙原生应用/元服务开发-通知添加行为意图

方触发WantAgent中指定的意图。例如，在通知消息的发布者发布通知时，通常期望用户可以通过通知栏点击拉起目标应用组件。为了达成这一目标，开发者可以将WantAgent封装至通知消息中，当系统接收

发表于 01-05 15:07

氯离子结构示意图和钠离子结构示意图

发表于 05-28 22:34 •5.4w次阅读

氯离子结构示<b class='flag-5'>意图</b>和钠离子结构示<b class='flag-5'>意图</b>

电脑键盘示意图,计算机键盘示意图

发表于 03-10 10:51 •12.7w次阅读

飞机示意图

发表于 05-26 15:47 •2252次阅读

失会聚示意图

发表于 07-31 12:13 •1026次阅读

基于用户的隐私消费意图识别

不同于已有的显式消费意图识别的研究，提出了社会媒体中用户的隐式消费意图自动识别方法．该方法将隐式消费意图识别视作多标记分类问题，并综合使用了基于用户

发表于 01-08 10:58 •0次下载

逻辑示意图的创建技巧

本文是关于创建逻辑示意图的特殊主题的集合。这些主题是我多年来一直在脑子里传播的主题。我希望你发现它们很有用。

发表于 09-14 17:46 •4293次阅读

基于意图的网络怎样来选择

基于意图的网络（IBN）在IT领域引起广泛的关注。IBN是确保网络操作员的高级意图和策略需求与整个网络的设计和配置保持一致的过程的自动化。

发表于 09-10 14:25 •530次阅读

三星电视的智能应答系统

该项专利技术将语音识别技术和用户身份特征识别模块融入到电视机中，将用户特征和语音命令进行融合，让电视机更加智能的理解用户的意图和更

发表于 01-13 16:33 •2185次阅读

亚马逊升级Alexa语音，更好的通过问题预测用户意图

为了让 Alexa 语音助理能够更好地了解用户的真实意图，科技巨头亚马逊已于近日升级了它的 AI 智能。比如当用户询问某海滩天气的时候，Al

发表于 11-12 14:52 •1232次阅读

胶囊网络在短文本多种意图识别的应用及研究

意图识别是人机对话系统中口语理解的关键子任务。考虑到当前用户表达存在多个意图的问题，主要采用胶囊网络构造基于单意图标记的多意图分类器对

发表于 04-07 14:14 •10次下载

华为开发者大会2021：深入理解用户意图

　如何深入理解用户意图，实现服务精准分发。

发表于 10-22 15:41 •1622次阅读

浅析自主、意图与感性

意图和动机是人类行为的两个重要方面，它们之间有着密切的联系。意图是指一个人有意识地去做一件事情的计划或行动，而动机则是指一个人内心的驱动力，促使他去做某件事情。

发表于 07-12 11:32 •272次阅读

爱立信基于AI赋能的意图运营方案将提供卓越5G服务

日前，爱立信宣布：在其托管服务交付平台——爱立信运营引擎（Ericsson Operations Engine）中，嵌入了基于AI赋能的意图驱动运营方案，为消费者和企业用户提供差异化优质5G服务。

发表于 02-21 09:16 •759次阅读

爱立信发布基于AI的意图驱动运营方案

日前，爱立信宣布：在其托管服务交付平台——爱立信运营引擎（Ericsson Operations Engine）中，嵌入了基于AI赋能的意图驱动运营方案，为消费者和企业用户提供差异化优质5G服务。

发表于 02-21 09:15 •947次阅读