智能体的连接问题,如何创建能符合人类目标的智能体？-电子发烧友网

将强化学习算法应用到现实问题中的一个障碍就是缺少合适的奖励函数，而设计奖励函数又比较困难，因为用户只能自己理解任务的目标，很难传达给强化学习智能体。这就引出了智能体和用户的连接问题（agent alignment problem）：我们如何创建一款符合用户想法的智能体呢？

近日，DeepMind的新论文Scalable agent alignment via reward modeling: a research direction就提出了一种研究方向，本文对该论文进行了概述总结。简单来说，本次提出的方法依靠奖励模型的循环应用，通过连接（align）用户的目的解决复杂的现实世界问题。以下是论智对原文的详细编译：

最近几年，强化学习在复杂的游戏环境中得到了不错的表现，例如雅达利游戏、围棋、象棋、Dota 2、星际争霸II等等，AI智能体在这些复杂领域的表现甚至超过了人类水平。游戏是开发和测试机器学习算法的理想平台，其中有很多挑战性的任务，需要具备多种认知能力才能完成。机器学习研究者可以在云端同时运行数千个模拟实验，生成足够多的训练数据供系统学习。

重要的是，游戏通常有清晰的目标，还有可以表现距离目标远近的分数。分数能为强化学习智能体提供有用的奖励函数，当选择了正确的算法或架构时，能让我们获得快速的反馈。

智能体的连接问题

总的来说，AI的目标是不断具备解决现实中复杂问题的能力，从而造福人类。但是现实生活中的任务并没有内置的奖励函数。这样一来，智能体在任务中的表现就无法轻易地定义，所以我们需要一种好方法提供反馈，让智能体确切地了解我们想要什么，从而帮我们实现目标。换句话说，我们想用人类的反馈训练AI系统，用这种方法将系统的行为和我们的目标联系在一起。针对这一目标，于是”智能体的连接“问题的定义如下：

如何创建能符合人类目标的智能体？

连接问题可以在强化学习框架中进行，只不过其中要接受数字类型的奖励信号，智能体可以通过交互协议和用户进行互动，从而让用户将他们的想法传递给智能体。该协议有多种形式，用户可以提供示范、偏好、最佳行为或者提供奖励函数。解决智能体连接问题的一种方法就是根据用户目标作出动作。

DeepMind的新论文对这一问题指明了研究方向。基于此前的AI安全性问题和各种相关研究，我们设想了这些研究成果能为智能体的连接问题做出哪些帮助。这为了解如何与用户互动打开了新的大门，即从他们的反馈中学习并预测偏好，这些都是更复杂、更抽象的话题，需要用超越人类水平的方式去理解。

用奖励建模进行连接

研究方向的重点是基于奖励建模：我们用用户反馈训练了一个奖励模型，来捕捉他们的意图。同时，我们还训练了一个带有强化学习的策略，用来让奖励最大化。换句话说，我们将“学习做什么”从“学习怎么做”中分离出来。

奖励建模图示

例如，在之前的研究中我们教智能体如何根据用户的要求进行后空翻、根据目标状态放置目标物体、根据用户选择和专业玩家示范玩雅达利游戏。未来，我们想设计的算法能够学习适应用户提供反馈的方式（例如使用自然语言）。

扩大规模

长期来看，我们会扩大奖励建模的规模，将其应用于人类难以评估的领域。为了做到这一点，我们需要增强用户衡量输出的能力。我们讨论了如何循环应用奖励建模：我们可以用奖励建模训练智能体，帮助用户进行评估。如果评估过程比做出动作更容易，我们就能从简单的任务中转移到更复杂的任务上。这也可以看作是迭代增强的例子。

循环奖励建模图示

例如，假设我们现在想训练智能体设计一款计算机芯片，为了检测一款芯片设计，我们训练了其他带有奖励模型的智能体，模拟测试芯片的性能，计算热损耗、估计芯片的使用寿命、寻找安全漏洞等等。最后，智能体的输出能让用户训练出符合要求的智能体。尽管每个智能体都要解决很多比当前机器学习系统更难的任务，但这些任务会比设计芯片要简单。因为设计一款计算机芯片，你要理解每种评估任务，但是反之则不是必要的。在这种情况下，循环奖励模型可以让我们的智能体解决更复杂的任务，同时保留和用户目标之间的联系。

研究挑战

想将奖励建模扩大到复杂问题中，我们会遇到一些挑战。下图列出了五种主要问题以及可能的解决方法，论文对这些问题进行了深入的讲解。

这也是智能体匹配问题中最后一个重要因素：当将智能体应用在现实世界中时，我们需要向用户充分证明我们的智能体的确和用户目标完全匹配。论文中提到了五种不同的方法，帮助用户增加对智能体的信心：设计选择、测试、可解释性、正式验证以及理论保证。

结语

虽然我们相信循环奖励建模是训练相连智能体的正确方向，但目前我们还不知道它扩展的情况如何。幸运的是，我们还有一些与智能体连接相关的研究方向：

模仿学习

短期强化学习

反向强化学习

协作反向强化学习

迭代增强

辩论

智能体基础