继OpenAI发布Dota2的团战AI后，DeepMind今天也发布了自家的最新研究-电子发烧友网

编者按：继OpenAI发布Dota2的团战AI后，DeepMind今天也发布了自家的最新研究，一些可以互相协作，也可以和人类选手合作的人工智能机器人。以下是论智对DeepMind博文的编译。

在游戏项目中，让AI掌握策略、理解战术并进行团队合作是非常重要的。现在的强化学习经过发展，我们的智能体在《雷神之锤III：竞技场》的夺旗比赛（Capture the Flag）中的表现达到了人类水平，它们在团队合作方面展示出了较高水准。

《雷神之锤III：竞技场》的夺旗模式（CTF）是一款以第一人称视角展示的多人游戏，参赛者分成两组，红队和蓝队。每组队员的目标是夺取对方的旗帜并将它带回自己的基地，同时保护己方旗帜。杀死对手得1分，自己非正常死亡扣1分，夺取对方旗子得3分，杀死夺旗者得2分，重新拿到己方旗子得1分，成功夺取一次旗子（将旗子送回己方基地）得5分。五分钟内有较多旗子的一方获胜。

我们训练的四个智能体在室内和室外两种环境下进行对战，并逐渐修炼到能够夺旗的水平

对人类来说，每个个体都有自己的目标和行动方式，但我们仍然能在团队和组织中展示出集体智慧，我们将这一设置称为“多智能体学习”：多个智能体必须独立行动，但是要学习与其他智能体交互合作。这个问题非常困难，因为环境是在不断变化的。

为了研究这一问题，我们以各类3D第一人称视角的电子游戏为研究对象，它们代表了大多数游戏的形式，能反映各类玩家的策略，因为其中包括了他们对游戏的理解、手眼配合以及团队计划。我们的智能体所面临的挑战是直接从原始像素中学习，从而输出动作。

实验中我们选用的《雷神之锤III：竞技场》游戏是现在许多第一人称角色游戏的基础，我们训练智能体像单人一样学习和行动，但是仍要在团队间进行合作，共同对抗敌方。

从一个多智能体的角度，CTF需要玩家既能和队友完美合作，也要与敌人对抗，不论在什么风格下都要保持水平的稳定。

为了让这一过程更有趣，我们还设计了一个CTF的变体，其中的平面地图每一场都不一样。结果我们的智能体被迫学习到了一种“通用策略”，而非靠对地图的记忆获胜。除此之外，为了评估游戏场地，我们的智能体用人类的方式感受了一下CTF的环境：它们通过一个虚拟游戏控制器观察一连串的像素图像和动作。

CTF的环境不断更新，所以智能体必须适应陌生地图

我们的智能体必须从零开始学习在陌生环境中如何观察地形、行动、合作、竞争，这一切都要从每场比赛的单一强化信号中得来：不论它们所在队伍是否获胜。这是一个具有挑战性的学习问题，而解决方法基于三个强化学习的基本问题：

与训练单一智能体相反，我们训练的是多个智能体，它们通过与各种队友和对手的互动来学习。

团队里的每个智能体都从它自己的内部奖励信号中学习，从而让智能体生成自己内部的目标，例如获得一面旗帜。两阶段的优化过程优化了智能体内部的奖励，同时用内部奖励的强化学习学习了智能体的策略。

智能体会在快慢两种速度下进行训练，这样会提高他们利用内存并生成连续动作的能力。

最终训练出的智能体（FTW）在玩CTF上表现出了很高的水准。重要的是，该智能体在各种地图、队员数量的情况下，表现得都很稳定。不论是在户外模式还是室内模式，或者有人类参与的比赛中，FTW都表现的很好。

我们组织了一场联赛，其中有40名人类玩家，将人类和智能体随机组合分配到游戏中。

FTW智能体学习之后比基准的方法更强大，同时超过了人类选手的取胜率。事实上，在对参赛者的评估上，智能体的合作能力比人类更强。

智能体在训练时的表现与人类的对比

理解智能体的内部机制

为了了解智能体是如何表示游戏状态的，我们查看了智能体神经网络的活动形式。下面的图表展示了游戏过程中的情形，其中密密麻麻的点根据CTF在游戏中的状态分成不同的颜色，根据颜色可以判断：智能体在哪个房间？旗子的状态如何？能看到哪个队友或对手？通过观察颜色相同的点，我们发现在相似状态的智能体动作也相似。

各色点点代表游戏中各种智能体所处的状态和位置

我们不会告诉智能体游戏的规则，而是让他们自己学习基础概念。事实上，我们可以找到具体编码有重要游戏状态的神经元，比如当旗子被夺走时活动的神经元，或者队友拿到旗时活动的神经元。想知道更多智能体细节，可查看原论文。

除了这些多样的表示，智能体实际上是怎样运作的？首先，我们注意到智能体的反应时间很快，并且还有精确的标记器。但是当人为地降低他们的精度和反应时间，我们看到导致成功的只有一个因素。

智能体的精确度和反应时间比人类要高

通过无监督学习我们创建了智能体的原始动作，发现智能体实际上是在模仿人类行为，例如跟随队友或者在对手的基地“安营扎寨”。这些动作都是在训练中通过强化学习和进化得来的。

结语

最近人工智能在星际争霸II和Dota 2这样复杂的游戏中都取得了不小的进步，虽然这一项目的侧重点在于“夺旗”游戏，但是做出的贡献是通用的，研究人员表示，他们很高兴看到其他研究者在不同环境中应用这一技术。在未来，他们将对目前的强化学习和基于多个智能体的训练方法进行改进。总的来说，这项工作突出了多智能体训练的潜力，有助于它们与人类的合作。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

机器人

机器人

+关注

关注
206

文章
27015

浏览量
201357
智能体

智能体

+关注

关注
1

文章
111

浏览量
10423
DeepMind

DeepMind

+关注

关注
0

文章
126

浏览量
10708

原文标题：不论队友是机器人还是人类，DeepMind智能体学会了复杂合作

文章出处：【微信号：jqr_AI，微信公众号：论智】欢迎添加关注！文章转载请注明出处。

搜索历史

继OpenAI发布Dota2的团战AI后，DeepMind今天也发布了自家的最新研究

评论

《DotA2》同时在线人数首次突破100万，全民打年兽？

科大讯飞AI.飞无界新品发布会【限时报名】

未来的AI 深挖谷歌 DeepMind 和它背后的技术

全志科技正式发布首款AI语音专用芯片R329

AI在简化了的DOTA2击败前1％玩家，学习能力很出色

AI也能相互协作的玩游戏，玩Dota2战胜了人类玩家

AI首度在电竞游戏《DOTA 2》击败人类

Dota2败给OpenAI-Five究竟是为什么？

AI之间能团队合作吗？AI团队挑战Dota2职业选手团队

5个AI队伍竟然可以在《Dota2》战胜人类5人队伍

OpenAI Five在Dota2国际竞赛TI8中进行首次对战以失败告终

最后一战 AI 2：0吊打世界冠军DOTA2 人类完败

人工智能战队OpenAI将战Dota2人类最强战队的最终决战

AI Dota2虽打败人类玩家却弱点频现

AI如何对抗Dota人类游戏高手