DeepMind的“星际2”智能体AlphaStar实际上是演化算法？-电子发烧友网

深度强化学习、多智体强化学习以及博弈论，是DeepMind战胜职业星际II玩家的智能体AlphaStar的重要技术。伦敦帝国大学和NYU研究人员则从进化计算的角度指出，AlphaStar使用的竞争协同进化算法策略被远远低估。

DeepMind首次战胜星际II职业玩家的AI——AlphaStar，正如新智元创始人兼CEO杨静女士在《新智元2019年寄语》中所说的那样，引爆机器智能无限可能。

AlphaStar是一项壮举，是建立在DeepMind及其他研究人员多年的研究和工程基础之上，尤其是深度强化学习(DRL)、多智体强化学习(MARL)和博弈论。

虽然在官方博文中，DeepMind也提到了进化算法(Evolutionary Algorithm, EA)，但这显然并非其重点。不过，伦敦帝国学院的Kai Arulkumaran等人，反过来从进化算法的角度来看AlphaStar，希望对深度强化学习领域和进化计算的研究者都带来启发。

进化计算和深度学习并非对立的两个阵营。

事实上，Arulkumaran等人最新在Arxiv上贴出的论文《从进化计算角度看AlphaStar》(AlphaStar: An Evolutionary Computation Perspective)，也确实提出了很多新的问题。

例如，在DeepMind提出的快速调参算法PBT中，用Baldwinian进化算法代替拉马克(Lamarckian)进化，是否能得到元学习星际II智能体？

Arulkumaran本人也在Twitter表示，这篇文章是对一系列概念的高级概括，还需要进一步探索，他们在写作时有意识地省略了演化计算和博弈论之间重叠的部分。

同时，他也指出，不能认为AlphaStar仅仅只是一个演化算法，AlphaStar的混合性质有些类似于AlphaGo atm。“DeepMind官方博文显示了从IL阶段MMR的提升，这一点看起来很重要，但哪些细节是最重要的，我们目前还不知道。”

以下是新智元对文章的编译。

从进化计算角度看AlphaStar

2019年1月，DeepMind向世界展示了AlphaStar——第一个在星际争霸II游戏中击败职业玩家的人工智能（AI）系统，它代表了人工智能技术进步的一个里程碑。

AlphaStar涉及人工智能研究的许多领域，包括深度学习，强化学习，博弈论和进化计算等（EC）。

在本文中，我们主要通过进化计算的角度来分析AlphaStar，为审视该系统提供一个新的视角，并将其与AI领域的许多概念关联起来。我们重点介绍其中一些最有趣的方面：拉马克进化、协同竞争进化和质量多样性。希望通过本文，在更广泛的进化计算社区与新诞生的这个重要的AI系统之间架起一座桥梁。

在1997年”深蓝“击败国际象棋世界冠军后，人工智能与人类博弈的下一个重要里程碑是出现在2016年，围棋世界冠军李世乭被AlphaGo击败。国际象棋和围棋此前都被认为是AI取得进展最困难的领域，可以说，与之相比难度相当的考验之一就是击败星际争霸（SC）游戏中的大师级玩家。

星际争霸是一款即时战略（RTS）游戏。《星际1》及其续作《星际II》都具有几个特点，使得它甚至比围棋的挑战更大。比如只能观察到战场的一部分、没有单一的主导策略、复杂的游戏规则、快速建模的难度更大，动作空间极大，且复杂多变等。可以说，想实现征服《星际争霸》的目标，一点也不比围棋上的突破来得容易。

想实现征服《星际争霸》的目标，一点也不比围棋上的突破来得容易。图片来源：Jesus Rodriguez, The Science Behind AlphaStar

最近，DeepMind推出的AlphaStar向着实现这个目标迈出了重要一步，AlphaStar是一个基于神经网络的AI系统，在2018年12月击败了专业的SC II玩家。

该系统与其前身AlphaGo一样，最初使用模仿学习来模仿人类的游戏行为，然后通过强化学习（RL）和自我对弈的组合方式进行改进。

算法在这里发生了分歧，因为AlphaStar利用基于人口的训练（PBT）来明确地保持一群相互训练的智能体。这部分训练过程建立在多智能体强化学习和博弈论视角之上，但人口的概念是进化计算的核心，因此我们也可以通过这个视角来考察AlphaStar。

AlphaStar使用了拉马克进化算法

目前，训练神经网络参数的最流行的方法是反向传播（BP）。但是，有许多方法可以调整其超参数，包括进化算法。

其中一种方法是使用模因算法（MA），这个算法中，进化作为外部优化算法运行，并且各个解决方案可以通过内环中的其他方式（例如反向传播）来进行优化。在这种特定情况下，模因算法可以将进化算法的探索和全局搜索属性与反向传播算法的高效本地搜索的优势结合起来。

AlphaStar的基本架构。来源：DeepMind

在AlphaStar中，用于训练智能体的基于人口的训练策略（PBT）是使用拉马克进化（LE）的模因算法：在内环中，使用反向传播连续训练神经网络，而在外环中，使用几种选择方法中的一种来选择网络（比如淘汰制锦标赛选择），用胜者的参数覆盖败者的参数，败者也会收到胜者超参数的“变异”副本。

PBT策略最初是通过一系列监督学习和强化学习任务展示的，调整和提升神经网络的性能。对于具有高度非平稳损耗表面的问题，例如深度强化学习问题，这种策略可能是最有效的，因为它可以在运行过程中改变超参数。

AlphaStar vs MaNa，神经网络如何将观察到的结果转换为行动。来源：DeepMind

由于单个网络可能需要高达数G的内存，或需要训练长达几个小时，因此可扩展性是PBT的关键。因此，PBT既是异步的，又是分布式的。与使用静态超参数运行许多实验不同，使用相同数量的硬件，利用PBT只需要很少的开销——外部循环可以重用内部循环的解决方案进行评估，而且数据通信量也比较低。如果考虑非平稳超参数因素和对较弱解决方案的优先抢占的影响，PBT方案能够节省的成本更多。

这些要求的另一个结果是PBT是稳定状态，这一点与分代进化算法不同。由于对异步进化算法和拉马克进化的自然适应性，稳态进化算法可以允许各个解决方案的优化和评估不间断地进行，从而实现资源效率最大化。

最适合的解决方案能够存活更长时间，自然地提供了一种精英主义/名人堂模式，但并非最优的前代方案也可以保留下来，保持解决方案多样性。

自我对弈也体现了竞争性协同进化（CCEA）

在对AlphaStar一类游戏智能体进行优化时，智能体可以使用自对战来提升水平。

竞争性协同进化算法（CCEA）可以被视为自我对弈的超集（superset），并非只保留当前解决方案及其前身，而是保持和评估整个解决方案的群体。

与自我对弈一样，CEA形成了一个自然的教学过程，但也提供了额外的稳健性，因为产生的解决方案是基于各种其他解决方案进行评估的。

AlphaStar的训练过程。来源：DeepMind

通过在CCEA环境中使用PBT策略，利用基于反向传播的深度强化学习，再加上进化版的奖励函数，能够训练智能体从像素级入手，开始学习玩第一人称游戏。

CEA的设计包括很多方面，这种方法的特征可能导致许多潜在的变体。

AlphaStar还可以归为质量多样性算法

在《星际争霸》中，没有所谓“最好的策略”。因此，最终的AlphaStar智能体由纳什分布的人口组成，构成一组互补的、最不可利用的策略。

为了改进训练方式，增加最终解决方案的多样性，明确鼓励多样性是有意义的。

AlphaStar也可以归为质量多样性（QD）算法。尤其是，智能体可以具有游戏特定的属性，例如构建特定类型的额外单位，以及击败某个其他智能体的标准，击败一组其他智能体的标准，甚至是上述这些要素的混合。

此外，这些特定标准也可以在线调整，这对于QD算法而言属于全新的特性——除了POET以外。这使得智能体可以做到更多的事情：可以从人类数据中提取有用的信息，甚至进行无监督学习。

考虑到一系列不同的策略，下一步将自然而然地推断哪种策略可能最适合对付给定的对手，从而实现在线适应。

讨论

虽然AlphaStar是一个复杂的系统，涉及人工智能研究的许多领域，但我们认为，迄今为止被低估的一点是竞争性协同进化算法策略。它结合了拉马克进化，共同进化和质量多样性，达到了惊人的效果。

希望本文能够让进化计算和深度强化学习社区更好地欣赏和构建这个重要的AI系统。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

智能体

智能体

+关注

关注
1

文章
111

浏览量
10418
深度学习

深度学习

+关注

关注
73

文章
5219

浏览量
119860
DeepMind

DeepMind

+关注

关注
0

文章
126

浏览量
10707

原文标题：DeepMind首个战胜星际2职业玩家的AI为何无敌？新视角揭秘AI里程碑

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

未来的AI 深挖谷歌 DeepMind 和它背后的技术

的游戏可以提高战略思维能力。通过学习如何玩这些复杂的游戏，机器将获得思考和采取战略行动的能力。DeepMind的通用学习算法让机器可以通过游戏化学习，尝试获得类人的智力和行为。尽管该公司对实现人类智能

发表于 08-26 12:04

基于差分演化算法的PID参数优化算法

PID 参数优化是自动控制领域研究的一个重要问题. 提出了一种差分演化算法的PID参数优化算法, 同时, 为了增强算法的易用性, 对差分演化

发表于 06-20 10:19 •25次下载

利用PLD实现智能演化计算

演化计算是一种通过模拟的自然界的生物演化过程搜索最优解的方法，主要包括遗传算法（CA）、演化策略（ES）、演化规划（EP）等。

发表于 06-26 17:43 •24次下载

基于编码转换的离散演化算法设计与应用

为了利用演化算法求解离散域上的组合优化问题，借鉴遗传算法（GA）、二进制粒子群优化（BPSO）和二进制差分演化（HBDE）中的映射方法，提出了一种基于映射变换思想设计离散

发表于 12-14 16:12 •0次下载

AlphaStar横空出世星际争霸2人类1：10输给AI

　刚刚，我们见证了 AI 与人类 PK 的又一次重大进展！DeepMind 北京时间 1 月 25 日凌晨 2:00 起公布了其录制的 AI 在《星际争霸 2》中与2位职业选手的比赛

发表于 01-25 09:40 •3133次阅读

一天等于两百年？人工智能在星际争霸2上向人类发出挑战

今天，一则《Deepmind公布星际争霸2结果：AlphaStar以10:1战胜职业高手》一文，引发热议，但是其实在两年前，AI就与人类选手进行过星际争霸比赛。2017年，世界首届人类

发表于 07-29 18:21 •721次阅读

揭秘星际2人工智能AlphaStar：DeepMind科学家回应一切

神经网络本身大概要花 50 毫秒来计算一个动作，但这只是游戏事件发生和 AlphaStar 对该事件做出反应期间的部分处理过程。首先，AlphaStar 平均每 250 毫秒才观察一次游戏，这是因为神经网络除了本身的动作（有时被称为时间抽象动作）之外，还会等待一些其他的游

发表于 01-28 15:39 •3309次阅读

为什么DeepMind的科学家们对星际争霸如此痴迷

星际在全球玩家众多，是最流行的一款实时策略游戏之一，而 DeepMind 汇聚了全球最顶尖的人工智能科学家，似乎两者出现在同一个场景里有些违和。大众刻板印象里面，科学家一般都与实验科研为伍，怎么会对玩

发表于 01-29 10:43 •3801次阅读

DeepMind在伦敦向世界展示了他们的最新成果——星际争霸2人工智能AlphaStar

星际争霸中包含神族、人族、虫族三种选择，不同种族有不同的作战单位、生产机制和科技机制，因而各个种族间存在战术制衡。为了降低任务训练所需时间，并避免不同种族间客观存在的不平衡性，AlphaStar以神族对阵神族为特定训练场景，固定使用天梯地图-CatalystLE为训练和对

发表于 01-30 15:56 •5157次阅读

AIoT在今年将会迎来的一波热潮

AI近些年非常火热，尤其借由DeepMind推出的AlphaGo在围棋领域战胜人类一事，一度将其推上“神坛”。时隔两年，DeepMind携全新AlphaStar再次惊艳亮相，最近在策略类游戏“

发表于 02-12 16:29 •1517次阅读

企业怎样利用人工智能术取得跨越式发展?人工智能领域还有哪些创业机会

谷歌旗下公司DeepMind开发的全新AI程序AlphaStar，在《星际争霸2》人机大战中，以10：1的战绩，全面击溃了人类职业高手。这不禁让人想到2017年AlphaGo以3场全胜的战绩，击败当时世界排名第一的围棋选手柯洁的

发表于 03-18 10:02 •2530次阅读

人工智能告诉我们未来需要更深入地探索人类创造力的本质

人工智能这几年发展势头迅猛，先是阿尔法狗击败了世界顶级围棋高手李世石和柯洁。这一次人工智能算法再一次击败人类专家，称霸了另一款电脑游戏，谷歌DeepMind的AlphaStar系统在《

发表于 03-31 11:00 •694次阅读

DeepMind阿尔法被打脸，华为论文指出多项问题

DeepMind 在强化学习领域具有很高的学术声誉。从 AlphaGo 到 AlphaStar，每一项研究都取得了举世瞩目的成就，但就在最近，DeepMind 的一篇有关多智能体强化学

发表于 11-22 16:26 •2965次阅读

基于单分类的演化算法预选择策略OCPS

基于单分类的演化算法预选择策略OCPS

发表于 06-07 16:07 •2次下载

搜索历史

DeepMind的“星际2”智能体AlphaStar实际上是演化算法？

评论

未来的AI 深挖谷歌 DeepMind 和它背后的技术

ESP8266实际上是从哪里来的？

基于差分演化算法的PID参数优化算法

利用PLD实现智能演化计算

基于编码转换的离散演化算法设计与应用

AlphaStar横空出世星际争霸2人类1：10输给AI

一天等于两百年？人工智能在星际争霸2上向人类发出挑战

揭秘星际2人工智能AlphaStar：DeepMind科学家回应一切

为什么DeepMind的科学家们对星际争霸如此痴迷

DeepMind在伦敦向世界展示了他们的最新成果——星际争霸2人工智能AlphaStar

AIoT在今年将会迎来的一波热潮

企业怎样利用人工智能术取得跨越式发展?人工智能领域还有哪些创业机会

人工智能告诉我们未来需要更深入地探索人类创造力的本质

DeepMind阿尔法被打脸，华为论文指出多项问题

基于单分类的演化算法预选择策略OCPS