DeepMind又出AI大招-电子发烧友网

DeepMind 公司因为研制出会下棋的人工智能AlphaGo和AlphaZero而声名鹊起，如今他们将注意力转向了另一种棋盘游戏：强权外交（Diplomacy），也被称为外交或者外交风云，是经典的桌面游戏之一。该游戏与围棋不同，它是七人游戏，需要游戏玩家既竞争又合作，并且每回合玩家都会同时进行移动，因此，每个玩家都必须推理其他玩家的想法，非常复杂。

研制一个能玩外交游戏的人工智能软件，DeepMind公司的计算机专家Andrea Tacchetti表示：“与游戏Go或国际象棋相比，这是一个本质上不同的问题。” 去年12月，Tacchetti和合作者在NeurIPS会议上就其系统发表了一篇论文，该论文介绍了能玩外交游戏的AI系统策略。

“外交”是一种策略游戏，在欧洲地图上划分为75个省。玩家建立并动员军队占领各省，直到控制了大部分补给中心的玩家获胜。玩家每回合写下自己的行动，然后执行。他们可以攻击或防御对方玩家，或者支援对方玩家的进攻和防御，建立联盟。在完整版中，玩家可以协商，为了方便人工智能研究，DeepMind公司使用了简单版的“No Press”策略，不需要人工智能软件发布策略与其他玩家进行沟通。

从历史上看，人工智能使用人工制定的策略来发挥决策作用。2019年，蒙特利尔研究所的Mila通过使用深度学习系统取得了胜利。他们基于150000个人类游戏的数据集，训练了一个称为DipNet的神经网络来模仿人类。DeepMind从DipNet版本开始，使用强化学习（一种反复试验）来完善它。但是，仅通过反复试验来探索可能性会带来问题。因此，他们调整了强化学习算法。在训练过程中，他们在每一步中都对对手的可能举动进行采样，计算出在这些情况下平均效果最佳的行动，然后训练自己的权重以偏向于此行动。经过训练，它跳过了采样过程，仅根据其学习的知识进行工作。Tacchetti说：“我们论文的信息是：我们可以在这样的环境中进行强化学习。” 他们设计的一个AI玩家与六个DipNet的AI赢了30％的时间（有14％的机会）。一个DipNet对抗他们的七个，仅赢得了3％的时间。

今年4月，Facebook将在ICLR会议上发表一篇论文，描述他们在“No Press”版本的外交游戏中的研究成果。他们建立了类似DipNet的网络，但是没有添加强化学习的元素，而是添加了一个“SearchBot”搜索玩家策略，SearchBot通过玩几回合来评估玩家的每种潜在策略（假设每个人都根据神经网络的首选选择后续行动）。策略不是一个最佳行动组合，而是由50个可能行动组成的一组概率（由神经网络建议）。

在真实游戏中进行这样的探索会减慢SearchBot的速度，但可以使它更优于DipNet。SearchBot在外交游戏网站上与人类进行了匿名比赛，在玩家中排名前2％。Facebook的计算机专家、论文的共同作者亚当·勒勒（Adam Lerer）说：“这是第一个被证明具有能与人类竞争的机器人。”

责任编辑：lq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1821

文章
50585

浏览量
268099
强化学习

强化学习

+关注

关注
4

文章
275

浏览量
12023
DeepMind

DeepMind

+关注

关注
0

文章
131

浏览量
12476

原文标题：DeepMind又出AI大招

文章出处：【微信号：robotmagazine，微信公众号：机器人技术与应用】欢迎添加关注！文章转载请注明出处。

搜索历史

DeepMind又出AI大招

评论