DeepMind的最新AI无需知晓规则就能掌握游戏-电子发烧友网

2016年，Alphabet的DeepMind与AlphaGo一起问世，该AI一直领先于人类最佳Go players。一年后，该子公司继续完善其工作，创建了AlphaGo Zero。在AlphaGo Zero的前身通过观察业余和专业比赛学会了围棋的过程中，AlphaGo Zero通过简单地与自己对战来掌握了古老的游戏。然后，DeepMind创建了AlphaZero，该AlphaZero可以使用单一算法玩围棋，象棋和将棋（日本象棋）。将所有这些AI捆绑在一起的是，他们知道在训练中必须掌握的游戏规则。而DeepMind的最新AI MuZero，不需要去被告知如何下棋等游戏规则即可掌握。取而代之的是，该AI独自学习了游戏的相关内容，并且与DeepMind以前的任何算法一样，更加有能力，或者说更胜一筹。

创建一种可以适应情况的算法是人工智能研究人员试图解决的一个挑战，该算法虽然不知道控制仿真的所有规则，但仍然可以找到一种规划成功的方法。DeepMind一直尝试使用称为超前搜索的方法来解决该问题。使用这种方法，算法将考虑未来状态以规划行动计划。解决这个问题的最好方法是考虑如何玩象棋或星际争霸II这样的策略游戏。在采取行动之前，将考虑到对手的反应并尝试做出相应的计划。以几乎相同的方式，利用前瞻方法的AI将尝试预先计划几个动作。即使是像国际象棋这样相对简单的游戏，也无法考虑所有可能的未来状态，因此AI会优先考虑最有可能赢得比赛的游戏。

DeepMind

这种方法的问题在于，大多数现实情况，甚至某些游戏，都没有一套简单的规则来管理操作方式。因此，一些研究人员试图通过使用一种方法来解决该问题，该方法试图对特定游戏或场景环境将如何影响结果进行建模，然后使用该知识制定计划。该系统的缺点是某些域是如此复杂，以至于几乎不可能对各个方面进行建模。例如，事实证明，大多数Atari游戏都是这种情况。

在某种程度上，MuZero结合了两个方面的优势。它没有尝试对所有模型进行建模，而只是尝试考虑那些对决策至关重要的因素。正如DeepMind所指出的，这是作为人类所做的事情。当大多数人看着窗外，看到地平线上形成乌云时，他们通常不会被凝结和压力前沿之类的事情所困扰。相反，他们思考如果出门应该如何穿着以不被雨水淋湿。MuZero做的也是类似的事情。

在必须做出决定时，它考虑了三个因素。它将考虑其先前决定的结果，它目前所处的位置以及下一步的最佳行动方案。这种看似简单的方法使MuZero成为迄今为止DeepMind最有效的算法。在测试中，它发现MuZero在国际象棋，围棋和将棋中的表现都和AlphaZero一样好，并且比Atari游戏中包括Agent57在内的所有以前的算法都要好。它还发现，MuZero考虑动作的时间越长，执行效果就越好。DeepMind还进行了测试，在那些测试中，它发现MuZero仍然能够取得良好的结果。

在Atari游戏中获得高分固然很好，但是DeepMind最新研究的实际应用又如何呢？总之，它们可能是开创性的。虽然还没有找到，但MuZero是最接近研究人员来开发通用算法的。该子公司表示，MuZero的学习能力有一天可以帮助它解决没有简单规则的机器人领域的复杂问题。

原文标题：DeepMind最新AI - 无需提前知晓规则也可以掌握游戏

文章出处：【微信公众号：IEEE电气电子工程师学会】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉