0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么DeepMind的科学家们对星际争霸如此痴迷

Tensorflowers 来源:cc 2019-01-29 10:43 次阅读

北京时间 1 月 25 日凌晨 2 点, DeepMind 直播了他们的 AI AlphaStar 和人类顶尖的职业电竞选手对战星际争霸 2。根据 DeepMind 介绍,AlphaStar 在 2018 年 12 月 10 日和 19 日先后以 5:0 全胜的战绩击败了 2 位国际顶级的人类选手,此次直播的过程中也播放了之前比赛的重放。虽然 AlphaStar 在最后一场现场直播的比赛中惜败,但是仍然保持对人类 10 胜 1 败的战绩。

星际在全球玩家众多,是最流行的一款实时策略游戏之一,而 DeepMind 汇聚了全球最顶尖的人工智能科学家,似乎两者出现在同一个场景里有些违和。大众刻板印象里面,科学家一般都与实验科研为伍,怎么会对玩星际感兴趣呢?

其实如果大家对于 DeepMind 这个公司有所了解的话,就会发现这个世界一流的人工智能团队实际就是一路打游戏过来的。DeepMind 的创始人 Demis Hassabis 自小酷爱国际象棋,13 岁就成为了国际象棋大师。之后他于 2010 年成立 DeepMind,专门开发能够玩游戏的人工智能。这个时候人工智能领域大火,DeepMind 顺势推出了自己的深度强化学习 (Deep Reinforcement Learning),并于 2014 年在 Atari 游戏里面超过了人类水平。2014 年之后 DeepMind 被 Google 收购,借助 Google 的资源优势继续研发,从此在游戏领域一骑绝尘。2016 年和 2017 年 DeepMind 的 AI 先后战胜围棋世界冠军李世石和柯洁。接着 DeepMind 又推出了 AlphaZero,完全不借助人类棋谱,几个小时之内就在围棋,国际象棋和日本将棋上超过了人类水平。

DeepMind 之所以对于游戏如此热衷,除了创始人的游戏情节以外,最关键的还是游戏本身就是绝佳的人工智能测试环境。游戏就是人为创造的,用以帮助人来习得某个技能或者测试技能水平的工具。游戏通过提供明确的反馈,使人可以在短期内不断重复某些行为,从而习得技能。比如很多棋类游戏的设计初衷就是锻炼分析决策能力。当然也有专门用来让人获得愉悦的游戏,比如说许多网络游戏。这些游戏一般会有很强奖励(比如获得金币之类),获得奖励的速度也很快,这就是这类游戏容易让人沉迷的原因。

回过头来说星际本身。为什么 DeepMind 的科学家们看中了这么一款游戏呢?原因主要是星际争霸有这样两个特点:

第一星际争霸的动作空间和策略非常复杂。围棋虽然每次落子的变化也很多,但是每次毕竟只是需要根据盘面挑选落子地方,还算比较简单。相对而言,星际争霸里面的的动作空间就很复杂,玩家需要:

1)积累资源

2)建设工厂

3)组建军队

4)消灭对方的工事

每一个动作之间相互有影响,许多动作产生的后果是很长期的

第二玩家没有全部的信息。基本上来说玩家只知道显示在屏幕上面的一小部分区域的信息。而真正的地图是很大。所以如果他们想要知道对手的信息,需要派出专门的侦查兵

为了这次的对战,DeepMind 其实已经准备已久。去年 DeepMind 和暴雪联合推出了基于星际争霸 2 的强化学习测试平台并且发布了论文《StarCraft II: A New Challenge for Reinforcement Learning》。这次参与对战的 AI 也是从这个平台上训练得到的。这里主要解答一些大家可能关心的问题。AlphaStar 的视角能够看到的是什么信息?它的操作和人是否一样?有没有作弊?

AlphaStar 到底是看到的什么呢?

我们都知道人类玩家在玩星际的时候看到的是计算机屏幕的信息(如果是团战可能还会有场下交流)。计算机屏幕上面的信息是标准的视频流。人类玩家首先做的实际上是识别哪个士兵,哪个是工厂。在计算机视觉里面,这些被称为物体识别和场景识别任务。值得一提的是识别这些人物本身很困难,但和策略的部分关系不大。所以 Deepmind 对问题进行了一些简化。 AlphaStar 以图像的方式从游戏引擎里面读取特征信息,这些图像直接标记了哪里是兵或者工厂。你可以想象,AlphaStar 有很多只眼睛,有的看到兵,有的看到所有的工厂。除了计算机屏幕上面的信息,AlphaStar 还可以看到一个粗略的全景地图,可以另外知道一些全局的信息,比如当前有多少资源,多少兵力等等。AlphaStar 看到的视角实际上长得像是下面这个样子。

那么 AlphaStar 是怎么进行操作呢?

人类玩家都知道玩星际很多时候是拼手速。操作速度快的人基本可以碾压操作速度慢的人。人类一般一分钟进行 30 到 300 次操作。最厉害的人类选手大概是每分钟 500 次操作。理论上计算机的操作速度远远超过人类,所以如果不限定操作速度的话,比较基本上没有意义了。在 DeepMind 发布的工具包里面,操作速度被限制为每分钟 180 次。除此以外,DeepMind 尽量让 AlphaStar 的操作和人的操作是一样的。人类玩家的正常操作一般来说是一个鼠标键盘序列。比如说要移动兵的话,人一般会先按 m 代表进入 move 操作,再按 shift 同时点击要移动的兵。AlphaStar 的操作也会产生类似的序列。

根据上面的信息,我们知道 AlphaStar 的输入和输出其实和人类选手是差不多的,并没有特殊作弊的行为。从这次的比赛视频来看,AlphaStar 在选择策略上如同职业选手般娴熟,非常令人惊叹。那么 Deepmind 大概是用了什么样的方法来训练 AlphaStar 的呢?Deepmind 在赛后发布了一篇博客进行了介绍。据说相应的论文正在同行评议中,相信不久就会将看到细节。这里我结合博客内容和我自己相关的经验进行下简单介绍。

Deepmind AI 的深度网络由多个模块构成,看起来主要的网络是一个被称为 Transformer 和 LSTM 的网络结构构建。这类网络最重要的特点就是有很长的记忆能力,可以在很长的序列里面自动找到数据中的关联,早期这类网络是在自然语言处理里面成熟的。之所以这次使用这样的网络结构,我猜测主要是星际里面的很多动作的影响时间很长,比如说开始建一个工厂到真正这个工厂开始能够提供物资需要过很久。训练的过程和初代版的 AlphaGo 类似,结合了有监督学习 (Supervised Learning) 和强化学习 (Reinforcement Learning)。这两种学习方法其实我们人类也常用 — 有监督学习相当于从课本上面学习,而强化学习像是从实践中摸索。有监督学习和强化学习并用,就相当一个人先从课本上学习大概知识然后学以致用,在实践中不断改进。

在 AlphaStar 中,第一步的训练是在暴雪提供的数据集上进行的有监督学习。据 DeepMind 称,经过有监督学习,AlphaStar 对暴雪的内置 AI 能保持 95% 上的胜率。接下来很多经过有监督学习的 AlphaStar 进行联赛 (League),相互对打,在这个过程中使用强化学习不断提升能力。下面这个图展示了这两个阶段水平的提升。

可以看出,有监督学习使得 AlphaStar 达到人类中的金牌水平(Gold Level),在进行了 8 天强化学习之后,AlphaStar 最终超过人类选手 TLO。14 天之后超过了人类选手 MaNa。值得一提的是,在 14 天的强化学习训练期间,每个 AlphaStar 相当于完成了 200 年的游戏试验。尤其是多个 AlphaStar 相互对战,需要的计算量极其巨大。为了加快计算速度 DeepMind 使用了 Google's v3 TPU (向量计算单元)开发了一个分布式训练系统。TPU (Tensor processing unit) 是 Google 开发的专门用于人工智能处理器,从 2016 年推出,至今已经演进到第三代。每一个 AlphaStar 智能体使用了 16 块 三代 TPU,这是相当惊人的计算能力 — 要知道几个小时灭掉 AlphaGo 的 AlphaZero 在对弈的时候也不过只用了 4 块一代 TPU。

AlphaStar 之所以能够使用 TPU 的强大算力,得益于从 16 年起 Deepmind 将主要研究平台转移到了 TensorFlow 上面。TensorFlow 是 Google 开发的开源机器学习平台,如今也是最受欢迎机器学习系统之一。TPU 就是专门为 TensorFlow 开发的硬件。除了 DeepMind 以外,Google 大部分的人工智能系统也都是基于 TensorFlow。

芯片领域有一个摩尔定律,就是计算力随着时间是指数增长的。其实人工智能领域也有着类似的规律,比如说 AlphaGo 对阵李世石的时候人类尚可一战,不久之后对战柯洁人已经完全不在 一个量级。相信随着时间的前进,AlphaStar 也会不断的强大,同时在更多的问题上人工智能也会超过人类。许多人因此担忧人会随着人工智能的发展人变得多余。其实我们大可不必担忧,虽然如今人工智能在许多地方取得了不俗的成就,但其本质仍然是人类的工具。人类历史其实就是一个不断的发明创造新的工具的历史,从火的使用,到蒸汽机,再到如今的人工智能,无一不是如此。在新的时代,新的人类必然会懂得如何去使用全新的工具。AlphaStar 的星际争霸首秀,可能是这个新的时代的又一个序章。回到文初的问题,为什么科学家们会对星际争霸如此痴迷 — 因为这不仅是游戏里的星际,更是人类的星辰大海。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1776

    文章

    43869

    浏览量

    230618
  • DeepMind
    +关注

    关注

    0

    文章

    126

    浏览量

    10710

原文标题:AlphaStar 星际首秀,人工智能走向星辰大海

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA首席科学家Bill Dally:深度学习硬件趋势

    Bill Dally于2009年1月加入NVIDIA担任首席科学家,此前在斯坦福大学任职12年,担任计算机科学系主任。Dally及其斯坦福团队开发了系统架构、网络架构、信号传输、路由和同步技术,在今天的大多数大型并行计算机中都可以找到。
    的头像 发表于 02-25 16:16 360次阅读
    NVIDIA首席<b class='flag-5'>科学家</b>Bill Dally:深度学习硬件趋势

    康奈尔大学科学家研制出5分钟快速充电锂电池

    锂离子电池如今广泛应用于电动汽车及智能手机领域。其优点包括轻巧、抗震、环保,但充电时间较长及承受大功率电涌的能力不足。随着最新研究成果发布,科学家找到了一种独特的铟阳极材料,与锂离子电池内的阴极材料实现良好配合。
    的头像 发表于 01-26 09:57 293次阅读
    康奈尔大学<b class='flag-5'>科学家</b>研制出5分钟快速充电锂电池

    谷歌DeepMind科学家欲建AI初创公司

    据知情人士透露,谷歌人工智能部门DeepMind的两名杰出科学家Laurent Sifre和Karl Tuyls正在与投资者商讨在巴黎成立一家新的人工智能初创公司的事宜。
    的头像 发表于 01-22 14:41 200次阅读

    飞腾首席科学家窦强荣获 “国家卓越工程师” 称号

         飞腾首席科学家窦强荣获 “国家卓越工程师” 称号 1月19日上午,首届 “国家工程师奖” 表彰大会在北京人民大会堂隆重举行。81 名个人被授予 “国家卓越工程师” 称号,50 个团队被授予
    的头像 发表于 01-19 19:22 1076次阅读
    飞腾首席<b class='flag-5'>科学家</b>窦强荣获 “国家卓越工程师” 称号

    Open AI首席科学家:ChatGPT可能已经有了意识,AI将万世不朽

    我是来和OpenAI的联合创始人兼首席科学家Sutskever会面的,他的公司位于旧金山传教区一条不起眼的街道上,办公楼没有任何标志,我想听听他一手打造的这项颠覆世界的技术的下一步计划。我还想知道他的下一步计划,尤其是,为什么建立他公司的下一代旗舰生成模型不再是他的工作重点。
    的头像 发表于 11-02 15:58 471次阅读

    科学家制造出迄今为止分辨率最高的超透镜

    一个由中国和英国科学家组成的团队制造了迄今为止分辨率最高的光学成像透镜。 19世纪以来,医生们一直认为,光学显微镜存在一个分辨率极限,超出这个极限就无法清楚地看到物体。当物体小于200纳米,比如
    的头像 发表于 09-01 06:28 433次阅读

    NVIDIA 首席科学家 Bill Dally 将在 Hot Chips 大会发表主题演讲

    这位著名计算机科学家将分享来自 NVIDIA Research 最新研究成果,这些研究正在推动加速计算和 AI 的进步。 Bill Dally 是全球最知名的计算机科学家之一,也是 NVIDIA
    的头像 发表于 08-22 19:20 396次阅读

    华为辟谣3.2万名科学家移籍

    华为辟谣3.2万名科学家移籍 对于近期网络传言的华为3.2万名科学家移籍华为方面表示,造谣者毫无根据、无中生有。 华为辟谣3.2万名科学家移籍以及其他的一些网络传言,比如“华为孟晚舟宣布23万亿
    的头像 发表于 08-22 16:51 1003次阅读
    华为辟谣3.2万名<b class='flag-5'>科学家</b>移籍

    科学家呼吁开展气候合作

    三位研究人员介绍了建立地球数字孪生的计划,该计划旨在帮助人们了解全球变暖的影响并做出应对。 三位顶尖科学家正在帮助带领计算史上最雄心勃勃的项目之一:打造地球的 数字孪生 。 Peter Bauer
    的头像 发表于 07-06 20:10 293次阅读
    <b class='flag-5'>科学家</b>呼吁开展气候合作

    踏歌智行创始人、首席科学家余贵珍教授登榜“2023科创家”

    “一群跨越了科学与商业边界的人”这是科创媒体36氪对科创企业家的定义。近日, 踏歌智行创始人、首席科学家余贵珍教授从全赛道中脱颖而出, 登榜首届“2023科创家”榜单。此次共有15位教授荣登榜单
    的头像 发表于 06-16 19:15 2367次阅读
    踏歌智行创始人、首席<b class='flag-5'>科学家</b>余贵珍教授登榜“2023科创家”

    谷歌DeepMind发现更快排序算法,已集成到C++库

    AlphaDev 基于 AlphaZero。DeepMind 向来以开发能自学游戏规则的 AI 软件而闻名。这种思路被证明效果拔群,也先后攻克了国际象棋、围棋和《星际争霸》等诸多游戏难题。虽然具体
    的头像 发表于 06-09 17:11 554次阅读
    谷歌<b class='flag-5'>DeepMind</b>发现更快排序算法,已集成到C++库

    聚众之谋 如此“科兰” 如此精彩——科兰通讯参加第二十一届中国科学家论坛

    “汇奇智、展品牌、促发展”。4月27日,科兰通讯技术(北京)有限公司受邀出席第二十一届中国科学家论坛,Clan销售副总蒋燕作为重量级嘉宾和现代通讯行业的优秀企业代表围绕“后疫情时代科技赋能,与产业
    的头像 发表于 05-04 11:31 1255次阅读
    聚众之谋 <b class='flag-5'>如此</b>“科兰” <b class='flag-5'>如此</b>精彩——科兰通讯参加第二十一届中国<b class='flag-5'>科学家</b>论坛

    科学向新,共创未来--科兰通讯受邀参加第二十一届中国科学家论坛

    万物复苏、芳芽吐蕊,最美人间四月天。值此美好时节,第二十一届中国科学家论坛如约而至,将和我国各领域顶尖专家学者、高新企业倾情相约。 该论坛创办于2002年,是由著名科学家、时任全国人大常委会副委员长
    的头像 发表于 05-04 11:11 291次阅读

    科学家用银线团搭建「纳米线网络」,触电就像大脑一样运作

    这也是如今不少AI科学家们梦寐以求的特性。最近,来自悉尼大学和日本国家材料科学研究所的科学家们在自然通讯上发表论文,试着通过使用纳米线网络(NWN)来模拟人类大脑在受到电激时的反应,实验效果还不错。
    的头像 发表于 05-04 09:30 437次阅读
    <b class='flag-5'>科学家</b>用银线团搭建「纳米线网络」,触电就像大脑一样运作

    获双项荣誉:中科智云受邀出席第二十一届中国科学家论坛

    上海2023年5月1日 /美通社/ -- 第二十一届中国科学家论坛于2023年4月27-28日在北京正式召开。本届论坛以"中国式现代化与科学技术体系化创新"为主题,来自全国各地的科学家、院士、教授
    的头像 发表于 05-02 21:38 485次阅读