0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

为什么DeepMind的科学家们对星际争霸如此痴迷

Tensorflowers 来源:cc 2019-01-29 10:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

北京时间 1 月 25 日凌晨 2 点, DeepMind 直播了他们的 AI AlphaStar 和人类顶尖的职业电竞选手对战星际争霸 2。根据 DeepMind 介绍,AlphaStar 在 2018 年 12 月 10 日和 19 日先后以 5:0 全胜的战绩击败了 2 位国际顶级的人类选手,此次直播的过程中也播放了之前比赛的重放。虽然 AlphaStar 在最后一场现场直播的比赛中惜败,但是仍然保持对人类 10 胜 1 败的战绩。

星际在全球玩家众多,是最流行的一款实时策略游戏之一,而 DeepMind 汇聚了全球最顶尖的人工智能科学家,似乎两者出现在同一个场景里有些违和。大众刻板印象里面,科学家一般都与实验科研为伍,怎么会对玩星际感兴趣呢?

其实如果大家对于 DeepMind 这个公司有所了解的话,就会发现这个世界一流的人工智能团队实际就是一路打游戏过来的。DeepMind 的创始人 Demis Hassabis 自小酷爱国际象棋,13 岁就成为了国际象棋大师。之后他于 2010 年成立 DeepMind,专门开发能够玩游戏的人工智能。这个时候人工智能领域大火,DeepMind 顺势推出了自己的深度强化学习 (Deep Reinforcement Learning),并于 2014 年在 Atari 游戏里面超过了人类水平。2014 年之后 DeepMind 被 Google 收购,借助 Google 的资源优势继续研发,从此在游戏领域一骑绝尘。2016 年和 2017 年 DeepMind 的 AI 先后战胜围棋世界冠军李世石和柯洁。接着 DeepMind 又推出了 AlphaZero,完全不借助人类棋谱,几个小时之内就在围棋,国际象棋和日本将棋上超过了人类水平。

DeepMind 之所以对于游戏如此热衷,除了创始人的游戏情节以外,最关键的还是游戏本身就是绝佳的人工智能测试环境。游戏就是人为创造的,用以帮助人来习得某个技能或者测试技能水平的工具。游戏通过提供明确的反馈,使人可以在短期内不断重复某些行为,从而习得技能。比如很多棋类游戏的设计初衷就是锻炼分析决策能力。当然也有专门用来让人获得愉悦的游戏,比如说许多网络游戏。这些游戏一般会有很强奖励(比如获得金币之类),获得奖励的速度也很快,这就是这类游戏容易让人沉迷的原因。

回过头来说星际本身。为什么 DeepMind 的科学家们看中了这么一款游戏呢?原因主要是星际争霸有这样两个特点:

第一星际争霸的动作空间和策略非常复杂。围棋虽然每次落子的变化也很多,但是每次毕竟只是需要根据盘面挑选落子地方,还算比较简单。相对而言,星际争霸里面的的动作空间就很复杂,玩家需要:

1)积累资源

2)建设工厂

3)组建军队

4)消灭对方的工事

每一个动作之间相互有影响,许多动作产生的后果是很长期的

第二玩家没有全部的信息。基本上来说玩家只知道显示在屏幕上面的一小部分区域的信息。而真正的地图是很大。所以如果他们想要知道对手的信息,需要派出专门的侦查兵

为了这次的对战,DeepMind 其实已经准备已久。去年 DeepMind 和暴雪联合推出了基于星际争霸 2 的强化学习测试平台并且发布了论文《StarCraft II: A New Challenge for Reinforcement Learning》。这次参与对战的 AI 也是从这个平台上训练得到的。这里主要解答一些大家可能关心的问题。AlphaStar 的视角能够看到的是什么信息?它的操作和人是否一样?有没有作弊?

AlphaStar 到底是看到的什么呢?

我们都知道人类玩家在玩星际的时候看到的是计算机屏幕的信息(如果是团战可能还会有场下交流)。计算机屏幕上面的信息是标准的视频流。人类玩家首先做的实际上是识别哪个士兵,哪个是工厂。在计算机视觉里面,这些被称为物体识别和场景识别任务。值得一提的是识别这些人物本身很困难,但和策略的部分关系不大。所以 Deepmind 对问题进行了一些简化。 AlphaStar 以图像的方式从游戏引擎里面读取特征信息,这些图像直接标记了哪里是兵或者工厂。你可以想象,AlphaStar 有很多只眼睛,有的看到兵,有的看到所有的工厂。除了计算机屏幕上面的信息,AlphaStar 还可以看到一个粗略的全景地图,可以另外知道一些全局的信息,比如当前有多少资源,多少兵力等等。AlphaStar 看到的视角实际上长得像是下面这个样子。

那么 AlphaStar 是怎么进行操作呢?

人类玩家都知道玩星际很多时候是拼手速。操作速度快的人基本可以碾压操作速度慢的人。人类一般一分钟进行 30 到 300 次操作。最厉害的人类选手大概是每分钟 500 次操作。理论上计算机的操作速度远远超过人类,所以如果不限定操作速度的话,比较基本上没有意义了。在 DeepMind 发布的工具包里面,操作速度被限制为每分钟 180 次。除此以外,DeepMind 尽量让 AlphaStar 的操作和人的操作是一样的。人类玩家的正常操作一般来说是一个鼠标键盘序列。比如说要移动兵的话,人一般会先按 m 代表进入 move 操作,再按 shift 同时点击要移动的兵。AlphaStar 的操作也会产生类似的序列。

根据上面的信息,我们知道 AlphaStar 的输入和输出其实和人类选手是差不多的,并没有特殊作弊的行为。从这次的比赛视频来看,AlphaStar 在选择策略上如同职业选手般娴熟,非常令人惊叹。那么 Deepmind 大概是用了什么样的方法来训练 AlphaStar 的呢?Deepmind 在赛后发布了一篇博客进行了介绍。据说相应的论文正在同行评议中,相信不久就会将看到细节。这里我结合博客内容和我自己相关的经验进行下简单介绍。

Deepmind AI 的深度网络由多个模块构成,看起来主要的网络是一个被称为 Transformer 和 LSTM 的网络结构构建。这类网络最重要的特点就是有很长的记忆能力,可以在很长的序列里面自动找到数据中的关联,早期这类网络是在自然语言处理里面成熟的。之所以这次使用这样的网络结构,我猜测主要是星际里面的很多动作的影响时间很长,比如说开始建一个工厂到真正这个工厂开始能够提供物资需要过很久。训练的过程和初代版的 AlphaGo 类似,结合了有监督学习 (Supervised Learning) 和强化学习 (Reinforcement Learning)。这两种学习方法其实我们人类也常用 — 有监督学习相当于从课本上面学习,而强化学习像是从实践中摸索。有监督学习和强化学习并用,就相当一个人先从课本上学习大概知识然后学以致用,在实践中不断改进。

在 AlphaStar 中,第一步的训练是在暴雪提供的数据集上进行的有监督学习。据 DeepMind 称,经过有监督学习,AlphaStar 对暴雪的内置 AI 能保持 95% 上的胜率。接下来很多经过有监督学习的 AlphaStar 进行联赛 (League),相互对打,在这个过程中使用强化学习不断提升能力。下面这个图展示了这两个阶段水平的提升。

可以看出,有监督学习使得 AlphaStar 达到人类中的金牌水平(Gold Level),在进行了 8 天强化学习之后,AlphaStar 最终超过人类选手 TLO。14 天之后超过了人类选手 MaNa。值得一提的是,在 14 天的强化学习训练期间,每个 AlphaStar 相当于完成了 200 年的游戏试验。尤其是多个 AlphaStar 相互对战,需要的计算量极其巨大。为了加快计算速度 DeepMind 使用了 Google's v3 TPU (向量计算单元)开发了一个分布式训练系统。TPU (Tensor processing unit) 是 Google 开发的专门用于人工智能的处理器,从 2016 年推出,至今已经演进到第三代。每一个 AlphaStar 智能体使用了 16 块 三代 TPU,这是相当惊人的计算能力 — 要知道几个小时灭掉 AlphaGo 的 AlphaZero 在对弈的时候也不过只用了 4 块一代 TPU。

AlphaStar 之所以能够使用 TPU 的强大算力,得益于从 16 年起 Deepmind 将主要研究平台转移到了 TensorFlow 上面。TensorFlow 是 Google 开发的开源机器学习平台,如今也是最受欢迎机器学习系统之一。TPU 就是专门为 TensorFlow 开发的硬件。除了 DeepMind 以外,Google 大部分的人工智能系统也都是基于 TensorFlow。

芯片领域有一个摩尔定律,就是计算力随着时间是指数增长的。其实人工智能领域也有着类似的规律,比如说 AlphaGo 对阵李世石的时候人类尚可一战,不久之后对战柯洁人已经完全不在 一个量级。相信随着时间的前进,AlphaStar 也会不断的强大,同时在更多的问题上人工智能也会超过人类。许多人因此担忧人会随着人工智能的发展人变得多余。其实我们大可不必担忧,虽然如今人工智能在许多地方取得了不俗的成就,但其本质仍然是人类的工具。人类历史其实就是一个不断的发明创造新的工具的历史,从火的使用,到蒸汽机,再到如今的人工智能,无一不是如此。在新的时代,新的人类必然会懂得如何去使用全新的工具。AlphaStar 的星际争霸首秀,可能是这个新的时代的又一个序章。回到文初的问题,为什么科学家们会对星际争霸如此痴迷 — 因为这不仅是游戏里的星际,更是人类的星辰大海。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49757

    浏览量

    261682
  • DeepMind
    +关注

    关注

    0

    文章

    131

    浏览量

    12138

原文标题:AlphaStar 星际首秀,人工智能走向星辰大海

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    中兴通讯崔丽受邀出席2025腾冲科学家论坛

    近日,“2025腾冲科学家论坛”在云南启幕。本届论坛以“科学·AI改变世界”为主题,汇聚包括诺贝尔奖、图灵奖、菲尔兹奖得主在内的国际顶尖科学家,以及百余位两院院士、高校校长、科技精英与产业领袖,共话
    的头像 发表于 12-09 11:36 253次阅读

    科学家利用微波激光照射钻石,制造出时间准晶体

    科学家利用微波激光照射钻石,制造出时间准晶体。 美国华盛顿大学、麻省理工学院和哈佛大学科学家携手,成功在钻石上“雕刻”出一种全新的物质形态:时间准晶体。这项突破有望为量子计算、精确计时等领域带来
    的头像 发表于 11-19 07:35 61次阅读
    <b class='flag-5'>科学家</b>利用微波激光照射钻石,制造出时间准晶体

    国际类脑计算科学家Yulia Sandamirskaya教授加盟时识科技

    近日,国际类脑计算与神经形态机器人领域知名科学家Yulia Sandamirskaya 教授,作为科学家顾问正式加入时识科技(SynSense)。
    的头像 发表于 10-13 13:50 463次阅读

    科技感拉满!鲸启智能机器人与无人机联动,闪耀服务世界青年科学家论坛

    9 月 20 日,以 “青年,世界科学的未来” 为主题的世界青年科学家论坛(南京)在江北新区启幕。20 余位诺贝尔奖得主、海内外院士,超百位国际国内青年科学家及产业代表齐聚,围绕前沿科技展
    的头像 发表于 10-11 16:54 129次阅读

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五个范
    发表于 09-17 11:45

    地物光谱仪如何帮助科学家研究植被和土壤?

    在遥感、生态、农业等研究领域,科学家常常会提到一个工具: 地物光谱仪 。它看起来像一台“测光的枪”,却能揭示土壤和植被的“隐藏信息”。那么,地物光谱仪到底是怎么工作的?它又是如何在科学研究中
    的头像 发表于 05-20 15:46 411次阅读
    地物光谱仪如何帮助<b class='flag-5'>科学家</b>研究植被和土壤?

    云天励飞董事长陈宁当选深圳市青年科学家协会第十届会长

      2025年3月29日,深圳市青年科学家协会十届一次会员大会在深圳市青少年活动中心南厅隆重举行。百余位青年才俊齐聚一堂,共同见证协会换届选举,共话科技创新未来。共青团深圳市委员会书记胡火明出席了
    的头像 发表于 03-31 19:15 1115次阅读
    云天励飞董事长陈宁当选深圳市青年<b class='flag-5'>科学家</b>协会第十届会长

    星际电涌:未来纪元(3)

    个崭新的纪元。《星际电涌:未来纪元》以这场变革为背景。讲述了年轻科学家塞拉斯·沃克的传奇故事,从深海探险的意外发现,到与虚空能源集团的生死较量,再到星渊联盟的壮丽
    的头像 发表于 03-01 08:32 510次阅读
    <b class='flag-5'>星际</b>电涌:未来纪元(3)

    我国科学家制备出可控手性石墨烯卷

    日前,我国科学家开发了一种名为“石蜡辅助浸入法”的新技术,成功让二维材料“卷起来”,制备出具有可控手性的石墨烯卷,为未来量子计算和自旋电子器件的发展奠定了坚实基础。 由天津大学教授胡文平、雷圣宾、李
    的头像 发表于 02-26 11:17 756次阅读

    星际电涌:未来纪元(2)

    故事梗概《星际电涌:未来纪元》以一场震撼宇宙的能源革命为背景,讲述了年轻科学家塞拉斯·沃克的传奇故事,从深海探险的意外发现,到与虚空能源集团的生死较量,再到星渊联盟的壮丽誓言,这是一场关于勇气、智慧与牺牲的旅程,更是对人类未来无限可能的深情憧憬。让我们一同见证这场震撼人心
    的头像 发表于 02-22 08:33 393次阅读
    <b class='flag-5'>星际</b>电涌:未来纪元(2)

    星际电涌:未来纪元(1)

    故事梗概《星际电涌:未来纪元》以一场震撼宇宙的能源革命为背景,讲述了年轻科学家塞拉斯·沃克的传奇故事,从深海探险的意外发现,到与虚空能源集团的生死较量,再到星渊联盟的壮丽誓言,这是一场关于勇气、智慧与牺牲的旅程,更是对人类未来无限可能的深情憧憬。让我们一同见证这场震撼人心
    的头像 发表于 02-15 08:32 461次阅读
    <b class='flag-5'>星际</b>电涌:未来纪元(1)

    NVIDIA RAPIDS cuDF如何赋能AI加速数据科学

    随着 AI 正帮助各行各业推动创新和提高效率,基于海量的高质量数据来训练各种模型是充分发挥 AI 应用潜力的必经之路,正因如此,数据科学家面临着日益增长的工作负载需求,迫切需求寻找高效趁手的工具以应对挑战。
    的头像 发表于 01-24 09:26 1063次阅读

    深开鸿亮相“小小科学家”品牌发布暨科学探索研学营开营活动

    为在青少年中营造学科学、爱科学、用科学的浓厚氛围,1月14日,由市委组织部、市委教育工委、团市委共同主办的“小小科学家”品牌发布暨科学探索研
    的头像 发表于 01-15 21:17 840次阅读
    深开鸿亮相“小小<b class='flag-5'>科学家</b>”品牌发布暨<b class='flag-5'>科学</b>探索研学营开营活动

    AI 推动未来科学 晶泰科技共襄未来科学大奖周

    科学家,探讨学科交叉与学术创新,倾力打造兼具权威性、专业性和国际影响力的科学盛会。 未来科学大奖由未来论坛于 2016 年创设,被誉为"中国诺贝尔奖"。未来论坛是当前中国极具声望的民间科学
    的头像 发表于 12-18 09:58 652次阅读
    AI 推动未来<b class='flag-5'>科学</b> 晶泰科技共襄未来<b class='flag-5'>科学</b>大奖周

    西湖大学:科学家+AI,科研新范式的样本

    研究,创新科研新范式。这一点在西湖大学的科研项目中已得到体现。 成立于2018年的西湖大学是由施一公院士领衔创办的、聚焦前沿科学研究的研究型大学,该校鼓励科学家探索AI与各学科交叉融合,为科研创新提速。为此,西湖大学在浪潮信息
    的头像 发表于 12-12 15:59 852次阅读
    西湖大学:<b class='flag-5'>科学家</b>+AI,科研新范式的样本