0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Reaver在《星际争霸 II》各种小型游戏上与其他AI的性能对比

DPVg_AI_era 来源:未知 2018-11-29 09:43 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

如果说我们的征途是星辰大海,那么星际争霸必定是其中一关。今天,有人在Github开源了他潜心研究一年半的成果,一个新手和资深研究人员都能受益的深度强化学习框架,单机运行速度快、方便调式,支持多种强化学习训练环境。

上周结束的 AI Challenger 星际争霸竞赛,让 AI 挑战星际争霸这个议题又稍稍火了一把。虽然这届冠军使用的仍然是硬编码方法,但从其他解决方案中不难看出,AI算法的占比在不断提升。

作为围棋之后 DeepMind 公开宣布的下一个攻克目标,《星际争霸》的魅力可见一斑。而随后不久 DeepMind 便将其相关研究及平台开源,更是印证了让 AI 玩星际争霸的挑战。

今天,塔尔图大学的 Roman Ring 在 Github 上开源了他倾力投入一年半的成果,一个名叫 Reaver 的《星际争霸 II》AI,可用于训练《星际争霸 II》的各种基本任务。

Reaver 的基本思路是沿着 DeepMind 的路线在走,也即 AI 的玩法是像人类玩家一样,从游戏画面中获取视觉特征,然后再做出决策。

补充说明,Roman 去年本科毕业项目是使用《Actor-Critic 法复现 DeepMind 星际争霸 II 强化学习基准》[1],Reaver 则是在此基础上的改善提升。

Reaver 的强项在于比其他开源的同类框架单机运行速度快;除了支持星际争霸游戏训练环境 SC2LE,也支持 OpenAI Gym、ATARI 和 MUJOCO;模块化组成,容易调试。

根据作者所说,Reaver 不到10 秒就解决 CartPole-v0,在 4 核 CPU 笔记本上每秒处理 5000 张图像,使用 Google Colab,Reaver 通关《星际争霸 II》SC2LE 小型游戏 MoveToBeacon 只需要半小时的时间。

Reaver 玩《星际争霸 II》小型游戏 MoveToBeacon 的画面,左边是未经训练,右边是训练后的情况。来源:Roman Ring/YouTube

套用一句话,如果我们的征途是星辰大海,那么其中的一关必然是《星际争霸》。

Reaver 对于不具备 GPU 集群的人非常友好,正如作者在 Github 库里介绍所说,

“虽然开发是研究驱动的,但 Reaver API 背后的理念类似于《星际争霸II》游戏本身——新手可以用,领域专家也能从中获得东西。

“对于业余爱好者而言,只要对 Reaver 稍作修改(例如超参数),就能得到训练深度强化学习智能体的所有必须工具。对于经验丰富的研究人员,Reaver 提供简单但性能优化的代码库,而且都是模块化架构:智能体、模型和环境都是分开,并且可以随意组合调换。”

欢迎加入星际争霸强化学习阵营。

深度强化学习AIReaver:模块化且便于调试

性能 大部分已发表的强化学习基准通常针对的都是 MPI 之间 message-based 通信,对于 DeepMind 或者 OpenAI 这样有大规模分布式强化学习配置的机构而言这样做自然很合理,但对于普通研究者或其他没有这类强大基础设施的人,这就成了很大的瓶颈。因此,Roman Ring 采用了共享内存(shared memory)的方法,相比 message-based 并行的解决方案实现了大约 3 倍的速度提升。

模块化 很多强化学习基准都或多或少都是模块化的,不过这些基准通常与作者使用的训练环境密切相关。Roman Ring 自己就曾经因为专注于《星际争霸 II》环境而导致调试花了很长时间。因此,Revar 只需要一个命令行就能改变训练环境,从 SC2 到 Atari 或者 CartPole(将来计划纳入 VizDoom)。每个神经网络都是简单的 Keras 模型,只要符合基本的 API contracts 都能调用。

调试 现在一个游戏 AI 通常含有十几个不同的调试参数,如何实现更为统一便捷的调试?Roman Ring 在 Reaver 中只要能用的地方都用了 “gin-config”,这个轻量级调试框架只要是 Python 可调用函数都能调试,非常方便。

更新 是的,现在算法发展很快,去年发表的东西今年就可能过时。在开发 Reaver 的时候 Roman 表示他想着用了 TensorFlow 2.0 API(主要是使用 tf.keras 不用 tf.contrib),希望这个库能活用久一点吧。

单机友好,可用于训练星际争霸II各种任务

Roman Ring 列出了 Reaver 在《星际争霸 II》各种小型游戏上与其他 AI 的性能对比。其中,

Reaver(A2C)就是在 SC2LE 训练 Reaver 得到的结果

DeepMind SC2LE 是 DeepMind 在《StarCraft II: A New Challenge for Reinforcement Learning》一文中发布的结果[2]

DeepMind ReDRL 则是 DeepMind 在《Relational Deep Reinforcement Learning》中的结果[3]

人类专家是 DeepMind 收集的 GrandMaster 级别人类玩家的结果

以下是 Reaver 在不同小型游戏中训练花费的时间:

综上,就算 DefeatRoaches 花了 150 小时,但考虑到硬件只是一台笔记本(英特尔酷睿 i5-7300HQ,4核 +GTX 1050GPU),这个结果已经算很不错。

Roman 还列出了他的路线图,上述成果只是他万里长征的第一步。如果你感兴趣,不妨加入这个项目。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 强化学习
    +关注

    关注

    4

    文章

    269

    浏览量

    11903
  • GitHub
    +关注

    关注

    3

    文章

    484

    浏览量

    18424
  • AI算法
    +关注

    关注

    0

    文章

    270

    浏览量

    13056

原文标题:单机《星际争霸2》AI,不用GPU集群,支持多种训练环境

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    客户案例 | 《星际迷航OL》开发商 Cryptic Studios 携手 Splashtop,以高性能远程方案赋能全球游戏开发

    与沉浸式音效体验,CrypticStudios以世界级游戏品质赢得了全球玩家的喜爱。全球化协作成为游戏产业常态的今天,远程开发的性能、安全性与创意兼容性已成为衡
    的头像 发表于 11-21 17:00 1849次阅读
    客户案例 | 《<b class='flag-5'>星际</b>迷航OL》开发商 Cryptic Studios 携手 Splashtop,以高<b class='flag-5'>性能</b>远程方案赋能全球<b class='flag-5'>游戏</b>开发

    铝电解电容与其他电容类型的性能对比

    电子元器件领域,电容作为基础被动元件之一,其性能差异直接影响电路设计的可靠性。铝电解电容凭借独特的结构和工作原理,众多电容类型中占据重要地位,但其性能特点
    的头像 发表于 08-07 16:34 1011次阅读

    与其他材料集成电路中的比较

    与其他半导体材料集成电路应用中的比较可从以下维度展开分析。
    的头像 发表于 06-28 09:09 1234次阅读

    WD5030高效同步降压转换器:性能对比、优势解析及应用领域详解

    根据提供的规格书内容,我将找到几款类似的电源芯片,并制作一份对比文档,突出WD5030的优势。以下是对比分析的结构和内容: ### **对比文档:WD5030与其他类似电源芯片的
    的头像 发表于 04-01 16:38 683次阅读
    WD5030高效同步降压转换器:<b class='flag-5'>性能对比</b>、优势解析及应用领域详解

    SolidWorks 价格与其他3D CAD软件对比,谁性价比更高?

    工程设计领域,选择一款合适的设计软件至关重要,而软件价格往往是企业和设计师们重点考虑的因素之一。SolidWorks 作为一款广泛应用的三维机械设计软件,其价格常常被拿来与其他同类软件进行比较
    的头像 发表于 02-26 15:33 1276次阅读

    惠斯通电桥与其他电桥的比较

    惠斯通电桥与其他类型的电桥相比,原理、应用、灵敏度、线性度等方面都存在一些差异。以下是对惠斯通电桥与其他几种常见电桥的比较: 一、惠斯通电桥 原理 :基于电磁平衡原理,通过比较两个电路分支之间
    的头像 发表于 02-13 15:15 1709次阅读

    汽轮机与其他动力设备的对比

    现代工业中,动力设备是不可或缺的组成部分,它们为各种工业过程提供必要的能量。汽轮机作为一种高效的能量转换设备,与其他动力设备相比,具有其独特的优势和局限性。 汽轮机的特点 汽轮机的主要特点包括
    的头像 发表于 02-06 16:58 1412次阅读

    真空断路器与其他类型断路器的性能对比

    电力系统中,断路器是实现电路控制和保护的关键设备。随着技术的发展,断路器的种类也越来越多,包括真空断路器、空气断路器、油断路器和SF6断路器等。每种类型的断路器都有其特定的应用场景和性能特点
    的头像 发表于 01-17 09:39 1975次阅读

    HarmonyOS NEXT 应用开发练习:AI能对话框

    显示发送的时间戳,以便用户了解消息的发送时间。 这个DEMO展示了如何使用ArkTS和扩展后的ChatUI框架(或类似功能的库)HarmonyOS NEXT创建一个功能丰富的AI能对
    发表于 01-03 11:29

    华为云Flexus X实例,Redis性能加速评测及对比

    加速 Redis 的选项。本文旨在通过实际测试,展示华为云 Flexus X 实例加速 Redis 方面的性能优势,并与其他业界 U1 实例进行对比
    的头像 发表于 12-29 15:47 830次阅读
    华为云Flexus X实例,Redis<b class='flag-5'>性能</b>加速评测及<b class='flag-5'>对比</b>

    Triton编译器与其他编译器的比较

    的GPU编程框架,使开发者能够编写出接近手工优化的高性能GPU内核。 其他编译器 (如GCC、Clang、MSVC等): 定位:通用编译器,支持多种编程语言,广泛应用于各种软件开发场景。 目标:提供稳定、高效的编译服务,优化代码
    的头像 发表于 12-24 17:25 1592次阅读

    单片机Debug工具性能对比 单片机调试常用命令

    。以下是对单片机调试工具性能的简要对比以及一些常用的调试命令。 单片机Debug工具性能对比 Keil uVision 性能 :Keil uVision 是一款功能强大的集成开发环境(
    的头像 发表于 12-19 09:56 2163次阅读

    ddc与其他分类系统的比较

    DDC(Dewey Decimal Classification,即杜威十进制分类法)与其他分类系统多个方面存在差异。以下是对DDC与其他分类系统(如体系分类法、网络分类体系、PLC控制系统分类等
    的头像 发表于 12-18 15:10 1467次阅读

    TNC连接器对比分析:与其他射频连接器的性能对

    德索工程师说道射频连接器领域,TNC连接器以其卓越的性能和广泛的应用而著称。以下是TNC连接器与其他射频连接器的性能对比分析: TNC连接器vs SMA连接器 频率范围:TNC连
    的头像 发表于 12-17 10:58 1564次阅读
    TNC连接器<b class='flag-5'>对比</b>分析:<b class='flag-5'>与其他</b>射频连接器的<b class='flag-5'>性能对</b>决

    漆包线电机中的应用 漆包线与其他导线的比较

    漆包线电机中的应用 电机是现代工业和日常生活中不可或缺的动力设备,其性能和效率直接影响到机械设备的运转效果。漆包线作为电机绕组的核心材料之一,其性能对电机的整体表现有着至关重要的影响。 1.
    的头像 发表于 12-09 09:20 3974次阅读