0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenAI发布了一个名为“Neural MMO”的大型多智能体游戏环境

电子工程师 来源:lp 2019-03-07 16:02 次阅读

最近,OpenAI 发布了一个名为“Neural MMO”的大型多智能体游戏环境,该平台支持在一个持久开放的任务中使用大量且数量可变的智能体。大量智能体和物种的加入导致了更好的勘探,不同的生态位形成,和更大的整体能力。

近年来,多智能体设置已成为深度强化学习的有效研究平台。尽管取得了这些进展,多智能体强化学习仍然面临两大挑战。我们需要创建具有高度复杂性上限的开放式任务:当前环境要么复杂但应用面太窄,要么开放但太简单。持久性和大规模等属性是关键,但是我们还需要更多的基准环境来量化大规模和持久性的学习进度。而这次大型多人在线游戏 (MMOs) 模拟了一个大型生态系统,该系统由数量不等的玩家在持久且广泛的环境中进行生存竞争。

为了应对这些挑战,OpenAI 构建了符合以下标准的神经 MMO:

1、持久性: 无需环境重置,智能体在其他学习智能体存在的情况下并发学习。策略必须考虑长期的范围,并适应其他智能体行为中潜在的快速变化。

2、规模:环境支持大量数量可变的实体。OpenAI 的实验考虑了在 100 个并发服务器中的每个服务器中 128 个并发智能体的最长 1 亿个生存期。

3、效率:入门计算门槛很低。OpenAI 可以在单个桌面 CPU 上训练出有效的策略。

4、扩展:与现有的 MMO 们类似,OpenAI 设计 Neural MMO 也是为了更新新内容。目前的核心功能包括瓦片地形的程序生成、食物和水的觅食系统以及战略作战系统。开源驱动的扩展在未来是有机会的。

在这个游戏环境中,玩家 (智能体) 可以加入任何可用的服务器 (环境),每个服务器 (环境) 都包含一个自动生成的可配置大小的瓦片地形游戏地图。有些地砖,如可食用的森林地砖和草地砖,是可移动的。其他的,如水和固体石,则不是。智能体程序在环境边缘的随机位置生成。他们必须获得食物和水,并避免战斗伤害从其他智能体,以维持他们的健康。踩在森林地砖上或靠近水砖的地方,分别会重新填充代理的部分食物或供水。然而,森林地砖的食物供应有限,随着时间的推移,食物会缓慢再生。这意味着智能体必须竞争食物砖,同时周期性地从无限的水砖中补充他们的水供应。玩家在战斗中使用三种战斗风格,代表肉搏(近战),射手(远程物理攻击)和法师(远程魔法攻击)。

(来源:OpenAI)

这个平台提供了一个过程化的环境生成器和可视化工具,用于实现值函数、映射访问分布和学习策略的智能体依赖性。基线使用超过 100 个世界的策略梯度进行训练。

作为一个简单的基线团队使用普通的策略梯度来训练一个小型的、完全连接的体系结构,将值函数基线和奖励折扣作为唯一增强。智能体不会因为实现特定的目标而获得奖励,而是只根据其生命周期 (轨迹长度) 进行优化——即在其生命周期中,每一次滴答声都会获得 1 个奖励。团队通过计算所有玩家的最大值 (OpenAI Five 也使用了这个技巧),将可变长度的观察值 (比如周围玩家的列表) 转换为单个长度向量。源版本基于 PyTorch 和 Ray 实现,包括完全分布式培训。

图丨为了提高效率,策略在由 16 个智能体组成的组之间共享。在测试时,合并在成对实验中学到的总体,并在一个固定的总体大小下评估生存期,且只对觅食进行评估,因为作战策略更难直接比较。在更大的人群中训练出来的智能体总是更优秀(来源:OpenAI)

智能体的策略是从多个种群中均匀采样的——不同种群中的代理共享架构,但只有相同种群中的智能体共享权重。初步实验表明,随着多智能体交互作用的增加,智能体的能力逐渐增强。增加并发玩家的最大数量会放大探索;种群数量的增加放大了生态位的形成,也就是说,种群在地图不同区域的分布和觅食的趋势。

在老版本的 mmo 中没有标准的程序来评估跨服务器的相对玩家能力。然而,MMO 服务器有时会经历合并,即来自多个服务器的玩家基地被放置在单个服务器中。团队通过合并在不同服务器上训练的玩家基础来实现“锦标赛”风格的评估。这使团队能够直接比较在不同实验环境中学习到的策略。团队改变了测试时间范围,发现在较大环境中训练的智能体始终优于在较小环境中训练的智能体。

在自然界中,动物之间的竞争促使它们分散开来以避免冲突。OpenAI 观察到,随着并发智能体数量的增加,映射覆盖率也在增加。智能体学习探索仅仅是因为其他智能体的存在提供了这样做的自然动机。

图丨物种数量 (种群数量) 放大了生态位的形成。探视地图覆盖游戏地图;不同的颜色对应不同的物种。训练单一种群往往会产生单一的深度探索路径。训练 8 个种群会导致许多更浅的路径:种群分散以避免物种间的竞争(来源:OpenAI)

在一个足够大且资源丰富的环境中,团队发现不同的智能体种群分布在整个地图上,以避免在种群增长时与其他智能体竞争。由于实体无法在竞争中胜过其人口中的其他智能体 (即与它们共享权重的代理),它们倾向于在地图上寻找包含足够资源以维持其人口的区域。DeepMind 在并发多代理研究中也独立观察到类似的效果。

图丨每个正方形映射显示位于正方形中心的智能体对其周围的智能体的响应。我们展示了初始化和训练早期的觅食图;额外的依赖关系映射对应于不同的觅食和战斗公式(来源:OpenAI)

OpenAI 通过将智能体固定在假想映射作物的中心来可视化智能体-智能体依赖关系。对于该智能体可见的每个位置,OpenAI 将显示如果在该位置有第二个智能体,值函数将是什么。OpenAI 发现,在觅食和战斗环境中,智能体学习依赖于其他智能体的策略。智能体们学习“牛眼”躲避地图,在仅仅几分钟的训练后就能更有效地开始搜寻。当智能体们学习环境中的战斗机制时,他们开始学会适当地评估有效的交战范围和接近的角度。

总而言之,OpenAI 的 Neural MMO 解决了之前基于游戏环境的两个关键限制,但仍有许多问题没有解决。未来我们还能期待更多的突破。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 可视化
    +关注

    关注

    1

    文章

    1022

    浏览量

    20556
  • 智能体
    +关注

    关注

    1

    文章

    111

    浏览量

    10426
  • 强化学习
    +关注

    关注

    4

    文章

    259

    浏览量

    11114

原文标题:堪称游戏 AI“养蛊”!OpenAI 发布大型多智能体游戏环境

文章出处:【微信号:deeptechchina,微信公众号:deeptechchina】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    游戏录制软件玩***宝2.0发布,高清特效打造完美游戏视频

    ***宝就是这么简单!你还在愁吗!现在有玩***宝玩家们就不用愁!轻轻松松就搞定自己喜欢的游戏视频。还能和好友起分享
    发表于 09-25 16:53

    [分享]原来不是苹果手机也能玩大型3D游戏啊!我OUT

    为什么那样看我)然后说到:“你看我拿的是苹果的手机吗?”我再仔细看果然不是就是普通的智能手机。我还想继续问她,结果人家就下车。我只能望着她的背影感叹… …到公司我就开始在百度上输
    发表于 11-30 13:59

    骁龙神经处理引擎(Snapdragon Neural Processing Engine)

    上查看我们的Snapdragon和人工智能,其中概述我们提供的内容。What’s in the SDK?(SDK中有什么?)Android and Linux runtimes for neural
    发表于 09-27 16:53

    【大联大世平Intel®神经计算棒NCS2试用体验】牛刀小试(

    3.0通讯接口。类似u 盘。 NCS2内部的核心是名为Movidius Myriad X VPU的芯片。2017年08月29日,英特尔发布Movidius Myriad X视觉处
    发表于 07-14 22:06

    感垃圾分类小游戏到底实不实用?

    分类游戏系统是采用AR感互动的游戏系统开发出的款环保小游戏,促进更多人们环境保护的意识的有效
    发表于 08-06 16:23

    3D制图软件中设计的使用技巧

    设计,大家可以将装配体所需的多个部件创建为零件文件或钣金文件,让产品创新设计和可视化数据管理更便捷、高效。下面小编给大家介绍下由浩辰CAD软件公司研发的浩辰3D制图软件中
    发表于 02-04 17:18

    介绍智能体系统的解决方案以及应用

    些具有挑战性的环境中有效地执行。本文讨论深度RL的一个重要方面,它涉及到需要多个智能进行通信和合作以解决复
    发表于 07-12 08:44

    种基于聚类和竞争克隆机制的智能免疫算法

    包含分布式电源的配电网无功优化matlab源代码,代码按照高水平文章复现,保证正确,可先发您文章看是否满足您的要求利用分布式电源的无功补偿能力,提出了种基于聚类和竞争克隆机制的智能
    发表于 12-29 06:50

    彰显旗舰级品质,雷柏V910 MMO激光游戏鼠标拆解

    ,国产外设领军品牌雷柏(RAPOO)再推一款旗舰级MMO激光游戏鼠标--雷柏V910MMO旗舰级激光游戏鼠标,1600万色的智能呼吸灯再搭配
    的头像 发表于 07-31 10:49 2926次阅读
    彰显旗舰级品质,雷柏V910 <b class='flag-5'>MMO</b>激光<b class='flag-5'>游戏</b>鼠标拆解

    OpenAI发布Neural MMO—一个强化学习的大型智能游戏环境

    其中,持久性和规模化将是探讨的关键属性,但研究者们还需要更好的基准测试环境,在存在大量人口规模和持久性的情况下量化学习进度。这一游戏类型(MMO大型多人在线
    的头像 发表于 03-06 15:30 1.1w次阅读

    罗技发布新款无线游戏鼠标 提供1ms报告率几乎零延迟

    本周,罗技发布G604 LIGHTSPEED无线游戏鼠标,面向MMO和MOBA玩家。
    的头像 发表于 09-17 14:34 4345次阅读

    开放世界的Naruto MMO即将登陆Android

    由于它是MMO,因此期望能够与数百个其他玩家一起玩,尽管不一定要一次全部玩。许多MMO都采用了实例化系统,将您的体验限制在数量更少的玩家中。在这里可能就是这种情况。
    的头像 发表于 03-08 17:11 1692次阅读

    拳头 Riot 证实正在开发大型多人在线游戏《英雄联盟》

    据外媒 PCGamer 报道,拳头游戏(Riot Games)正在招募一个 “大规模”的新游戏项目。 这款游戏应当是以《英雄联盟》的 Runeterra 宇宙为背景的 MMO
    的头像 发表于 12-18 17:53 1916次阅读

    直通 GDC 2023 中国行丨Azure OpenAI 服务改变游戏开发

    毫不意外,在刚刚闭幕的 GDC 2023 中国行现场,以 Azure OpenAI 服务为代表的全新创作工具成为线上、线下所有观众关注的焦点。当 AIGC 智能创作时代向游戏开发者奔涌而来
    的头像 发表于 04-07 05:40 504次阅读

    OpenAI发布Sora模型,瞬间生成高清大片

    近日,人工智能领域的领军企业OpenAI发布了一款名为“Sora”的视频生成AI模型,再次展示了其在AI技术领域的创新实力。Sora以其出色的视频生成能力,瞬间成为业界的焦点。
    的头像 发表于 02-20 13:33 325次阅读