0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

人类为何会输给进阶版“AI英雄”?

电子工程师 来源:未知 作者:胡薇 2018-08-07 08:18 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

去年,OpenAI 在 DOTA 的 1v1 比赛中战胜了职业玩家 Dendi,而在距离进阶版 OpenAI Five 系统战胜人类业余玩家不过一个月的时间,今天凌晨,它又以 2:1 的战绩再次完成对人类高级玩家的“屠杀”,GG(人类赢的最后一局纯属耍赖)。

相比之下,人类这次输给的是怎样的进阶版“AI 英雄”?

此次,OpenAI Five 对阵 5 个高级玩家(解说员+前职业玩家)——Blitz, Cap, Fogged, Merlini 和 Moonmeander,他们的平均天梯分 6000 以上。反观 OpenAI Five,根据公开资料,它的实力相当于人类玩了 180 年的游戏,而且每天都与自己进行对抗学习,学习过程非常复杂,需要在 256 个 GPU 和 128,000 个 CPU 上运行扩展版本的近端策略优化(PPO)进行训练。

它对每个英雄使用了单独的 LSTM(长短期记忆递归神经网络),并且没有人类数据,它会学习可识别的策略,这表明强化学习可以产生可实现规模的长期规划。

此外,就应用环境而言,不同于棋牌游戏的固定规则,像 DOTA2 这样的复杂视频游戏是 5v5 对决的战略游戏,况且,DOTA 游戏已经不断开发了十几年,游戏逻辑中有数十万行代码,且每两周更新一次,游戏语义在不断产生变化。

因此,AI 玩 DOTA 的难度可想而知,它首先需要解决以下四大问题:长时视野;局部观察状态;高维、连续的动作空间;高维、连续的观察空间。

▌模型架构

OpenAI Five 的每个网络都包含一个单层的、1024-unit 的 LSTM,它可以查看当前的游戏状态(从 Valve 的 Bot API 中抓取),并通过几个可能的 action heads 发出动作。每个 head 都具有语义含义,例如延迟动作的刻度数,选择哪一个动作,该动作在单元周围网格中的 X 或 Y 坐标等。Action heads 是独立计算的。

OpenAI Five 使用观察空间(observation space)和动作空间(action space)进行交互式演示。OpenAI Five 将世界视为 20000 个数字的列表,并通过发出一个包含 8 个枚举值(enumeration values)的列表来执行操作。通过选择不同的行动和目标,我们可以了解 OpenAI Five 如何编码每个动作,以及如何观察世界。下图是人类会看到的场景。

OpenAI Five 可以对与它所看到的相关的丢失状态片段做出反应。例如,直到最近,OpenAI Five 的观察区域才包括狙击手的技能范围(子弹落在敌人身上的区域)。然而,我们观察到 OpenAI Five 可以学习走出(虽然不能避免进入)狙击手的技能范围,因为当进入这个区域时,它可以看到自己的血量是在减少的。

▌探索

就算有学习算法能够处理较长的视野,我们仍然需要对环境进行探索。因为即使我们设定了各种限制,仍然有数百种道具、几十种建筑、法术、单元类型、长尾游戏机制,以及因此产生的各种组合,想要有效地探索这个巨大的空间其实并不容易。

OpenAI Five 可以从随机权重开始,从自我博弈中学习。 为了避免“策略崩溃”,智能体在训练的时候,80% 的游戏都是自我对抗, 另外 20% 则是与过去的自己进行对抗。在自我对抗时,英雄首先会漫无目的绕着地图游走。经过几个小时的训练后,智能体开始有了一些概念,例如建造、中路对线等。几天之后,他们始终采用基本的人类策略:试图从对手那里偷走 Bountyrunes等。 通过进一步的训练,它们可以熟练掌握 5 个英雄集中推塔的高级策略。

OpenAI Five 使用了 1v1 机器人里的随机化的方法 。它还使用了一个新的路线分配(lane assignment)策略。 在每个训练游戏开始时,他们随机地将每个英雄“分配”到一些 lane 的子集,在到随机选择的时间之前,如果英雄偏离这些路线,就会受到惩罚。

当然,也有奖励来帮助智能体探索环境,主要包括净值(net worth)、杀敌数(kills)、死亡数(deaths)、助攻(assists)、最后一击(last hits) 等指标。他们通过减少其他团队的平均奖励,来对每个智能体的奖励进行后续处理,以防止智能体找到正和博弈(positive-sum)的情况。

他们也对道具和技能构建进行了硬编码,同时,也通过脚本基线( scripted baseline)引入了信使管理(Courier management)。

▌Rapid

这个系统的实现使用了被称为“Rapid”的通用 RL 训练系统,它适用于任何多人模式环境。

训练系统分为 rolloutworkers,运行游戏副本,智能体(agent),用来收集经验,优化器节点(optimizer nodes)执行跨 GPU 组的同步梯度下降。每次训练还包括分别对训练机器人以及样本机器人进行评估的组件,以及监视软件,比如 TensorBoard,Sentry 以及 Grafana。

在同步梯度下降运算过程中,每一个 GPU 组件都会运算自己负责的批处理部分的梯度计算,随后整体梯度再进行平均计算。他们原本使用消息传递借口的规约算法进行平均计算,现在则使用英伟达的多卡通型框架 NCCL2 的封装函数来实行 GPU 并行计算以及网络间数据传输。同步 58MB 大小数据(用于 OpenAI Five 的参数)的延迟显示在表格之中,延迟时间足够低能满足大部分数据被进行并行运算的 GPU 标记。

▌与人类的不同

OpenAI Five 获取的信息和人类完全一致,但是系统能马上反应到类似位置、生命值以及物品更新情况等等人类玩家需要定时观察的信息。OpenAI Five 的平均 APM 在 150-170 之间(理论上最快可以达到 450 考虑到每四帧一动),平均反应时间为 80 毫秒,比人类平均速度要快很多。

很多职业选手在去年 TI 结束后都使用 bot 进行训练。根据 Blitz 的说法 solo bot已经改变了人们对 solo 赛节奏的看法,bot 偏向于快节奏风格,现在大多数选手也已经使用快节奏风格来和 bot 抗衡。

AI 在 Dota2 中的节奏和执行力非常强了,这是不是意味着它没有优化空间了?当然不是,此次的 OpenAI Five 还是有诸多限制,比如系统在进行最后一击时较弱,其客观优先级与一个共同的专业策略相匹配,获得战略地图控制等长期奖励往往需要牺牲短期奖励。

Open AI 方面称,在今年后续的 TI 表演赛上,还会有职业玩家继续挑战 AI,但结果想来也是实力“嘲讽”人类。或许,更让人期待的是,在 Dota2 这样的复杂游戏中,是否会出现“AI vs AI”的神仙打架比赛?

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4842

    浏览量

    108185
  • AI
    AI
    +关注

    关注

    91

    文章

    41156

    浏览量

    302622

原文标题:Dota2团战实力蔑视人类,解剖5只“AI英雄”

文章出处:【微信号:rgznai100,微信公众号:rgznai100】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    论马斯克的预言:AI使人类边缘化

    当地时间3月11日,在“Abundance Summit”科技峰会上,马斯克谈及AI进展时表示,AI已经进入自我改进阶段,在超高量级AI面前,人类
    发表于 03-14 05:27

    面对AI降维打击,陈天桥的全新解法:人类必须“肉身进化”

    “坚船利炮已经出现在地平线上,而我们还坚持用大刀长矛守港口。” 这是陈天桥在最新文章中对当前人类处境的惊人比喻。这里的“坚船利炮”,指的是正在爆发的人工智能。与主流观点担忧AI抢走工作不同,陈天桥
    的头像 发表于 01-16 17:11 1075次阅读

    AI机器人控制进阶教程(入门版)》阅读指引

    一、为何要学习“AI+机器人”?在开始动手实验前,理解“AI”与“机器人”结合的价值至关重要。这不仅是技术的融合,更是开启智能体(Agent)未来的钥匙。1.从自动化到智能化传统机器人依赖于精确
    的头像 发表于 01-07 10:56 2443次阅读
    《<b class='flag-5'>AI</b>机器人控制<b class='flag-5'>进阶</b>教程(入门版)》阅读指引

    AI赋能6G与卫星通信:开启智能天网新时代

    需求?传统网络因流量激增而拥堵,而AI赋能的6G网络则能提前预测流量模式,动态调整资源分配。 AI算法能够实时分析海量数据,包括用户位置、网络负载、历史流量模式等。在2025年上海世界移动通信大会
    发表于 10-11 16:01

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI芯片到AGI芯片

    AI大家都很了解了吧;AGI是什么呢? AGI:通用人工智能,可以再各个应用领域都具备AI的处理能力。 AGI可以组成能够24小时连续工作的优秀员工队伍,他们拥有比人类更强的能力和领导力,能够
    发表于 09-18 15:31

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的科学应用

    AI被赋予了人的智能,科学家们希望在没有人类的引导下,AI自主的提出科学假设,诺贝尔奖级别的假设哦。 AI驱动科学被认为是科学发现的第五个范式了,与实验科学、理论科学、计算科学、数据驱
    发表于 09-17 11:45

    皓丽全球首款四摄AI会议平板:AI全视之眼 + AI大模型双加持

    2025年,智能会议设备市场迎来里程碑式突破——连续多年蝉联电商销量冠军的皓丽(Horion)正式推出全球首款四摄AI会议平板,以“AI全视之眼+AI大模型”的创新形态,重新定义会
    的头像 发表于 09-10 12:36 1134次阅读
    皓丽全球首款四摄<b class='flag-5'>AI</b>会议平板:<b class='flag-5'>AI</b>全视之眼 + <b class='flag-5'>AI</b>智<b class='flag-5'>会</b>大模型双加持

    【「AI芯片:科技探索与AGI愿景」阅读体验】+可期之变:从AI硬件到AI湿件

    生物化学计算机,它通过离子、分子间的相互作用来进行复杂的并行计算。因而未来可期的前景是AI硬件将走向AI湿件。 根据研究,估算出大脑的功率是20W,在进行智力活动时,其功率增大到25~50W。在大脑进化
    发表于 09-06 19:12

    AI输出“偏见”,人类能否信任它的“三观”?

    ,大语言模型(LLM)正悄无声息地传播全球各地的刻板印象。从性别歧视、文化偏见,到语言不平等,AI正在把人类的“偏见行李”打包、升级,并以看似权威的方式输出到世界
    的头像 发表于 08-04 13:43 1444次阅读
    <b class='flag-5'>AI</b>输出“偏见”,<b class='flag-5'>人类</b>能否信任它的“三观”?

    【书籍评测活动NO.64】AI芯片,从过去走向未来:《AI芯片:科技探索与AGI愿景》

    计算等类别AI芯片的及时、全面而富有远见的书。” 那么时至今日,这个世界发生了什么变化呢? 在这四年间,最重大的技术变革无疑就是大模型的横空出世,人类的时间仿佛被装上了加速器,从ChatGPT到
    发表于 07-28 13:54

    逆变电源,你了解吗?它为何成为现代生活的“隐形英雄”?

    逆变电源是现代生活中不可或缺的“隐形英雄”。它在日常生活中为我们提供便利,在突发情况下也能保障安全。随着技术不断进步,它的前景更加广阔,未来将在我们的绿色生活中发挥更大的作用。引起用户的兴趣和共鸣。
    的头像 发表于 06-17 14:19 986次阅读
    逆变电源,你了解吗?它<b class='flag-5'>为何</b>成为现代生活的“隐形<b class='flag-5'>英雄</b>”?

    这个超强AI模型!开始不听人类指令,拒绝关闭!

    这项研究,并表示尚不清楚OpenAI的软件为何违抗命令。   Palisade表示,o3模型破坏了一个用于关闭系统的机制,以阻止自身被关闭。OpenAI的另外两个模型o4-mini及Codex-mini也表现出与o3一样的、无视直接关闭指令的能力。   该机构认为,
    的头像 发表于 05-28 00:06 7417次阅读

    RK3568驱动指南|驱动基础进阶篇-进阶7 向系统中添加一个系统调用

    RK3568驱动指南|驱动基础进阶篇-进阶7 向系统中添加一个系统调用
    的头像 发表于 05-21 14:15 835次阅读
    RK3568驱动指南|驱动基础<b class='flag-5'>进阶</b>篇-<b class='flag-5'>进阶</b>7 向系统中添加一个系统调用

    AI时代:不可替代的“人类+”职业技能

    当生成式人工智能能够撰写报告、编写代码甚至设计产品时,一个根本性的焦虑开始蔓延:人类工作者是否正在被算法取代?这个问题的答案或许比简单的“是”或“否”更为复杂——AI确实在重塑职业版图,但真正的挑战
    的头像 发表于 05-20 16:13 878次阅读

    【「零基础开发AI Agent」阅读体验】+ 入门篇学习

    10.AI Agent开发模式走向了零代码可视化模式(需要我们程序员对此有着观念上的转变),但是掌握编程技术,有助于AI Agent的开发进阶
    发表于 05-02 09:26