0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

DeepMind部署自学AI 攻陷FPS“雷神之锤”

电子工程师 来源:yxw 2019-06-02 10:25 次阅读

AI攻占了国际象棋和围棋高地之后,DeepMind在第一人称射击游戏(FPS)上也有了新进展。

1997年5月“深蓝”击败国际象棋世界冠军卡斯巴罗夫,有玩家在庆幸,我不下象棋,只下围棋。

2017年5月AlphaGo打败围棋世界冠军柯洁,有玩家庆幸,还好,我不下棋。

2018年6月,OpenAI 人工智能在dota2 5V5模式中以4000分水平击败人类玩家,依旧有玩家庆幸,我不玩RPG(角色扮演)对战,我只玩FPS(第一人称射击)。

如今,FPS也被AI攻陷。

近日,DeepMind的研究人员在本周的《科学》杂志上发表了一篇论文,描述描述了一个完全无监督的自学程序,不仅能够学习如何玩“ Quake III Arena ”(雷神之锤III竞技场,一款第一人称射击游戏),还能设计出胜过人类团队的新颖战略。

国际象棋和围棋最初是用来模拟战争游戏的,但却对战争复盘的不好。因为这类游戏通常涉及一个或多个队友和敌人。而且一个优秀的战争游戏必然是三维展开。

DeepMind使用的AI叫For The Win(FTW),本质是用卷积神经网络直接通过屏幕上进行训练,屏幕数据会被传递到两个LSTM网络或能够学习长期依赖性的网络。这两个LSTM一个是在快速时间尺度上,另一个是在慢速时间尺度上运行。它们通过目标耦合,能够对游戏世界进行预测并通过模拟游戏控制器输出动作。

FTW总共训练了30个游戏角色,为他们提供了一系列队友和对手,并随机选择游戏阶段,以防止他们通过记忆惯性做出选择。每个角色都明确自己的奖励信号,从而拥有自己独特的目标(比如夺取旗帜)。此外,他们利用双层流程(two-tier process)来优化内部奖励,通过这些奖励加强学习,来制定最重要的游戏策略。每个角色都单独玩了大约450,000场比赛,相当于拥有大约四年的经验。

训练过后的FTW在地图,团队名单和团队规模选择方面都可以作出有利的选择。他们学习了类似人类的行为,例如跟随队友,在对手的基地露营,以及在一波攻击中捍卫他们自己的基地。而随着训练的进行,他们还学会避免人类玩家的一些弱点,比如过于关注队友的行为。

在一场有40名人类参加的比赛中,人类和AI在比赛中随机匹配(对手或队友),结果,AI大胜人类玩家,FTW的Elo评级(相当于获胜的概率)为1600,而最好的人类玩家也只有1300,人类玩家平均评级为1050。

伦敦全球大学计算机科学教授,DeepMind科学家Thore Graepel表示,这项工作显示了多智能体培训(multiagent)推动人工智能发展的潜力。这是人机交互和系统相互补充或协同工作的研究的一个重大进步。

AI训练思路

游戏分为两个阵营,两方的大本营在游戏时候开会随机设置在地图的两端。游戏中的玩家可以在游戏地图中“瞎逛”,借助地图中的建筑物、数目以及其他物品与玩家进行互动。

在游戏中,如果一方用激光击败了其他玩家,被击中的玩家丢掉旗帜,回大本营重生。

DeepMind采用的AI玩家会和人类有同样的视角,AI不知道其他玩家的信息,包括位置、状态等。另外这款游戏比其他棋牌游戏更能接近真实的战场。AI玩家从零开始,用强化学习训练,在游戏的开始,真实加入战场的AI角色是随机选择的,这会使得智能体的行为更能接近最初设置的策略目标。

每个智能体都能够为自己制定策略,这意味着不同角色会采用不同的战术,即不同AI玩家有不同的专攻方向。

当然,也会有限制,即在每1000次迭代后,系统会比较策略并评估整个团队在模仿与学习能力。如果一个智能体的获胜机会低于另一个智能体的70%,那么较弱的智能体会复制较强的智能体。同时,强化学习还要求AI通过其他指标的对比进行调整。

AI玩家在一开始就像一张白纸,研究人员给他们的目标不仅是游戏结束时候的得分,还要关注在游戏前期的得分。研究人员指出,如果奖励机制只和游戏结果有关(输/赢/平局),显然限制太少,导致学习效果非常不好,所以需要考虑动态的奖励机制,即根据游戏的点数流来变动。

当初始位置是随机生成时,AI通常击败人类玩家。即使人类已经练习了12个小时,他们仍然能够赢得25%的比赛,平局6%,剩下的是负。

然而,当两名职业游戏测试人员得到一张特别复杂的地图时,这张地图AI并没有见过。重新让AI在这张地图上训练的话,只需要6个小时的训练就能脱颖而出。

这一结果没有在论文说明,而是在向新闻界提供的一份补充文件中作了说明。

目前人们仍然可以在经过精心设计的定位战中击败AI,因为现实生活很少提供这样复盘重来的机会,毕竟淮海战役只能打一次!

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • AI
    AI
    +关注

    关注

    87

    文章

    26338

    浏览量

    263943
  • DeepMind
    +关注

    关注

    0

    文章

    126

    浏览量

    10707

原文标题:Science最新:DeepMind部署自学AI,攻陷FPS“雷神之锤”

文章出处:【微信号:smartman163,微信公众号:网易智能】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    NVIDIA数字人技术加速部署生成式AI驱动的游戏角色

    NVIDIA 在 GDC 2024 大会上宣布,Inworld AI 等领先的 AI 应用程序开发者,正在使用 NVIDIA 数字人技术加速部署生成式 AI 驱动的游戏角色。
    的头像 发表于 04-09 10:08 197次阅读
    NVIDIA数字人技术加速<b class='flag-5'>部署</b>生成式<b class='flag-5'>AI</b>驱动的游戏角色

    使用CUBEAI部署tflite模型到STM32F0中,模型创建失败怎么解决?

    看到CUBE_AI已经支持到STM32F0系列芯片,就想拿来入门嵌入式AI。 生成的模型很小,是可以部署到F0上的,但是一直无法创建成功。 查阅CUBE AI文档说在调用create
    发表于 03-15 08:10

    谷歌DeepMind推新AI模型Genie,能生成2D游戏平台

    据报道,谷歌公司的DeepMind团队近期发布了AI模型Genie,此模型拥有多达110亿个参数,能够依据用户提供的图片及提示词创建出相当完整的2D游戏场景。
    的头像 发表于 02-27 14:53 334次阅读

    谷歌DeepMind资深AI研究员创办AI Agent创企

    近日,刚从谷歌DeepMind离职的资深AI研究员Ioannis Antonoglou宣布创办了一家名为“AI Agent”的创企。Ioannis Antonoglou常驻伦敦,此前曾担任谷歌
    的头像 发表于 02-04 10:02 357次阅读

    【KV260视觉入门套件试用体验】部署DPU镜像并开发一个图像识别程序

    的训练、量化和编译也是部署模型前必须完成的步骤。Xilinx提供的Vitis-AI现成模型KV260具有一些优点,其中之一就是它依托于Xilinx强大的背景。官方提供了一些已经训练好的具有一定功能的模型
    发表于 09-18 14:15

    山东省大力发展元宇宙产业,DeepMind创始人访谈:AI像把双刃剑

    大家好,欢迎收看河套IT WALK第102期。 今天,我们为大家带来两则科技新闻。首先,我们将深入探讨DeepMind创始人对AI技术的看法,他认为AI技术就像一把双刃剑,既有巨大的潜力,也存在不少
    的头像 发表于 09-08 21:00 339次阅读
    山东省大力发展元宇宙产业,<b class='flag-5'>DeepMind</b>创始人访谈:<b class='flag-5'>AI</b>像把双刃剑

    GPT-5正秘密训练!DeepMind联创爆料,这模型比GPT-4大100倍

    另外,采访中,Suleyman还爆出了很多自己在DeepMind和Inflection AI工作时的内部信息,包括了谷歌当时收购DeepMind和之后的抓马,某种程度上解释了为什么DeepMi
    的头像 发表于 09-04 16:28 455次阅读
    GPT-5正秘密训练!<b class='flag-5'>DeepMind</b>联创爆料,这模型比GPT-4大100倍

    如何自学人工智能

    如何自学人工智能 随着科技的发展,人工智能(AI)已成为一个热门话题,是未来科技发展的重要方向之一。越来越多的人开始意识到AI的重要性和广泛应用的潜力,因此想要自学
    的头像 发表于 08-12 17:26 794次阅读

    Ai 部署的临界考虑电子指南

    虽然GPU解决方案对训练,AI部署需要更多。 预计到2020年代中期,人工智能行业将增长到200亿美元,其中大部分增长是人工智能推理。英特尔Xeon可扩展处理器约占运行AI推理的处理器单元的70
    发表于 08-04 07:25

    语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路

    体的发展,从最早的 AlphaGo、AlphaZero 到后来的多模态、多任务、多具身 AI 智能体 Gato,智能体的训练方法和能力都在不断演进。 从中不难发现,随着大模型越来越成为人工智能发展的主流趋势,DeepMind 在智能体的开发中不断尝试将强化学习与自然语言处
    的头像 发表于 07-24 16:55 325次阅读
    语言模型做先验,统一强化学习智能体,<b class='flag-5'>DeepMind</b>选择走这条通用<b class='flag-5'>AI</b>之路

    边缘AI应用越来越普遍,AI模型在边缘端如何部署

    电子发烧友网报道(文/李弯弯)在人工智能时代,越来越多的AI应用需要从云端扩展到边缘端,比如智能耳机、智能摄像机、智能手环、物流机器人等,在边缘端部署AI已经成为趋势。如今AI大模型迅
    的头像 发表于 07-04 00:11 1922次阅读
    边缘<b class='flag-5'>AI</b>应用越来越普遍,<b class='flag-5'>AI</b>模型在边缘端如何<b class='flag-5'>部署</b>?

    谷歌DeepMind发现更快排序算法,已集成到C++库

    AlphaDev 基于 AlphaZero。DeepMind 向来以开发能自学游戏规则的 AI 软件而闻名。这种思路被证明效果拔群,也先后攻克了国际象棋、围棋和《星际争霸》等诸多游戏难题。虽然具体
    的头像 发表于 06-09 17:11 546次阅读
    谷歌<b class='flag-5'>DeepMind</b>发现更快排序算法,已集成到C++库

    谷歌DeepMindAI改进数据排序

      人工智能研究所谷歌Google DeepMind推出了三种ai工具AlphaZero、MuZero、AlphaDev,这些工具提高数据中心的资源利用率,提高视频压缩效率,更快的算法发现,整个计算优化生态系统。
    的头像 发表于 06-09 10:30 673次阅读

    大敌当前,Google Brain与DeepMind合并!

    Google 旗下的 Brain 团队和 DeepMind 都是各自研究各自的 AI,基本没有什么紧密合作。DeepMind 也只是提供一些技术来帮助 Google 改进产品和服务(比如
    的头像 发表于 04-27 14:56 603次阅读

    谷歌合并Brain和DeepMind,加速人工智能技术研究

    )和Google DeepMind首席科学家一职。谷歌表示,Dean将领导该公司“与AI有关的最关键和最具战略性的技术项目”,包括一系列新的强大AI项目。   谷歌在人工智能领域的领
    的头像 发表于 04-26 01:10 1477次阅读