0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌AI发布足球游戏强化学习训练环境“足球引擎”

DPVg_AI_era 来源:lq 2019-06-15 10:33 次阅读

继围棋、Dota和星际争霸后,AI进军体育游戏了!近日,谷歌AI发布足球游戏强化学习训练环境“足球引擎”,智能体经过由易到难的强化学习自我比赛训练,成功完成跑动配合、防守反击、二过一、门前抢点得分等高级行为。足球游戏“虐电”要成为历史了吗?

强化学习(RL)的目标是培养能够与环境互动并解决复杂任务的智能体,开发出机器人技术的更多实际应用。近年来,让智能体玩游戏,如标志性的Atari主机游戏、围棋游戏,专业视频游戏等,如Dota 2或《星际争霸2》,推动了这一领域的快速发展。所有这些游戏都提供了极具挑战性的训练环境,可以以安全、可重复的方式快速测试新的算法和理念。

对于强化学习来说,足球类游戏尤其具有挑战性,因为智能体需要在短期内学会控制、学习陌生概念(比如传球),并在高水平的不同战略之间实现自然平衡。

为此,Google AI 发布了一个新的强化学习环境Google Research Football Environment,智能体的目标是掌握世界上最受欢迎的体育项目——足球。该环境以流行的足球视频游戏为模型,提供基于真实的3D足球模拟,由智能体控制球队中的一个或所有球员,学习如何传球,并设法突破对方的防守取得进球。这个环境由几个关键部分组成:高度优化的游戏引擎、一系列严格的基准,以及由易变难的强化学习场景。为了便于研究,我们在Github上发布了基础开源代码的测试版。

强化学习“足球引擎”:真实模拟足球场上常见场景事件

该强化学习环境的核心是一种先进的足球游戏模拟,称为“足球引擎”,它基于一个足球游戏版本经大量修改而成。根据两支对方球队的输入动作,模拟了足球比赛中的常见事件和场景,包括进球、犯规、角球和点球、越位等。“足球引擎”采用高度优化的C++代码编写,可以在现有的计算机上运行,无论是否依赖GPU渲染都可以运行。在单CPU六核计算机上的运行速度可以达到每天约2500万步。

“足球引擎”是一种先进的足球游戏环境模拟,支持所有主要的足球比赛规则,如开球(左上),进球(右上),犯规,出牌(左下),角球和点球(右下)和越位。

此外,该引擎还具备了针对强化学习的更多功能。首先,引擎可以从不同的状态表示中学习,包括玩家位置之类的语义信息,也可以从原始像素进行学习。其次,为了研究随机性对游戏的影响,可以在随机模式(默认设置即为随机模式)下运行,在该模式下,环境和对手AI动作中都存在随机性,而在确定模式中不存在随机性。第三,开箱即用,与广泛使用的OpenAI Gym API 兼容。研究人员可以通过使用键盘或游戏手柄与智能体对战,来获得对游戏的感觉。

训练基准:由易到难,进球和带球近门都有奖励

通过基准测试,研究人员为基于足球引擎的强化学习研究设立了一系列基准问题,其目标是针对固定的基于规则的对手进行“标准”的足球游戏,这些对手是为此而手工设计的。我们提供三个版本的基准:简单、普通和困难,实力由弱到强。

作为参考,本研究提供了两种最先进的强化学习算法的基准测试结果:DQN和IMPALA,它们既可以在一台机器上的多个进程中运行,也可以在多台机器上同时运行。我们针对两种奖励设置进行了研究,第一种设置提供的唯一奖励是取得进球。第二种设置为智能体将球移动至球门附近提供额外的奖励。

研究结果表明,简单模式下的基准测试似乎更适用于单机版算法的研究,困难模式的基准即使对于大规模分布式强化学习算法而言也具有很大的挑战性。基于环境的性质和基准测试的难度,我们期望这些测试和环境可用于研究当前的科学难题,例如样本有效的强化学习、稀疏奖励,或基于模型的强化学习等。

不同基线的不同难度级别的智能体的测试结果。对于简单模式基准测试的对手,DQN智能体训练2000万步即可战胜,而要战胜中等和困难模式的对手需要使用大规模分布式算法,如IMPALA,需要训练2亿步。

未来方向:从自训练到适应对手

为了完成完整的足球策略训练,研究人员还提供了“足球学院”,提供各种测试难度的多个场景。研究人员可以探索新的研究思路,测试更高级的概念,并为课程学习研究思路提供基础。

智能体可以从由易到难的场景中学习。“足球学院”场景示例包括,智能体必须学习如何在球员之间快速传接球,并学习如何进行防守反击。研究人员可以使用简单的API,进一步自定义场景并训练智能体解决更多问题。

由上至下:(1)一个成功的进攻策略,迎球跑动,面对门将射门得分。(2)策动并完成一次漂亮的反击。(3)应对前场2打1的简单方式。(4)角球后门前抢点得分。

此次提出的足球游戏智能体训练基准遵循的是标准的强化学习设置,由智能体与固定的对手竞争,竞争对手被视为环境的一部分。而实际上,足球是一个双方的游戏,是两个不同的球队之间的竞争,一方必须要适应对方的行动和战略。我们为研究这种环境提供了独特的机会,一旦我们完成了自游戏的测试,就可以进一步研究更多更有趣的测试环境。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    5852

    浏览量

    103248
  • AI
    AI
    +关注

    关注

    87

    文章

    26424

    浏览量

    264031
  • 强化学习
    +关注

    关注

    4

    文章

    259

    浏览量

    11113

原文标题:FIFA变身AI主场:谷歌推出强化学习“足球引擎”完爆人类玩家

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    体育与TDK:使足球运动越来越狂热的VAR系统和传感器技术

    足球是一项受欢迎的运动,在世界范围内拥有着非常多的运动员和观众。由FIFA (国际足球联合会) 主办的世界杯每4年举办一次,是全球32支球队 (2026年48支球队) 聚集在一起,角逐足球冠军的大赛。
    的头像 发表于 03-27 14:19 218次阅读
    体育与TDK:使<b class='flag-5'>足球</b>运动越来越狂热的VAR系统和传感器技术

    谷歌模型训练软件有哪些?谷歌模型训练软件哪个好?

    谷歌在模型训练方面提供了一些强大的软件工具和平台。以下是几个常用的谷歌模型训练软件及其特点。
    的头像 发表于 03-01 16:24 276次阅读

    谷歌模型训练软件有哪些功能和作用

    谷歌模型训练软件主要是指ELECTRA,这是一种新的预训练方法,源自谷歌AI。ELECTRA不仅拥有BERT的优势,而且在效率上更胜一筹。
    的头像 发表于 02-29 17:37 393次阅读

    什么是强化学习

    强化学习是机器学习的方式之一,它与监督学习、无监督学习并列,是三种机器学习训练方法之一。 在围棋
    的头像 发表于 10-30 11:36 1635次阅读
    什么是<b class='flag-5'>强化学习</b>

    NeurIPS 2023 | 扩散模型解决多任务强化学习问题

    扩散模型(diffusion model)在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习(RL)中来解决序列决策问题
    的头像 发表于 10-02 10:45 447次阅读
    NeurIPS 2023 | 扩散模型解决多任务<b class='flag-5'>强化学习</b>问题

    机器人足球世界杯你见过吗

    现在全世界的目光都集中在新西兰,2023女子世界杯在那里举行。 但你知道吗,有这样一个活动,许多人称之为“机器人足球世界杯”? 在过去的25年中,机器人足球推动了机器人、自动化和人工智能领域的进步
    的头像 发表于 09-08 16:30 978次阅读

    模拟矩阵在深度强化学习智能控制系统中的应用

    。 在深度强化学习智能控制系统中,讯维模拟矩阵可以用来做以下几方面的模拟和预测: 环境模拟:构建多种环境模型,包括不同参数的系统、不同干扰因素等,为深度强化学习智能控制系统提供多样化的
    的头像 发表于 09-04 14:26 327次阅读
    模拟矩阵在深度<b class='flag-5'>强化学习</b>智能控制系统中的应用

    语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路

    体的发展,从最早的 AlphaGo、AlphaZero 到后来的多模态、多任务、多具身 AI 智能体 Gato,智能体的训练方法和能力都在不断演进。 从中不难发现,随着大模型越来越成为人工智能发展的主流趋势,DeepMind 在智能体的开发中不断尝试将
    的头像 发表于 07-24 16:55 331次阅读
    语言模型做先验,统一<b class='flag-5'>强化学习</b>智能体,DeepMind选择走这条通用<b class='flag-5'>AI</b>之路

    基于强化学习的目标检测算法案例

    摘要:基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为,其产生的候选区域形状和尺寸变化单一,导致目标检测精确度较低。为此,在基于深度强化学习的视觉目标检测算法基础上,提出联合回归与深度
    发表于 07-19 14:35 0次下载

    什么是深度强化学习?深度强化学习算法应用分析

    什么是深度强化学习? 众所周知,人类擅长解决各种挑战性的问题,从低级的运动控制(如:步行、跑步、打网球)到高级的认知任务。
    发表于 07-01 10:29 1185次阅读
    什么是深度<b class='flag-5'>强化学习</b>?深度<b class='flag-5'>强化学习</b>算法应用分析

    人工智能强化学习开源分享

    电子发烧友网站提供《人工智能强化学习开源分享.zip》资料免费下载
    发表于 06-20 09:27 1次下载
    人工智能<b class='flag-5'>强化学习</b>开源分享

    ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

    大模型时代,模型压缩和加速显得尤为重要。传统监督学习可通过稀疏神经网络实现模型压缩和加速,那么同样需要大量计算开销的强化学习任务可以基于稀疏网络进行训练吗?本文提出了一种强化学习专用稀
    的头像 发表于 06-11 21:40 400次阅读
    ICLR 2023 Spotlight|节省95%<b class='flag-5'>训练</b>开销,清华黄隆波团队提出<b class='flag-5'>强化学习</b>专用稀疏<b class='flag-5'>训练</b>框架RLx2

    DFRobot Maqueen足球赛开源分享

    电子发烧友网站提供《DFRobot Maqueen足球赛开源分享.zip》资料免费下载
    发表于 06-09 10:34 0次下载
    DFRobot Maqueen<b class='flag-5'>足球</b>赛开源分享

    彻底改变算法交易:强化学习的力量

    强化学习(RL)是人工智能的一个子领域,专注于决策过程。与其他形式的机器学习相比,强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习
    发表于 06-09 09:23 367次阅读

    基于多智能体深度强化学习的体系任务分配方法

    为了应对在未来复杂的战场环境下,由于通信受限等原因导致的集中式决策模式难以实施的情况,提出了一个基于多智能体深度强化学习方法的分布式作战体系任务分配算法,该算法为各作战单元均设计一个独立的策略网络
    的头像 发表于 05-18 16:46 2672次阅读
    基于多智能体深度<b class='flag-5'>强化学习</b>的体系任务分配方法