0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌AI发布足球游戏强化学习训练环境“足球引擎”

DPVg_AI_era 来源:lq 2019-06-15 10:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

继围棋、Dota和星际争霸后,AI进军体育游戏了!近日,谷歌AI发布足球游戏强化学习训练环境“足球引擎”,智能体经过由易到难的强化学习自我比赛训练,成功完成跑动配合、防守反击、二过一、门前抢点得分等高级行为。足球游戏“虐电”要成为历史了吗?

强化学习(RL)的目标是培养能够与环境互动并解决复杂任务的智能体,开发出机器人技术的更多实际应用。近年来,让智能体玩游戏,如标志性的Atari主机游戏、围棋游戏,专业视频游戏等,如Dota 2或《星际争霸2》,推动了这一领域的快速发展。所有这些游戏都提供了极具挑战性的训练环境,可以以安全、可重复的方式快速测试新的算法和理念。

对于强化学习来说,足球类游戏尤其具有挑战性,因为智能体需要在短期内学会控制、学习陌生概念(比如传球),并在高水平的不同战略之间实现自然平衡。

为此,Google AI 发布了一个新的强化学习环境Google Research Football Environment,智能体的目标是掌握世界上最受欢迎的体育项目——足球。该环境以流行的足球视频游戏为模型,提供基于真实的3D足球模拟,由智能体控制球队中的一个或所有球员,学习如何传球,并设法突破对方的防守取得进球。这个环境由几个关键部分组成:高度优化的游戏引擎、一系列严格的基准,以及由易变难的强化学习场景。为了便于研究,我们在Github上发布了基础开源代码的测试版。

强化学习“足球引擎”:真实模拟足球场上常见场景事件

该强化学习环境的核心是一种先进的足球游戏模拟,称为“足球引擎”,它基于一个足球游戏版本经大量修改而成。根据两支对方球队的输入动作,模拟了足球比赛中的常见事件和场景,包括进球、犯规、角球和点球、越位等。“足球引擎”采用高度优化的C++代码编写,可以在现有的计算机上运行,无论是否依赖GPU渲染都可以运行。在单CPU六核计算机上的运行速度可以达到每天约2500万步。

“足球引擎”是一种先进的足球游戏环境模拟,支持所有主要的足球比赛规则,如开球(左上),进球(右上),犯规,出牌(左下),角球和点球(右下)和越位。

此外,该引擎还具备了针对强化学习的更多功能。首先,引擎可以从不同的状态表示中学习,包括玩家位置之类的语义信息,也可以从原始像素进行学习。其次,为了研究随机性对游戏的影响,可以在随机模式(默认设置即为随机模式)下运行,在该模式下,环境和对手AI动作中都存在随机性,而在确定模式中不存在随机性。第三,开箱即用,与广泛使用的OpenAI Gym API 兼容。研究人员可以通过使用键盘或游戏手柄与智能体对战,来获得对游戏的感觉。

训练基准:由易到难,进球和带球近门都有奖励

通过基准测试,研究人员为基于足球引擎的强化学习研究设立了一系列基准问题,其目标是针对固定的基于规则的对手进行“标准”的足球游戏,这些对手是为此而手工设计的。我们提供三个版本的基准:简单、普通和困难,实力由弱到强。

作为参考,本研究提供了两种最先进的强化学习算法的基准测试结果:DQN和IMPALA,它们既可以在一台机器上的多个进程中运行,也可以在多台机器上同时运行。我们针对两种奖励设置进行了研究,第一种设置提供的唯一奖励是取得进球。第二种设置为智能体将球移动至球门附近提供额外的奖励。

研究结果表明,简单模式下的基准测试似乎更适用于单机版算法的研究,困难模式的基准即使对于大规模分布式强化学习算法而言也具有很大的挑战性。基于环境的性质和基准测试的难度,我们期望这些测试和环境可用于研究当前的科学难题,例如样本有效的强化学习、稀疏奖励,或基于模型的强化学习等。

不同基线的不同难度级别的智能体的测试结果。对于简单模式基准测试的对手,DQN智能体训练2000万步即可战胜,而要战胜中等和困难模式的对手需要使用大规模分布式算法,如IMPALA,需要训练2亿步。

未来方向:从自训练到适应对手

为了完成完整的足球策略训练,研究人员还提供了“足球学院”,提供各种测试难度的多个场景。研究人员可以探索新的研究思路,测试更高级的概念,并为课程学习研究思路提供基础。

智能体可以从由易到难的场景中学习。“足球学院”场景示例包括,智能体必须学习如何在球员之间快速传接球,并学习如何进行防守反击。研究人员可以使用简单的API,进一步自定义场景并训练智能体解决更多问题。

由上至下:(1)一个成功的进攻策略,迎球跑动,面对门将射门得分。(2)策动并完成一次漂亮的反击。(3)应对前场2打1的简单方式。(4)角球后门前抢点得分。

此次提出的足球游戏智能体训练基准遵循的是标准的强化学习设置,由智能体与固定的对手竞争,竞争对手被视为环境的一部分。而实际上,足球是一个双方的游戏,是两个不同的球队之间的竞争,一方必须要适应对方的行动和战略。我们为研究这种环境提供了独特的机会,一旦我们完成了自游戏的测试,就可以进一步研究更多更有趣的测试环境。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6259

    浏览量

    112025
  • AI
    AI
    +关注

    关注

    91

    文章

    41370

    浏览量

    302750
  • 强化学习
    +关注

    关注

    4

    文章

    274

    浏览量

    12002

原文标题:FIFA变身AI主场:谷歌推出强化学习“足球引擎”完爆人类玩家

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    Momenta R7强化学习世界模型助力上汽大众ID. ERA 9X正式上市

    2026年4月25日,上汽大众全新旗舰SUV ID. ERA 9X于2026北京国际汽车展览会期间正式上市,并将全球首发搭载Momenta R7强化学习世界模型。这意味着Momenta R7率先在全球强化学习+世界模型方向上取得量产突破——标志着物理
    的头像 发表于 04-29 15:42 673次阅读

    上汽奥迪E5 Sportback车型升级搭载全新Momenta强化学习大模型

    近日,上汽奥迪宣布旗下 E5 Sportback 车型升级搭载 全新Momenta 强化学习大模型。
    的头像 发表于 04-09 09:33 257次阅读

    自动驾驶中常提的离线强化学习是什么?

    ,图片源自:网络 但强化学习本身是需要不断试错的,如果采用这种学习方式在真实道路中不断尝试,一定会导致不可控的事故。于是就有人提出一种猜测,能不能利用已经存在的大量行驶日志、仿真记录和人类驾驶数据,在训练过程中完全
    的头像 发表于 02-07 09:21 380次阅读
    自动驾驶中常提的离线<b class='flag-5'>强化学习</b>是什么?

    强化学习会让自动驾驶模型学习更快吗?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶大模型训练时,有的技术方案会采用模仿学习,而有些会采用强化学习。同样作为大模型的训练方式,强化学习
    的头像 发表于 01-31 09:34 862次阅读
    <b class='flag-5'>强化学习</b>会让自动驾驶模型<b class='flag-5'>学习</b>更快吗?

    多智能体强化学习(MARL)核心概念与算法概览

    训练单个RL智能体的过程非常简单,那么我们现在换一个场景,同时训练五个智能体,而且每个都有自己的目标、只能看到部分信息,还能互相帮忙。这就是多智能体强化学习
    的头像 发表于 01-21 16:21 355次阅读
    多智能体<b class='flag-5'>强化学习</b>(MARL)核心概念与算法概览

    Cadence Conformal AI Studio三大核心引擎重塑IC验证

    Cadence 以 Conformal AI Studio 结合强化学习与分布式架构,全面升级 LEC、低功耗验证和 ECO,在 AI 设计时代开创新范式。
    的头像 发表于 01-05 10:12 740次阅读

    联想天禧AI足球智能体正式上线

    12月6日,在以“热AI开启世界杯”为主题的2026世界杯抽签联想天禧AI惊喜夜现场,联想正式上线联想天禧AI足球智能体,为全球球迷带来全新的智能便捷观赛体验。同时,联想在直播中集中展
    的头像 发表于 12-13 15:35 1177次阅读

    谷歌发布最强自研TPU,性能比前代提升4倍

    精心设计,能够轻松处理从大型模型训练到实时聊天机器人运行以及AI智能体操作等各类复杂任务。   谷歌在新闻稿中着重强调,“Ironwood”是专为应对最严苛的工作负载而打造的。无论是大规模模型
    的头像 发表于 11-13 07:49 9062次阅读
    <b class='flag-5'>谷歌</b>云<b class='flag-5'>发布</b>最强自研TPU,性能比前代提升4倍

    今日看点:智元推出真机强化学习;美国软件公司SAS退出中国市场

    智元推出真机强化学习,机器人训练周期从“数周”减至“数十分钟”   近日,智元机器人宣布其研发的真机强化学习技术,已在与龙旗科技合作的验证产线中成功落地。据介绍,此次落地的真机强化学习
    发表于 11-05 09:44 1174次阅读

    自动驾驶中常提的“强化学习”是个啥?

    下,就是一个智能体在环境里行动,它能观察到环境的一些信息,并做出一个动作,然后环境会给出一个反馈(奖励或惩罚),智能体的目标是把长期得到的奖励累积到最大。和监督学习不同,
    的头像 发表于 10-23 09:00 936次阅读
    自动驾驶中常提的“<b class='flag-5'>强化学习</b>”是个啥?

    【「AI芯片:科技探索与AGI愿景」阅读体验】+AI的未来:提升算力还是智力

    、浪费资源与破坏环境 二、用小模型代替大模型 1、强化学习 2、指令调整 3、合成数据 三、终身学习与迁移学习 1、终身学习 终身
    发表于 09-14 14:04

    比亚迪与国际米兰足球俱乐部达成战略合作

    近日,比亚迪与国际米兰足球俱乐部(国米)举行签约仪式,正式建立为期三年的战略合作伙伴关系,成为国米俱乐部的全球汽车合作伙伴。
    的头像 发表于 07-26 09:08 949次阅读

    专为无人机足球打造的Tattu电池,助力青少年梦想腾飞!

    DroneSoccer青少年无人机足球随着科技的不断进步与体育运动的创新发展,无人机足球(DroneSoccer)这一新兴体育项目在国内青少年中迅速走红,成为了一项集科技、速度与激情于一体的时尚运动
    的头像 发表于 07-24 12:03 1109次阅读
    专为无人机<b class='flag-5'>足球</b>打造的Tattu电池,助力青少年梦想腾飞!

    NVIDIA Isaac Lab可用环境强化学习脚本使用指南

    Lab 是一个适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习
    的头像 发表于 07-14 15:29 2682次阅读
    NVIDIA Isaac Lab可用<b class='flag-5'>环境</b>与<b class='flag-5'>强化学习</b>脚本使用指南

    海信推出世俱杯AI足球家庭焕新计划

    当前,AI技术的跨越式发展,正在让观赛的需求发生根本性改变:用户不再满足于被动接收,更追求深度互动的“在场感”和全场景的观赛体验。近日,海信正式发布世俱杯AI足球家庭焕新计划,通过产品
    的头像 发表于 06-05 16:47 1001次阅读