0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenAI Five是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么?

DPVg_AI_era 来源:lp 2019-04-19 09:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

在上周末彻底攻陷了Dota人类顶级职业战队OG后,OpenAI站出来介绍了OpenAIFive是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么。

OpenAIFive是第一个在电子竞技游戏中击败世界冠军的人工智能,在上周末与2-0大败世界冠军Dota2团队OG,这是AI第一次在直播中击败了电子竞技专家。

OG和OpenAI开发组

本次比赛还得出了两个惊人的发现:

尽管训练的时候专注于击败其他疯狂电脑,但OpenAIFive在比赛中却展现出和人类玩家的优秀的团队协作意识。这意味着未来的AI系统可以从竞争型AI转变为合作型AI

总决赛让OpenAI的科学家可以回答一个重要的研究问题:OpenAIFive在多大程度、以何种方式能够被确定的打败?并且可能是有史以来最大规模的、人们可以有意识地与之交互的高强度深层强化学习智能体的部署

彻底攻陷了人类顶级职业玩家后,OpenAI站出来介绍了OpenAIFive是如何训练的、为什么选择打Dota以及AI在打Dota的时候在想什么。

为什么选择Dota?

OpenAIFive的初衷是为了解决现有深度强化学习算法无法实现的问题。为此需要大幅增加工具的的能力、复杂的算法思想(例如分层强化学习)。

OpenAIFive将世界视为一堆必须破译的数字。它使用相同的通用学习代码,无论这些数字代表Dota游戏(约20,000个数字)或机器人手(约200个)的状态

为了构建OpenAIFive,研究人员创建了一个名为Rapid的系统,以前所未有的规模运行PPO。结果超出了研究人员最大的期望,产生出了世界级的Dota机器人,没有触及任何基本的性能限制。

当今的监督学习算法之所以能有如此强大功能,是以大量经验为代价的,这在游戏或模拟环境之外是不切实际的。研究人员认为减少经验量是深度学习的下一个挑战。

研究人员表示,从今天开始OpenAIFive将不会继续打比赛,但取得的进步和技术的发展将继续推动未来的工作。研究人员认为Dota对于监督学习开发来说比现在使用的标准环境更具有内在的趣味性和难度。

算力

OpenAIFive这次的胜利是由于一次重大变化:训练计算量增加了8倍。前期阶段研究人员通过提高培训规模来推动进一步的发展,之后将绝大部分算力用于培训单一的OpenAIFive模型,相当于延长了训练时间。

总的来说,当前版本的OpenAIFive已经消耗了800petaflop/s-days,并且在10个实时月内获得了45000年的游戏经验,平均每天获得250年的模拟经验。OpenAIFive的总决赛版本与TI版本相比,胜率为99.9%。

迁移学习

尽管模型大小和游戏规则发生了变化,但目前版本的OpenAIFive自2018年6月以来一直在不断训练。在每种情况下,研究人员都能够将模型转移并继续培训,这对于其他领域的监督学习来说是一个开放的挑战。

据悉,这可能是监督学习智能体第一次使用如此长期的训练课程进行训练。

更多Dota英雄

研究人员看到从训练5个英雄到训练18英雄速度并没有减弱的很明显,于是假设对更多英雄来说也是如此,随后开始大量尝试整合新英雄。

研究人员花了几个星期的时间训练英雄池,最多达到了25个英雄。将这些英雄带到大约5kMMR(大约95%的Dota玩家)。尽管在进步,但学习速度还不够快,无法在总决赛之前达到职业水平。

研究人员没有太多时间调查原因,但他们认为可能需要更好的匹配扩展的英雄池,需要更多的训练时间让新英雄达到老英雄的同等水平。想象一下当你习惯了某个英雄后,学习新英雄的难度是多么大!

协同模式

它实际上感觉很好;我的毒蛇在某些时候为我献出了生命。他试图帮助我,想着“我确定她知道她在做什么”然后显然我没有。但是,你知道,他相信我。对于[人类]队友,我并没有那么多.-无论如何

在总决赛期间,研究人员展示了OpenAI Five与人类一起在团队中的表现,两队的成员都是2个真人带3个智能体

OpenAIFive与人类的协同作战能力为人类与人工智能互动的未来提供了一个引人注目的愿景:人工智能系统能够和人类协作并增强人类体验。

玩家认为从机器人队友哪里感受到了战友之情,并从这些先进的系统中学到了很多东西,整体来说是一种有趣的体验。

值得注意的是,OpenAIFive展示了zero-shot迁移学习,与人类并肩作战或者对抗人类。研究人员非常惊讶这一点和它一样有效。事实上,研究人员考虑在国际上进行协同作案韩比赛,但认为需要专门的训练。

OpenAI Five Arena

目前研究人员还不知道OpenAIFive在多大程度上能够通过更机智的策略被击败,所以研究人员推出了OpenAIFiveArena。这是一项公开的实验,任何人都可以跟OpenAIFive组队或者对战。

竞技场于4月18日星期四太平洋标准时间下午6点开放,并于4月21日星期日太平洋标准时间晚上11:59关闭。玩家需要注册,所有游戏的结果将自动报告给竞技场公共排行榜。

下一步干什么

一旦研究人员审查了OpenAIFiveArena的结果,研究人员将发布对OpenAIFive的更多技术分析,之后将继续使用OpenAI中的Dota2环境。

研究人员已经看到过去两年在监督学习能力方面取得了快速进展,并认为Dota2将在推进无论是通过较少的数据还是真正的人工智能合作实现有能力的表现方面,持续提供帮助。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261477
  • 深度学习
    +关注

    关注

    73

    文章

    5590

    浏览量

    123900
  • 迁移学习
    +关注

    关注

    0

    文章

    74

    浏览量

    5838

原文标题:官方揭秘OpenAI Five如何打败人类:迁移学习+海量训练,10个月训练4.5万年

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA携手OpenAI构建AI基础设施

    NVIDIA 首席执行官黄仁勋、OpenAI 首席执行官 Sam Altman 和 OpenAI 总裁 Greg Brockman 宣布了一项新的合作伙伴关系,旨在推动 OpenAI 的发展,并支持几乎所有行业和用户大规模使用
    的头像 发表于 09-23 14:38 665次阅读

    OpenAI将与博通合作量产自研AI芯片 博通第四财季AI芯片收入展望超预期

    据外媒《金融时报》的报道称 OpenAI 将与博通公司开启大规模的合作,希望能够借住博通推动OpenAI 自研 AI 芯片的量产落地。 据称,OpenAI 的首款自研芯片主要是专注于
    的头像 发表于 09-05 11:06 1491次阅读

    ai_cube训练模型最后部署失败是什么原因?

    ai_cube训练模型最后部署失败是什么原因?文件保存路径里也没有中文 查看AICube/AI_Cube.log,看看报什么错?
    发表于 07-30 08:15

    海思SD3403边缘计算AI数据训练概述

    AI数据训练:基于用户特定应用场景,用户采集照片或视频,通过AI数据训练工程师**(用户公司****员工)** ,进行特征标定后,将标定好的训练
    发表于 04-28 11:11

    利用RAKsmart服务器托管AI模型训练的优势

    AI模型训练需要强大的计算资源、高效的存储和稳定的网络支持,这对服务器的性能提出了较高要求。而RAKsmart服务器凭借其核心优势,成为托管AI模型训练的理想
    的头像 发表于 03-18 10:08 521次阅读

    训练好的ai模型导入cubemx不成功怎么处理?

    训练好的ai模型导入cubemx不成功咋办,试了好几个模型压缩了也不行,ram占用过大,有无解决方案?
    发表于 03-11 07:18

    HarmonyOS NEXT开发实战:DevEco Studio中DeepSeek的使用

    DevEco Studio的Settings面板,选择plugins 在插件市场中搜索Proxy AI或CodeGPT插件,如图所示,搜索结果为版本为3.0.0-233,执行安装。 第三步:获取
    发表于 03-07 14:56

    启明智显集成DeepSeek、豆包、OpenAI等全球先进AI大模型,助力传统产品AI智能升级

    启明智显借助豆包、Deepseek、OpenAI等全球先进AI大模型,助力传统产品实现AI智能升级
    的头像 发表于 02-24 16:12 1377次阅读
    启明智显集成DeepSeek、豆包、<b class='flag-5'>OpenAI</b>等全球先进<b class='flag-5'>AI</b>大模型,助力传统产品<b class='flag-5'>AI</b>智能升级

    OpenAI简化大模型选择:萨姆·奥特曼制定路线图

    OpenAI的首席执行官萨姆·奥特曼(Sam Altman)近期为公司的GPT-4.5和GPT-5大模型开发制定了一项重要的路线图,旨在极大地简化和优化用户及开发人员在选择AI模型时的体验。 在当
    的头像 发表于 02-18 09:12 747次阅读

    Figure AI宣布终止与OpenAI合作,专注内部研发

    近日,人形机器人领域的独角兽企业Figure AI宣布了一个重要决定:因已取得“重大突破”,将终止与OpenAI的合作,并专注于内部人工智能技术的研发。这一决定距离Figure AI宣布
    的头像 发表于 02-06 14:33 907次阅读

    OpenAI CEO访印,共商AI战略

    、模型和应用程序这三个关键领域。阿什维尼·维什瑙部长表示,OpenAI对于与印度在这三方面展开合作表现出了浓厚的兴趣。 GPU作为人工智能领域的重要基础设施,对于提升AI模型的训练和推理能力具有至关重要的作用。而
    的头像 发表于 02-06 10:10 614次阅读

    OpenAI进军传媒,苹果暂停AI新闻功能

    技术支持的地方新闻编辑室”。这一举措标志着OpenAI正式涉足传媒领域,意图通过AI技术推动新闻业的创新与发展。 与此同时,苹果公司在AI新闻功能方面却遭遇了挫折。面对外界关于AI能力
    的头像 发表于 01-21 10:10 728次阅读

    OpenAI GPT-5开发滞后:训练成本高昂

    近日,据最新消息,OpenAI在推进其备受期待的下一代旗舰模型GPT-5的开发进程上遇到了困难。由于计算成本高昂且高质量训练数据稀缺,GPT-5的开发已经落后于原定计划半年之久。 据悉,OpenAI
    的头像 发表于 12-23 11:04 1423次阅读

    GPU是如何训练AI大模型的

    AI模型的训练过程中,大量的计算工作集中在矩阵乘法、向量加法和激活函数等运算上。这些运算正是GPU所擅长的。接下来,AI部落小编带您了解GPU是如何训练
    的头像 发表于 12-19 17:54 1322次阅读

    Meta AI高管批评OpenAI闭源模式

    OpenAIOpenAI目前采用闭源模式,通过订阅和API服务等获取收入。然而,这一模式引发了诸多争议。作为OpenAI的联合创始人,特斯拉CEO埃隆·马斯克就曾因OpenAI违背开
    的头像 发表于 12-12 11:14 1060次阅读