0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

OpenAI举办的首届迁移学习竞赛Retro Contest结束

DPVg_AI_era 来源:未知 作者:李倩 2018-06-26 11:33 次阅读

OpenAI举办的首届迁移学习竞赛Retro Contest结束,在全部229支队伍里,来自中国的团队获得了冠亚军。冠军是一个6人团队,其中有南京大学和阿里巴巴搜索事业部的研究人员;亚军是中科院的两名研究生。

这个竞赛的目标,是评估强化学习算法从以往的经验中泛化的能力。具体说,就是让AI玩视频游戏《刺猬索尼克》,这是世嘉公司开发的一款竞速式2D动作游戏,其基本上模拟马里奥的游戏方式,玩家在尽可能短的时间内到达目的地,索尼克可以通过不停加速来快速完成关卡。最后可能需要对抗BOSS。

冠军方案展示:由南大和阿里研究人员组成的Dharmaraja队的agent,学习穿越游戏中海洋废墟区域(Aquatic Ruin Zone)。Agent已经在游戏的其他关进行过预训练,但这是第一次遇到这一关。

OpenAI的这个竞赛Retro Contest从2018年4月5日发布,持续时间为2个月。开始有923支队伍报名,但最终只有229个提交了解决方案。OpenAI的自动评估系统对这些结果进行了评估。为了避免参赛者拟合数据集,评审时使用了完全不同的数据集。此外,OpenAI还将前十名的最终提交结果进行了再测试,让这些agents在11个由游戏设计师特别设计的关卡中,分别进行了3次测试,每次都从环境中随机生成初始状态。最终得到的排名如下:

前五名排名

其中,冠军Dharmaraja在测试和评审中始终排名第一,mistake以微弱的优势战胜aborg取得第二。这张图显示了排名前三的三个方案的agent在同一个关卡学习的情况。红点代表初期,蓝点代表后期。从上到下分别是Dharmaraja、aborg和mistake。

所有关卡平均下来,这几支队伍的学习曲线是这样的:

值得注意的是,Dharmaraja和aborg在开始阶段分数相近,而mistake的则要低很多。这是因为前两支队伍的方法,是对预训练网络进行微调(使用PPO),而mistake则是从零开始训练(使用Rainbow DQN)。mistake的学习曲线提前结束,是因为他们在12小时的时候时间用完了。

OpenAI对这次的竞赛的评价是,从整体看,虽然参赛队伍尝试了很多方法,但主要的结果都来自对现有算法(如PPO和Rainbow)的微调或扩展。同时,结果也显示了我们还有很长的路要走:训练后AI玩的最高成绩是4,692分,而理论最好成绩是10,000分。

但是,获胜的解决方案是一般的机器学习方法,而不是针对这次竞赛进行的hacking,表明作弊是不可能的,也就证实了OpenAI的Sonic基准是机器学习研究界一个值得去关注的问题。

获奖团队及方案:PPO和Rainbow优化

Dharmaraja(法王)是一个6人组成的团队:Qing Da、Jing-Cheng Shi、Anxiang Zeng、Guangda Huzhang、Run-Ze Li 和 Yang Yu。其中,Qing Da和Anxiang Zeng来自阿里巴巴搜索事业部AI团队,他们最近与南京大学副教授Yang Yu合作,研究如何将强化学习用于现实世界问题,尤其是电子商务场景。

Dharmaraja的解决方案是联合PPO的变体。PPO(proximal policy optimization,近端策略优化算法),是此前OpenAI为强化学习提出的一类新的策略梯度法,可以通过与环境的交互在样本数据中进行转换,使用随机梯度下降优化替代目标函数(surrogate objective function)。标准的策略梯度法是在每一个数据样本上执行一次梯度更新,而PPO的新目标函数可以在多个训练步骤(epoch)中实现小批量(minibatch)的更新。PPO 拥有置信域策略优化(TRPO)的一些好处,但更加容易实现,也更通用,并且有更好的样本复杂度。OpenAI研究人员认为,考虑到总体的复杂度、操作简便性和 wall-time,PPO 是比在线策略梯度法更好的选择。

在PPO的基础上,Dharmaraja的解决方案做了一些改进。首先,使用RGB图像而不是灰度图做输入。其次,使用了稍微扩大的动作空间,并使用更常见的按钮组合。第三,使用了增强奖励功能,奖励agent访问新的状态(根据屏幕的感知散列来判断)。

除了这些改进外,团队还尝试了许多东西,比如DeepMimic,使用YOLO进行对象检测,以及一些针对索尼克游戏的特定想法。不过这些方法并没有特别起效。

代码:https://github.com/eyounx/RetroCodes

Mistake

Mistake队有两名成员,Peng Xu和Qiaoling Zhong。他们都是研二的学生,来自中国科学院网络数据科学与技术重点实验室。

他们的解决方案是基于Rainbow基准。Rainbow是DeepMind对DQN算法进行的组合改良。DeepMind的实验表明,从数据效率和最终性能方面来说,Rainbow能够在Atari 2600基准上提供最为先进的性能。

Mistake团队进行了一些有助于提升性能的修改:n对n步Q-learning的更好的值;额外添加了一层CNN层到模型,这使得训练速度更慢但更好;DQN目标更新间隔更短。此外,团队还尝试与Rainbow进行联合训练,但发现这样做实际上降低了性能。

代码:https://github.com/xupe/mistake-in-retro-contest-of-OpenAI

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 阿里巴巴
    +关注

    关注

    7

    文章

    1571

    浏览量

    46430
  • 机器学习
    +关注

    关注

    66

    文章

    8112

    浏览量

    130545
  • 强化学习
    +关注

    关注

    4

    文章

    259

    浏览量

    11113

原文标题:OpenAI首届迁移学习竞赛,南大阿里团队夺冠,中科院第二

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    杨强教授:从机器学习迁移学习

    杨强教授认为,DeepMind把端到端的深度学习应用在强化学习上,使得强化学习能够应付大数据,因此能在围棋上把人类完全击倒,它做到这样是通过完全的自学习、自我修炼、自我改正,然后一个一
    发表于 04-29 14:44 6073次阅读

    学校举办嵌入式物联网竞赛,需要确定一个课题,求大神们给点儿建议!

    学校举办嵌入式物联网竞赛,需要确定一个课题,一点思路都没有,求大神们给点儿建议!
    发表于 11-20 21:15

    回顾||首届电子发烧杯之寻迹小车大赛圆满结束啦!!

    ` 本帖最后由 乐乐leles 于 2019-6-9 22:12 编辑 回顾||首届电子发烧友杯之寻迹小车大赛圆满结束啦!!经过两个多星期的时间,二十只队伍从比赛培训走到了最终的总决赛。经过
    发表于 06-09 21:02

    迁移学习训练网络

    keras 之 迁移学习,改变VGG16输出层,用imagenet权重retrain
    发表于 09-09 11:02

    【木棉花】学习笔记--分布式迁移+回迁

    ) {//terminateAbility(); //5.迁移完成后就会执行迁移设备的该函数,可以在该函数中执行迁移完成后想做的动作,例如销毁迁移设备的页面 }}那复习就到这
    发表于 09-07 20:09

    迁移学习

    经典机器学习算法介绍章节目标:机器学习是人工智能的重要技术之一,详细了解机器学习的原理、机制和方法,为学习深度学习
    发表于 04-21 15:15

    意法半导体在深圳举办首届工业峰会

    横跨多重电子应用领域的全球领先的半导体供应商意法半导体 (STMicroelectronics,简称ST;纽约证券交易所代码:STM)将在中国深圳君悦酒店举办首届ST工业峰会。
    发表于 05-28 13:53 2148次阅读

    首届国网北京电力人工智能数据竞赛正式启动

    为深入贯彻党中央国务院关于加快发展数字经济的战略部署,全面落实习近平总书记提出的科技创新具有引领国家发展的重要战略意义,要大力推动科技创新在实际生产中的落地应用的要求,国网北京市电力公司举办首届
    的头像 发表于 12-02 15:57 1549次阅读

    首届“雷达与未来”全球峰会将于4月在南京举办

      第九届世界雷达博览会暨首届“雷达与未来”全球峰会将于4月在南京举办。1月14日上午,第九届世界雷达博览会暨首届“雷达与未来”全球峰会新闻发布会在南京召开。中国雷达行业协会、中国电
    的头像 发表于 01-15 13:51 2009次阅读

    一文详解迁移学习

    迁移学习需要将预训练好的模型适应新的下游任务。然而,作者观察到,当前的迁移学习方法通常无法关注与任务相关的特征。在这项工作中,作者探索了重新聚焦模型注意力以进行
    的头像 发表于 08-11 16:56 3575次阅读
    一文详解<b class='flag-5'>迁移</b><b class='flag-5'>学习</b>

    开赛啦!易华录协办的首届“强基杯”数据安全职业技能竞赛今日开始!

    原文标题:开赛啦!易华录协办的首届“强基杯”数据安全职业技能竞赛今日开始! 文章出处:【微信公众号:易华录】欢迎添加关注!文章转载请注明出处。
    的头像 发表于 09-20 21:25 390次阅读

    OpenAI首届开发者日举办,新模型实现六大升级

     openai最初提供32k的上下文长度,而gpt-4 turbo则提供128k,相当于300页文档。openai还为开发者提供了更好的api、函数调用、一次调用多个函数并将响应整合到消息输出中的控制功能。
    的头像 发表于 11-08 09:59 262次阅读

    微软与 OpenAI:携手共创AI新时代

    “我们的首要任务是搭建出色的基础设施, 让OpenAI 可以为开发者们打造出色的模型。”  11 月6日,微软董事长兼首席执行官Satya Nadella 惊喜亮相 OpenAI 首届开发者大会
    的头像 发表于 11-09 10:45 285次阅读
    微软与 <b class='flag-5'>OpenAI</b>:携手共创AI新时代

    高能回顾 | 首届OpenHarmony竞赛训练营精彩瞬间

    点击蓝字 ╳ 关注我们 开源项目 OpenHarmony 是每个人的 OpenHarmony 首届OpenAtom OpenHarmony(以下简称“OpenHarmony”)竞赛训练营线下决赛成功
    的头像 发表于 11-11 21:10 293次阅读

    深圳举办首届网络创新发展峰会,OpenAI市值突破1000亿美元

    大家好,欢迎收看河套 IT WALK 第 132 期。 今天,首届网络创新发展峰会在深圳举办;AI领域的翘楚——OpenAI市值在资本市场上突破了重要里程碑,超过1000亿美元。 首届
    的头像 发表于 12-25 19:50 638次阅读
    深圳<b class='flag-5'>举办</b><b class='flag-5'>首届</b>网络创新发展峰会,<b class='flag-5'>OpenAI</b>市值突破1000亿美元