强化学习(RL)能通过奖励或惩罚使智能体实现目标,并将它们学习到的经验转移到新环境中。但强化学习存在众所周知的缺陷:由于数据科学家在它们接受训练的环境中对这个系统进行基准测试,所以产生了过拟合,即训练数据拟合程度过当的情况。非营利性人工智能研究公司OpenAI正在通过人工智能训练环境(CoinRun)来解决这个问题,该环境为智能体将其经验转移到不熟悉的场景的能力提供了一项衡量指标,它本质上就像一个拥有敌人、目标和不同难度关卡等完备信息的经典平台游戏。
OpenAI表示CoinRun在复杂性方面取得了理想的平衡效果,其训练环境比《刺猬索尼克》等传统游戏平台简单得多,但它仍然对最先进的算法提出了一个有价值的泛化问题。CoinRun的训练级别是程序生成的,可为智能体提供大量易于量化的训练数据。
正如OpenAI所解释的那样,之前在强化学习环境中所做的工作主要集中在程序生成的迷宫、像一般电子游戏AI框架这样的社区项目以及像《刺猬索尼克》这样的游戏上,通过在不同等级上的训练和测试智能体来衡量泛化效果。相比之下,CoinRun在每个等级训练结束时都会为智能体提供一个奖励。
在传统的训练中,AI智能体必须应对碰撞以后会导致死亡的固定或者移动的障碍。当收集完硬币,或者走1000步之后,训练就结束了。
似乎这还不够,所以OpenAI开发了两个额外的环境来探索过拟合的问题:CoinRun-Platforms和RandomMazes。CoinRun-Platforms包括随机分散在平台上的几个硬币,促使智能体积极探索关卡并时不时做一些回溯。RandomMazes是一个简单的迷宫导航任务。
为了验证CoinRun、CoinRun-Platforms和RandomMazes,OpenAI培训了9个智能体,每个智能体具有不同数量的训练等级。前8个接受了100到16000个等级的训练,最后一个接受了不受限制的等级训练——实际上大约是200万个——这样它就不会两次看到相同的等级。
智能体在4000训练等级处出现了过拟合,甚至在16000的训练等级处也是这样。表现最佳的智能体竟然是那些受到无限制水平训练的。在CoinRun-Platforms和RandomMazes中,智能体在所有情况下都过拟合了。
OpenAI称,使用程序生成的CoinRun环境可以精确地量化这种过拟合,可以更好地评估关键架构和算法决策。OpenAI相信从这种环境中汲取的经验教训将适用于更复杂的环境,也希望利用这一基准,以及其他类似的基准来迭代开发更通用的智能体。
-
人工智能
+关注
关注
1813文章
49734浏览量
261477 -
强化学习
+关注
关注
4文章
269浏览量
11901
原文标题:OpenAI提出能测试强化学习智能体适应性的新方法
文章出处:【微信号:AI_News,微信公众号:人工智能快报】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
如何对电能质量在线监测装置进行温湿度环境适应性测试?
如何通过通信与交互稳定性数据判断装置的环境适应性?
如何评估电能质量在线监测装置的环境适应性?
如何测试时间同步硬件的电源波动适应性?
如何进行时间同步硬件的环境适应性测试?
普源数字万用表DM3068环境适应性测试报告
SMA接口在汽车电子复杂环境下的适应性剖析
频率适应性、抗干扰性大揭秘:BNC 型射频连接头的独特优势
频率适应性、抗干扰性大揭秘:BNC 型射频插座的独特优势
M12 航空插座型号深度剖析:根据环境适应性与耐用性选型
高低温测试箱:解锁电子产品环境适应性的秘密武器
【「具身智能机器人系统」阅读体验】+初品的体验
BNC插座弯式适应性怎样

如何测试强化学习智能体适应性
评论