0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何测试强化学习智能体适应性

EdXK_AI_News 来源:cg 2018-12-24 09:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

强化学习(RL)能通过奖励或惩罚使智能体实现目标,并将它们学习到的经验转移到新环境中。但强化学习存在众所周知的缺陷:由于数据科学家在它们接受训练的环境中对这个系统进行基准测试,所以产生了过拟合,即训练数据拟合程度过当的情况。非营利性人工智能研究公司OpenAI正在通过人工智能训练环境(CoinRun)来解决这个问题,该环境为智能体将其经验转移到不熟悉的场景的能力提供了一项衡量指标,它本质上就像一个拥有敌人、目标和不同难度关卡等完备信息的经典平台游戏。

OpenAI表示CoinRun在复杂性方面取得了理想的平衡效果,其训练环境比《刺猬索尼克》等传统游戏平台简单得多,但它仍然对最先进的算法提出了一个有价值的泛化问题。CoinRun的训练级别是程序生成的,可为智能体提供大量易于量化的训练数据。

正如OpenAI所解释的那样,之前在强化学习环境中所做的工作主要集中在程序生成的迷宫、像一般电子游戏AI框架这样的社区项目以及像《刺猬索尼克》这样的游戏上,通过在不同等级上的训练和测试智能体来衡量泛化效果。相比之下,CoinRun在每个等级训练结束时都会为智能体提供一个奖励。

在传统的训练中,AI智能体必须应对碰撞以后会导致死亡的固定或者移动的障碍。当收集完硬币,或者走1000步之后,训练就结束了。

似乎这还不够,所以OpenAI开发了两个额外的环境来探索过拟合的问题:CoinRun-Platforms和RandomMazes。CoinRun-Platforms包括随机分散在平台上的几个硬币,促使智能体积极探索关卡并时不时做一些回溯。RandomMazes是一个简单的迷宫导航任务。

为了验证CoinRun、CoinRun-Platforms和RandomMazes,OpenAI培训了9个智能体,每个智能体具有不同数量的训练等级。前8个接受了100到16000个等级的训练,最后一个接受了不受限制的等级训练——实际上大约是200万个——这样它就不会两次看到相同的等级。

智能体在4000训练等级处出现了过拟合,甚至在16000的训练等级处也是这样。表现最佳的智能体竟然是那些受到无限制水平训练的。在CoinRun-Platforms和RandomMazes中,智能体在所有情况下都过拟合了。

OpenAI称,使用程序生成的CoinRun环境可以精确地量化这种过拟合,可以更好地评估关键架构和算法决策。OpenAI相信从这种环境中汲取的经验教训将适用于更复杂的环境,也希望利用这一基准,以及其他类似的基准来迭代开发更通用的智能体。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1813

    文章

    49734

    浏览量

    261477
  • 强化学习
    +关注

    关注

    4

    文章

    269

    浏览量

    11901

原文标题:OpenAI提出能测试强化学习智能体适应性的新方法

文章出处:【微信号:AI_News,微信公众号:人工智能快报】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    自动驾驶中常提的“强化学习”是个啥?

    下,就是一个智能在环境里行动,它能观察到环境的一些信息,并做出一个动作,然后环境会给出一个反馈(奖励或惩罚),智能的目标是把长期得到的奖励累积到最大。和监督
    的头像 发表于 10-23 09:00 324次阅读
    自动驾驶中常提的“<b class='flag-5'>强化学习</b>”是个啥?

    如何对电能质量在线监测装置进行温湿度环境适应性测试

    对电能质量在线监测装置进行温湿度环境适应性测试,核心是通过 高低温湿热箱模拟目标场景的极端温湿度条件 ,验证装置在 “低温启动、高温运行、湿热耐受” 下的 运行稳定性、测量精度、硬件可靠 ,避免
    的头像 发表于 10-22 17:50 1033次阅读

    如何通过通信与交互稳定性数据判断装置的环境适应性

    通过通信与交互稳定性数据判断装置环境适应性,核心逻辑是 关联 “通信异常” 与 “环境变化” —— 若通信问题(如断连、延迟、错误)始终与特定恶劣环境(如强电磁干扰、高温、振动)同步,说明装置对该
    的头像 发表于 10-22 17:03 900次阅读

    如何评估电能质量在线监测装置的环境适应性

    评估电能质量在线监测装置的环境适应性,需围绕实际场景中最影响设备稳定运行的 物理防护、温湿度耐受、抗电磁干扰、振动冲击 四大核心维度展开,结合 “ 技术参数核查→实验室模拟测试→现场试运行验证
    的头像 发表于 10-22 16:41 859次阅读

    如何测试时间同步硬件的电源波动适应性

    在时间同步硬件(如 NTP 服务器、PTP 从站、IRIG-B 码发生器等)的电源波动适应性测试中,核心目标是 模拟实际应用中可能出现的电源异常场景 (如电压骤升 / 骤降、跌落、中断、纹波噪声
    的头像 发表于 09-19 12:01 375次阅读
    如何<b class='flag-5'>测试</b>时间同步硬件的电源波动<b class='flag-5'>适应性</b>?

    如何进行时间同步硬件的环境适应性测试

    在时间同步硬件(如支持 IEEE 1588 PTP、SNTP/NTP 的同步模块、GPS / 北斗接收机等)的环境适应性测试中,核心目标是验证硬件在 极端或复杂环境应力下(如温湿度波动、电磁干扰
    的头像 发表于 09-19 11:58 297次阅读

    普源数字万用表DM3068环境适应性测试报告

    61010-1、GB/T 2423等国际标准,对DM3068进行系统化的环境适应性测试,验证其环境耐受能力与长期稳定性。   二、温度适应性测试 1. 工作温度范围
    的头像 发表于 08-18 17:16 525次阅读
    普源数字万用表DM3068环境<b class='flag-5'>适应性</b><b class='flag-5'>测试</b>报告

    SMA接口在汽车电子复杂环境下的适应性剖析

    德索SMA接口在汽车电子复杂环境下既具备一定的适应性优势,也面临诸多挑战。通过持续的技术创新与工艺改进,德索有望进一步提升SMA接口在汽车电子领域的适应性与可靠,为汽车电子技术的发展提供有力支持。
    的头像 发表于 06-04 09:04 661次阅读
    SMA接口在汽车电子复杂环境下的<b class='flag-5'>适应性</b>剖析

    频率适应性、抗干扰大揭秘:BNC 型射频连接头的独特优势

    在电子设备不断向小型化、高性能化发展的今天,BNC型射频连接头的频率适应性和抗干扰优势愈发凸显。它为设备的高效运行提供了可靠的连接保障,减少了因信号问题导致的设备故障和数据传输错误。无论是在科研
    的头像 发表于 04-21 11:12 555次阅读
    频率<b class='flag-5'>适应性</b>、抗干扰<b class='flag-5'>性</b>大揭秘:BNC 型射频连接头的独特优势

    频率适应性、抗干扰大揭秘:BNC 型射频插座的独特优势

    BNC型射频连接头以其卓越的频率适应性和抗干扰,成为众多射频连接应用场景中的理想选择。深入了解并合理运用这些优势,能够助力工程师和技术人员更好地构建稳定、高效的电子系统。
    的头像 发表于 04-15 10:21 438次阅读
    频率<b class='flag-5'>适应性</b>、抗干扰<b class='flag-5'>性</b>大揭秘:BNC 型射频插座的独特优势

    M12 航空插座型号深度剖析:根据环境适应性与耐用选型

    在选型M12航空插座时,需综合考虑环境适应性与耐用等多方面因素。德索精密工业丰富的产品型号与先进技术,能够满足不同使用环境与插拔频次要求。只有精准匹配德索的产品,才能充分发挥M12航空插座的性能优势,保障设备长期稳定运行。
    的头像 发表于 04-12 09:35 533次阅读
    M12 航空插座型号深度剖析:根据环境<b class='flag-5'>适应性</b>与耐用<b class='flag-5'>性</b>选型

    学习智能开发

    智能是大模型的应用落地,正在学习中,这本书太及时了,非常想看看。
    发表于 03-27 15:48

    高低温测试箱:解锁电子产品环境适应性的秘密武器

    高低温测试箱模拟极端环境评估电子产品适应性,确保稳定运行,助制造商发现不足并优化产品。其高度自动化智能化,提供准确测试报告,对提升产品质量、缩短研发周期等发挥重要作用。在当今快速发展的
    的头像 发表于 02-11 14:05 1280次阅读
    高低温<b class='flag-5'>测试</b>箱:解锁电子产品环境<b class='flag-5'>适应性</b>的秘密武器

    【「具身智能机器人系统」阅读体验】+初品的体验

    解决许多技术的和非技术的挑战,如提高智能的自主、处理复杂环境互动的能力及确保行为的伦理和安全。 未来的研究需要将视觉、语音和其他传感技术与机器人技术相结合,以探索更加先进的知识表
    发表于 12-20 19:17

    BNC插座弯式适应性怎样

    德索工程师说道BNC插座弯式在适应性方面具有显著的优势,这些优势主要体现在空间利用、布线灵活性、信号传输质量以及应用场景的广泛等多个方面。以下是对BNC插座弯式适应性的详细分析:   BNC插座
    的头像 发表于 12-07 16:22 632次阅读
    BNC插座弯式<b class='flag-5'>适应性</b>怎样