如何测试强化学习智能体适应性-电子发烧友网

强化学习（RL）能通过奖励或惩罚使智能体实现目标，并将它们学习到的经验转移到新环境中。但强化学习存在众所周知的缺陷：由于数据科学家在它们接受训练的环境中对这个系统进行基准测试，所以产生了过拟合，即训练数据拟合程度过当的情况。非营利性人工智能研究公司OpenAI正在通过人工智能训练环境（CoinRun）来解决这个问题，该环境为智能体将其经验转移到不熟悉的场景的能力提供了一项衡量指标，它本质上就像一个拥有敌人、目标和不同难度关卡等完备信息的经典平台游戏。

OpenAI表示CoinRun在复杂性方面取得了理想的平衡效果，其训练环境比《刺猬索尼克》等传统游戏平台简单得多，但它仍然对最先进的算法提出了一个有价值的泛化问题。CoinRun的训练级别是程序生成的，可为智能体提供大量易于量化的训练数据。

正如OpenAI所解释的那样，之前在强化学习环境中所做的工作主要集中在程序生成的迷宫、像一般电子游戏AI框架这样的社区项目以及像《刺猬索尼克》这样的游戏上，通过在不同等级上的训练和测试智能体来衡量泛化效果。相比之下，CoinRun在每个等级训练结束时都会为智能体提供一个奖励。

在传统的训练中，AI智能体必须应对碰撞以后会导致死亡的固定或者移动的障碍。当收集完硬币，或者走1000步之后，训练就结束了。

似乎这还不够，所以OpenAI开发了两个额外的环境来探索过拟合的问题：CoinRun-Platforms和RandomMazes。CoinRun-Platforms包括随机分散在平台上的几个硬币，促使智能体积极探索关卡并时不时做一些回溯。RandomMazes是一个简单的迷宫导航任务。

为了验证CoinRun、CoinRun-Platforms和RandomMazes，OpenAI培训了9个智能体，每个智能体具有不同数量的训练等级。前8个接受了100到16000个等级的训练，最后一个接受了不受限制的等级训练——实际上大约是200万个——这样它就不会两次看到相同的等级。

智能体在4000训练等级处出现了过拟合，甚至在16000的训练等级处也是这样。表现最佳的智能体竟然是那些受到无限制水平训练的。在CoinRun-Platforms和RandomMazes中，智能体在所有情况下都过拟合了。

OpenAI称，使用程序生成的CoinRun环境可以精确地量化这种过拟合，可以更好地评估关键架构和算法决策。OpenAI相信从这种环境中汲取的经验教训将适用于更复杂的环境，也希望利用这一基准，以及其他类似的基准来迭代开发更通用的智能体。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

人工智能

人工智能

+关注

关注
1776

文章
43793

浏览量
230563
强化学习

强化学习

+关注

关注
4

文章
259

浏览量
11113

原文标题：OpenAI提出能测试强化学习智能体适应性的新方法

文章出处：【微信号：AI_News，微信公众号：人工智能快报】欢迎添加关注！文章转载请注明出处。

汽车环境适应性试验：挑战全球气候，保障行车安全

其在长期使用过程中的性能变化。　　2、地区环境适应性试验：针对不同地区的气候特点，对汽车进行适应性测试。例如，在沙漠地区进行高温试验，以测试车辆在极端高温环境下的耐

发表于 12-20 14:34 •301次阅读

汽车环境<b class='flag-5'>适应性</b>试验：挑战全球气候，保障行车安全

风电机组变流器测试应用

实时运行在CPU上,实时仿真步长可做到50-100us。（二）测试内容实时仿真平台可以对风电机组变流器进行入网标准测试，如电网适应性测试、宽频振荡阻抗特性

发表于 12-13 17:54

什么是强化学习

强化学习是机器学习的方式之一，它与监督学习、无监督学习并列，是三种机器学习训练方法之一。在围棋上击败世界第一李世石的 AlphaGo、在《

发表于 10-30 11:36 •1612次阅读

NeurIPS 2023 | 扩散模型解决多任务强化学习问题

扩散模型（diffusion model）在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习（RL）中来解决序列决策问题

发表于 10-02 10:45 •445次阅读

NeurIPS 2023 | 扩散模型解决多任务<b class='flag-5'>强化学习</b>问题

一种适应性直接射频采样解决方案

电子发烧友网站提供《一种适应性直接射频采样解决方案.pdf》资料免费下载

发表于 09-15 11:13 •0次下载

模拟矩阵在深度强化学习智能控制系统中的应用

。在深度强化学习智能控制系统中，讯维模拟矩阵可以用来做以下几方面的模拟和预测：环境模拟：构建多种环境模型，包括不同参数的系统、不同干扰因素等，为深度强化学习智能控制系统提供多样化的

发表于 09-04 14:26 •326次阅读

模拟矩阵在深度<b class='flag-5'>强化学习</b><b class='flag-5'>智能</b>控制系统中的应用

如何使用快速温变试验箱做新能源电机电驱环境适应性试验?

新能源电机电驱环境适应性测试分为：高温测试、低温测试、湿度测试、耐振动测试、防水防尘

发表于 07-27 17:26 •962次阅读

如何使用快速温变试验箱做新能源电机电驱环境<b class='flag-5'>适应性</b>试验?

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

在智能体的开发中，强化学习与大语言模型、视觉语言模型等基础模型的进一步融合究竟能擦出怎样的火花？谷歌 DeepMind 给了我们新的答案。一直以来，DeepMind 引领了强化学习（RL）智

发表于 07-24 16:55 •331次阅读

基于强化学习的目标检测算法案例

摘要：基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为，其产生的候选区域形状和尺寸变化单一，导致目标检测精确度较低。为此，在基于深度强化学习的视觉目标检测算法基础上，提出联合回归与深度

发表于 07-19 14:35 •0次下载

什么是深度强化学习?深度强化学习算法应用分析

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务。

发表于 07-01 10:29 •1183次阅读

人工智能强化学习开源分享

电子发烧友网站提供《人工智能强化学习开源分享.zip》资料免费下载

发表于 06-20 09:27 •1次下载

基于深度强化学习的视觉反馈机械臂抓取系统

机械臂抓取摆放及堆叠物体是智能工厂流水线上常见的工序，可以有效的提升生产效率，本文针对机械臂的抓取摆放、抓取堆叠等常见任务，结合深度强化学习及视觉反馈，采用AprilTag视觉标签、后视经验回放机制

发表于 06-12 11:25 •1380次阅读

ICLR 2023 Spotlight｜节省95%训练开销，清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

大模型时代，模型压缩和加速显得尤为重要。传统监督学习可通过稀疏神经网络实现模型压缩和加速，那么同样需要大量计算开销的强化学习任务可以基于稀疏网络进行训练吗？本文提出了一种强化学习专用稀疏训练框架

发表于 06-11 21:40 •399次阅读

彻底改变算法交易：强化学习的力量

强化学习（RL）是人工智能的一个子领域，专注于决策过程。与其他形式的机器学习相比，强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习

发表于 06-09 09:23 •367次阅读

基于多智能体深度强化学习的体系任务分配方法

为了应对在未来复杂的战场环境下，由于通信受限等原因导致的集中式决策模式难以实施的情况，提出了一个基于多智能体深度强化学习方法的分布式作战体系任务分配算法，该算法为各作战单元均设计一个独立的策略网络

发表于 05-18 16:46 •2664次阅读