谷歌发布非政策强化学习算法OPC的最新研究机器学习即将开辟新篇章？-电子发烧友网

在谷歌最新的论文中，研究人员提出了“非政策强化学习”算法OPC，它是强化学习的一种变体，它能够评估哪种机器学习模型将产生最好的结果。数据显示，OPC比基线机器学习算法有着显著的提高，更加稳健可靠。

在谷歌AI研究团队一篇新发表的论文《通过非政策分类进行非政策评估》（Off-PolicyEvaluation via Off-Policy Classification）和博客文章中，他们提出了所称的“非政策分类”，即OPC（off-policy classification）。它能够评估AI的表现，通过将评估视为一个分类问题来驱动代理性能。

研究人员认为他们的方法是强化学习的一种变体，它利用奖励来推动软件政策实现与图像输入协同工作这个目标，并扩展到包括基于视觉的机器人抓取在内的任务。

“完全脱离政策强化学习是一种变体。代理完全从旧数据中学习，对于工程师来说这是很有吸引力的，因为它可以在不需要物理机器人的情况下进行模型迭代。”

Robotics at Google（专注机器学的的谷歌新团队）的软件工程师Alexa Irpan写道，“完全脱离政策的RL，可以在先前代理收集的同一固定数据集上训练多个模型，然后选择出最佳的那个模型。”

但是OPC并不像听起来那么容易，正如Irpan在论文中所描述的，非政策性强化学习可以通过机器人进行人工智能模型培训，但不能进行评估。并且在需要评估大量模型的方法中，地面实况评估通常效率太低。

OPC在假设任务状态变化方面几乎没有随机性，同时假设代理在实验结束时用“成功或失败”来解决这个问题。两个假设中第二个假设的二元性质，允许为每个操作分配两个分类标签（“有效”表示成功或“灾难性”表示失败）。

另外，OPC还依赖Q函数（通过Q学习算法学习）来估计行为的未来总回报。代理商选择具有最大预期回报的行动，其绩效通过所选行动的有效频率来衡量（这取决于Q函数如何正确地将行动分类为有效与灾难性），并以分类准确性作为非政策评估分数。

（左图为基线，右图为建议的方法之一，SoftOpC）

谷歌AI团队使用完全非策略强化学习对机器学习策略进行了模拟培训，然后使用从以前的实际数据中列出的非策略分数对其进行评估。

在机器人抓取任务时，他们报告OPC的一种变体SoftOPC在预测最终成功率方面表现最佳。假设有15种模型（其中7种纯粹在模拟中训练）具有不同的稳健性，SoftOPC产生的分数与与真正的抓取成功密切相关，并且相比于基线方法更加稳定可靠。

在未来的研究中，研究人员打算用“噪声”（noisier）和非二进制动力学来探索机器学习任务。“我们认为这个结果有希望应用于许多现实世界的RL问题，”Irpan在论文结尾写道。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
5839

浏览量
103234
AI

AI

+关注

关注
87

文章
26364

浏览量
263960
机器学习

机器学习

+关注

关注
66

文章
8096

浏览量
130523

原文标题：又一个里程碑，谷歌发布最新研究，机器学习开辟新篇章！

文章出处：【微信号：Aiobservation，微信公众号：人工智能观察】欢迎添加关注！文章转载请注明出处。

深度强化学习实战

内容2:课程一： TensoRFlow入门到熟练：课程二：图像分类：课程三：物体检测：课程四：人脸识别：课程五：算法实现：1、卷积神经网络CNN2、循环神经网络RNN3、强化学习DRL4、对抗性生成

发表于 01-10 13:42

将深度学习和强化学习相结合的深度强化学习DRL

深度强化学习DRL自提出以来，已在理论和应用方面均取得了显著的成果。尤其是谷歌DeepMind团队基于深度强化学习DRL研发的AlphaGo，将深度强化学习DRL成推上新的热点和高度

发表于 06-29 18:36 •2.8w次阅读

基于LCS和LS-SVM的多机器人强化学习

本文提出了一种LCS和LS-SVM相结合的多机器人强化学习方法，LS-SVM获得的最优学习策略作为LCS的初始规则集。LCS通过与环境的交互，能更快发现指导多机器人

发表于 01-09 14:43 •0次下载

人工智能机器学习之强化学习

强化学习是智能系统从环境到行为映射的学习，以使奖励信号（强化信号）函数值最大，强化学习不同于连接主义学习中的监督

发表于 05-30 06:53 •1252次阅读

基于强化学习的MADDPG算法原理及实现

之前接触的强化学习算法都是单个智能体的强化学习算法，但是也有很多重要的应用场景牵涉到多个智能体之间的交互。

发表于 11-02 16:18 •2.1w次阅读

量化深度强化学习算法的泛化能力

OpenAI 近期发布了一个新的训练环境 CoinRun，它提供了一个度量智能体将其学习经验活学活用到新情况的能力指标，而且还可以解决一项长期存在于强化学习中的疑难问题——即使是广受赞誉的强化

发表于 01-01 09:22 •2145次阅读

开辟新篇章!谷歌机器学习又有新进展!

在谷歌最新的论文中，研究人员提出了“非政策强化学习”算法OPC，它是

发表于 06-22 11:16 •2294次阅读

深度强化学习到底是什么？它的工作原理是怎么样的

深度学习DL是机器学习中一种基于对数据进行表征学习的方法。深度学习DL有监督和非监督之分，都已经得到广泛的

发表于 06-13 11:39 •5604次阅读

一文详谈机器学习的强化学习

强化学习属于机器学习中的一个子集，它使代理能够理解在特定环境中执行特定操作的相应结果。目前，相当一部分机器人就在使用强化学习掌握种种新能力。

发表于 11-06 15:33 •1573次阅读

机器学习中的无模型强化学习算法及研究综述

强化学习（ Reinforcement learning，RL）作为机器学习领域中与监督学习、无监督学习并列的第三种

发表于 04-08 11:41 •11次下载

一种新型的多智能体深度强化学习算法

一种新型的多智能体深度强化学习算法

发表于 06-23 10:42 •36次下载

2021 OPPO开发者大会:新篇章公式

2021 OPPO开发者大会：新篇章公式开启新篇章，下一代生态势能。 N.E.PE=[T*(S+O)] 责任编辑：haq

发表于 10-27 10:52 •1114次阅读

强化学习的基础知识和6种基本算法解释

来源：DeepHub IMBA 强化学习的基础知识和概念简介（无模型、在线学习、离线强化学习等）机器学习(ML)分为三个分支:监督

发表于 12-20 14:00 •874次阅读

强化学习的基础知识和6种基本算法解释

来源：DeepHubIMBA强化学习的基础知识和概念简介（无模型、在线学习、离线强化学习等）机器学习(ML)分为三个分支:监督

发表于 01-05 14:54 •472次阅读

搜索历史

谷歌发布非政策强化学习算法OPC的最新研究机器学习即将开辟新篇章？

评论

反向强化学习的思路

深度强化学习实战

将深度学习和强化学习相结合的深度强化学习DRL

基于LCS和LS-SVM的多机器人强化学习

人工智能机器学习之强化学习

基于强化学习的MADDPG算法原理及实现

量化深度强化学习算法的泛化能力

开辟新篇章!谷歌机器学习又有新进展!

深度强化学习到底是什么？它的工作原理是怎么样的

一文详谈机器学习的强化学习

机器学习中的无模型强化学习算法及研究综述

一种新型的多智能体深度强化学习算法

2021 OPPO开发者大会:新篇章公式

强化学习的基础知识和6种基本算法解释

强化学习的基础知识和6种基本算法解释