谷歌提出元奖励学习，两大基准测试刷新最优结果-电子发烧友网

RL算法由于奖励不明确，智能体可能会收到“利用环境中的虚假模式”的正反馈，这就有可能导致奖励黑客攻击。谷歌提出了使用开发元奖励学习（MeRL）来解决未指定奖励的问题，通过优化辅助奖励函数向智能体提供更精确的反馈。

强化学习（RL）为优化面向目标的行为,提供了统一且灵活的框架。

并且在解决诸如：玩视频游戏、连续控制和机器人学习等具有挑战性的任务方面，取得了显着成功。

RL算法在这些应用领域的成功，往往取决于高质量和密集奖励反馈的可用性。

然而，将RL算法的适用性，扩展到具有稀疏和未指定奖励的环境，是一个持续的挑战。

需要学习智能体从有限的反馈中，概括例如如何学习正确行为的问题。

在这种问题设置中研究RL算法性能的一种自然方法，是通过自然语言理解任务。

为智能体提供自然语言输入，并且需要生成复杂的响应，以实现输入过程中指定的目标，同时仅接收“成功-失败”的反馈。

例如一个“盲”智能体，任务是通过遵循一系列自然语言命令（例如，“右，上，上，右”）到达迷宫中的目标位置。

给定输入文本，智能体（绿色圆圈）需要解释命令，并基于这种解释采取动作以生成动作序列（a）。

如果智能体人达到目标（红色星级），则获得1的奖励，否则返回0。

由于智能体无法访问任何可视信息，因此智能体解决此任务，并概括为新指令的唯一方法，是正确解释指令。

在这些任务中，RL智能体需要学习从稀疏（只有少数轨迹导致非零奖励）和未指定（无目的和意外成功之间的区别）奖励。

重要的是，由于奖励不明确，智能体可能会收到“利用环境中的虚假模式”的正反馈，这就有可能导致奖励黑客攻击，在实际系统中部署时会导致意外和有害的行为。

在“学习从稀疏和未指定的奖励中进行概括”中，使用开发元奖励学习（MeRL）来解决未指定奖励的问题，通过优化辅助奖励函数向智能体提供更精确的反馈。

《Learning to Generalize from Sparse and Underspecified Rewards》论文地址：

https://arxiv.org/abs/1902.07198

MeRL与使用“新探索策略收集到成功轨迹”的记忆缓冲区相结合，从而通过稀疏奖励学习。

这个方法的有效性在语义分析中得到证明，其目标是学习从自然语言到逻辑形式的映射（例如，将问题映射到SQL程序）。

本文研究了弱监督问题设置，其目标是从问答配对中自动发现逻辑程序，而不需要任何形式的程序监督。

例如下图中找出“哪个国家赢得最多银牌？”，智能体需要生成类似SQL的程序，以产生正确的答案（即“尼日利亚”）。

所提出的方法在WikiTableQuestions和WikiSQL基准测试中实现了最先进的结果，分别将先前的工作提升了1.2％和2.4％。

MeRL自动学习辅助奖励函数，而无需使用任何专家演示（例如，ground-truth计划），使其更广泛适用并且与先前的奖励学习方法不同。

高级概述：

元奖励学习（MeRL）

MeRL在处理不明确奖励方面发现，虚假轨迹和实现意外成功的程序，对智能体的泛化性能不利。

例如，智能体可能解决上述迷宫问题的特定实例。但是，如果它在训练期间学会执行虚假动作，提供看不见的指令则可能导致其失败。

为了缓解这个问题，MeRL优化了更精确的辅助奖励函数，可以根据行动轨迹的特征区分意外、或非意外的成功。

通过元学习最大化训练的智能体在保持验证集上的表现，来优化辅助奖励。

从稀疏奖励中学习

要从稀疏的奖励中学习，有效的探索如何找到一组成功轨迹，至关重要。

论文通过利用Kullback-Leibler（KL）发散的两个方向来解决这一挑战，这是一种衡量两种不容概率分布的方法。

在下面的示例中，使用KL散度来最小化固定双峰（阴影紫色）和学习高斯（阴影绿色）分布之间的差异，这可以分别代表智能体的最优策略分布，和学习的策略的分布。

KL对象的一个学习方向，试图覆盖两种模式的分布，而其他目标学习的分布，则在寻求特定模式（即，它更喜欢A模式而不是B模式）。

我们的方法利用模式覆盖了KL关注多个峰值以收集多样化的成功轨迹和模式的倾向，寻求KL在轨迹之间的隐含偏好，以学习强有力的策略。

结论

设计区分最佳和次优行为的奖励函数对于将RL应用于实际应用程序至关重要。

这项研究在没有任何人为监督的情况下向奖励函数建模方向迈出了一小步。

在未来的工作中，我们希望从自动学习密集奖励函数的角度解决RL中的信用分配问题。

致谢

这项研究是与Chen Liang和Dale Schuurmans合作完成的。我们感谢Chelsea Finn和Kelvin Guu对该论文的评论。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

谷歌

谷歌

+关注

关注
27

文章
5852

浏览量
103246
智能体

智能体

+关注

关注
1

文章
111

浏览量
10424
强化学习

强化学习

+关注

关注
4

文章
259

浏览量
11113

原文标题：谷歌提出元奖励学习，两大基准测试刷新最优结果

文章出处：【微信号：AI_era，微信公众号：新智元】欢迎添加关注！文章转载请注明出处。

马斯克旗下xAI推出Grok-1.5大型语言模型

实验结果表明，新模型在MATH基准测试中取得了为 50.6％的优秀成绩，GSM8K则达到了90％。这两大数学测试范围覆盖广，涉及从小学至高中

发表于 03-29 14:53 •247次阅读

用STM32L4R9驱动480*800的LCD屏幕，结果屏幕刷新看起来是逐行进行，刷新速度较慢，是否正常？

请问一下，用STM32L4R9驱动480*800的LCD屏幕（采用一个数据通道），结果屏幕刷新看起来是逐行进行，刷新速度较慢，是否正常，如果有问题可能会是哪里？例程和资料都可以看出整屏同时刷新

发表于 03-22 07:04

谷歌模型框架是什么软件？谷歌模型框架怎么用？

谷歌模型框架通常指的是谷歌开发的用于机器学习和人工智能的软件框架，其中最著名的是TensorFlow。TensorFlow是一个开源的机器学习框架，由

发表于 03-01 16:25 •230次阅读

通用CPU性能基准测试的研究现状

经过持续迭代升级，TPC已发展成为能够满足多种应用场景性能测试需求的基准测试簇，根据测试场景和测试事务的不同，可将 TPC性能

发表于 02-20 10:22 •219次阅读

如何从零开始构建深度学习项目？（如何启动一个深度学习项目）

性能重大提升的背后往往是模型设计的改变。不过有些时候对模型进行微调也可以提升机器学习的性能。最终的判断可能会取决于你对相应任务的基准测试结果。

发表于 01-11 10:49 •165次阅读

【先楫HPM5361EVK开发板试用体验】性能测试基准---Dhrystone (3)

。 Dhrystone基准测试程序的结果通常以Dhrystone MIPS（Million Instructions Per Second）为单位来表示，用来衡量计算机处理器的性能。更高的Dhrystone MIPS值

发表于 12-20 22:14

【爱芯派 Pro 开发板试用体验】Redis源码编译和基准测试

和Redis基准测试。测试结果显示，爱芯派上Redis性能明显由于树莓派4B，这一定程度上说明——爱芯派的CPU、内存综合性能优于树莓派4B。一、Redis是什么维基百科的介绍是：

发表于 12-10 22:18

高精度基准电压源测试方法有哪些

高精度基准电压源是一种能够产生稳定、可控的电压信号的设备，广泛应用于科学研究、工业检测和仪器仪表校准等领域。为了保证电压信号的准确性和可靠性，在使用高精度基准电压源进行测试时，需要采取一系列的

发表于 11-27 17:11 •394次阅读

单片机最小系统电路包括哪两大类？

单片机最小系统电路包括哪两大类

发表于 10-31 07:28

浪潮信息inMerge超融合刷新全球vSAN架构虚拟化VMmark最佳成绩

，刷新了vSAN架构（Intel双路最新平台）虚拟化性能测试纪录。该测试结果证明inMerge1100可以以卓越的性能支持更大规模的用户，这对关键业务、虚拟桌面云、开发

发表于 10-29 07:41 •225次阅读

LSI MegaRAID控制器基准测试提示

电子发烧友网站提供《LSI MegaRAID控制器基准测试提示.pdf》资料免费下载

发表于 08-24 09:53 •0次下载

为什么要用基准电压源？如何选择基准电压源？基准电压源怎么选型号？

电子设备必须能够将真实世界的测量结果(速度、压力、长度、温度)映射到电子世界中的可测的量(电压)。当然，要测量电压，您需要一个衡量标准，该标准就是基准电压。对系统设计人员而言，问题不在于是否需要基准

发表于 07-17 11:40 •1409次阅读

BootLoader刷新之上位机刷新功能学习随笔

上位机在刷新功能中主要是解析S19文件，然后按照刷新规范流程进行实现刷新的步骤，mcu端的boot按照上位机的请求流程进行开展刷新工作 1，按照S19格式规则解析S19文件

发表于 05-29 15:14 •2次下载

全球第一！中兴通讯R5300 G5服务器刷新SPEC CPU性能测试世界纪录

近日，国际标准性能评估组织SPEC发布最新测试结果。中兴通讯最新产品R5300 G5服务器，凭借优异性能，打破了SPEC CPU 2017测试世界纪录，以1010分/977分，刷新了S

发表于 05-16 11:18 •636次阅读

已结束-【有奖活动】上传资料人人有礼，每月狂送千元奖金礼品！

的资料帖链接回复至本帖，回帖格式：帖子标题+帖子链接；即视为成功参与活动，未回复至本帖的资料帖不计入总数。奖项设置：月度奖励（按月通过审核数量排名发放）：（1）第一名：奖励200元京东卡+价值500

发表于 04-26 14:32

搜索历史

谷歌提出元奖励学习，两大基准测试刷新最优结果

评论