0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌提出元奖励学习,两大基准测试刷新最优结果

DPVg_AI_era 来源:lq 2019-02-24 10:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

RL算法由于奖励不明确,智能体可能会收到“利用环境中的虚假模式”的正反馈,这就有可能导致奖励黑客攻击。谷歌提出了使用开发元奖励学习(MeRL)来解决未指定奖励的问题,通过优化辅助奖励函数向智能体提供更精确的反馈。

强化学习(RL)为优化面向目标的行为,提供了统一且灵活的框架。

并且在解决诸如:玩视频游戏、连续控制和机器人学习等具有挑战性的任务方面,取得了显着成功。

RL算法在这些应用领域的成功,往往取决于高质量和密集奖励反馈的可用性。

然而,将RL算法的适用性,扩展到具有稀疏和未指定奖励的环境,是一个持续的挑战。

需要学习智能体从有限的反馈中,概括例如如何学习正确行为的问题。

在这种问题设置中研究RL算法性能的一种自然方法,是通过自然语言理解任务。

为智能体提供自然语言输入,并且需要生成复杂的响应,以实现输入过程中指定的目标,同时仅接收“成功-失败”的反馈。

例如一个“盲”智能体,任务是通过遵循一系列自然语言命令(例如,“右,上,上,右”)到达迷宫中的目标位置。

给定输入文本,智能体(绿色圆圈)需要解释命令,并基于这种解释采取动作以生成动作序列(a)。

如果智能体人达到目标(红色星级),则获得1的奖励,否则返回0。

由于智能体无法访问任何可视信息,因此智能体解决此任务,并概括为新指令的唯一方法,是正确解释指令。

在这些任务中,RL智能体需要学习从稀疏(只有少数轨迹导致非零奖励)和未指定(无目的和意外成功之间的区别)奖励。

重要的是,由于奖励不明确,智能体可能会收到“利用环境中的虚假模式”的正反馈,这就有可能导致奖励黑客攻击,在实际系统中部署时会导致意外和有害的行为。

在“学习从稀疏和未指定的奖励中进行概括”中,使用开发元奖励学习(MeRL)来解决未指定奖励的问题,通过优化辅助奖励函数向智能体提供更精确的反馈。

《Learning to Generalize from Sparse and Underspecified Rewards》论文地址:

https://arxiv.org/abs/1902.07198

MeRL与使用“新探索策略收集到成功轨迹”的记忆缓冲区相结合,从而通过稀疏奖励学习。

这个方法的有效性在语义分析中得到证明,其目标是学习从自然语言到逻辑形式的映射(例如,将问题映射到SQL程序)。

本文研究了弱监督问题设置,其目标是从问答配对中自动发现逻辑程序,而不需要任何形式的程序监督。

例如下图中找出“哪个国家赢得最多银牌?”,智能体需要生成类似SQL的程序,以产生正确的答案(即“尼日利亚”)。

所提出的方法在WikiTableQuestions和WikiSQL基准测试中实现了最先进的结果,分别将先前的工作提升了1.2%和2.4%。

MeRL自动学习辅助奖励函数,而无需使用任何专家演示(例如,ground-truth计划),使其更广泛适用并且与先前的奖励学习方法不同。

高级概述:

元奖励学习(MeRL)

MeRL在处理不明确奖励方面发现,虚假轨迹和实现意外成功的程序,对智能体的泛化性能不利。

例如,智能体可能解决上述迷宫问题的特定实例。但是,如果它在训练期间学会执行虚假动作,提供看不见的指令则可能导致其失败。

为了缓解这个问题,MeRL优化了更精确的辅助奖励函数,可以根据行动轨迹的特征区分意外、或非意外的成功。

通过元学习最大化训练的智能体在保持验证集上的表现,来优化辅助奖励。

从稀疏奖励中学习

要从稀疏的奖励中学习,有效的探索如何找到一组成功轨迹,至关重要。

论文通过利用Kullback-Leibler(KL)发散的两个方向来解决这一挑战,这是一种衡量两种不容概率分布的方法。

在下面的示例中,使用KL散度来最小化固定双峰(阴影紫色)和学习高斯(阴影绿色)分布之间的差异,这可以分别代表智能体的最优策略分布,和学习的策略的分布。

KL对象的一个学习方向,试图覆盖两种模式的分布,而其他目标学习的分布,则在寻求特定模式(即,它更喜欢A模式而不是B模式)。

我们的方法利用模式覆盖了KL关注多个峰值以收集多样化的成功轨迹和模式的倾向,寻求KL在轨迹之间的隐含偏好,以学习强有力的策略。

结论

设计区分最佳和次优行为的奖励函数对于将RL应用于实际应用程序至关重要。

这项研究在没有任何人为监督的情况下向奖励函数建模方向迈出了一小步。

在未来的工作中,我们希望从自动学习密集奖励函数的角度解决RL中的信用分配问题。

致谢

这项研究是与Chen Liang和Dale Schuurmans合作完成的。 我们感谢Chelsea Finn和Kelvin Guu对该论文的评论。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6245

    浏览量

    110264
  • 智能体
    +关注

    关注

    1

    文章

    388

    浏览量

    11521
  • 强化学习
    +关注

    关注

    4

    文章

    269

    浏览量

    11905

原文标题:谷歌提出元奖励学习,两大基准测试刷新最优结果

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    润和软件荣获ESG领域两大奖项

    近日,ESG领域两大奖项评选结果分别揭晓,江苏润和软件股份有限公司(证券简称:润和软件,证券代码:300339)凭借在环境、社会和公司治理(ESG)领域的深入实践及突出表现,荣膺2025年度财联社
    的头像 发表于 11-26 15:25 199次阅读

    立讯精密荣获ESG领域两大权威奖项

    近日,ESG 领域两大权威奖项评选结果揭晓,立讯精密连续三年入选“中国ESG上市公司先锋100”榜单,并成功斩获“2025年度财联社致远奖—环境友好(E)先锋企业奖”,双项殊荣彰显出行业对公司可持续发展实力的高度认可。
    的头像 发表于 11-05 15:32 419次阅读

    是德示波器MSOX2024A时间基准稳定性的测试方法

    值有出入,进而使整个测量结果的准确性降低,影响对信号特性的判断与分析。 1.2 时间基准不稳定导致的测量误差 时间基准不稳定会带来多种测量误差,如时间间隔测量误差、频率测量误差等。时间间隔误差会使信号波形在时间轴上的位置
    的头像 发表于 08-18 17:19 509次阅读
    是德示波器MSOX2024A时间<b class='flag-5'>基准</b>稳定性的<b class='flag-5'>测试</b>方法

    效率最优的感应电机无差拍直接转矩控制

    摘要:提出了一种感应电机无差拍直接转矩控制系统的效率最优控制方法。在定子磁链定向坐标系中以定子磁链和转子磁链为状态变量,导出了空间矢量无差拍直接转矩控制的电压控制律。分析了电机损耗与转矩、转速和定子
    发表于 07-16 19:02

    思必驰与上海交大联合实验室研究成果入选两大顶级会议

    近日,计算语言学与自然语言处理领域全球顶级会议ACL 2025及语音研究领域旗舰会议INTERSPEECH 2025相继公布论文录用结果。思必驰-上海交大联合实验室表现亮眼,共有13篇论文被两大会议收录!
    的头像 发表于 07-11 16:24 719次阅读
    思必驰与上海交大联合实验室研究成果入选<b class='flag-5'>两大</b>顶级会议

    华为携手两大运营商再次刷新5G上行速率

    1.1Gbps,再次刷新了5G上行速率的高度。此前,2024年8月广东电信测试的5G单用户上行速率达到1.0Gbps,此次突破标志着华为5G基站的上行链路能力达到一个新的高峰。
    的头像 发表于 05-21 16:17 863次阅读

    活动名单公布!学电路设计分享学习心得、技术疑问及实战成果,赢取专属礼品!

    设计成果介绍) 2、格式要求: 评论前面需包含 #电路设计学习# 标签,内容≥30字,图文格式更佳。 奖励设置 开发板套件x1、10京东卡x3、电子发烧友月度VIPx5 获奖规则: 在评论区留言
    发表于 05-14 09:53

    国产电压基准源替换RFE3012应用于测试测量设备

    国产电压基准源替换RFE3012应用于测试测量设备
    的头像 发表于 03-06 10:43 647次阅读
    国产电压<b class='flag-5'>基准</b>源替换RFE3012应用于<b class='flag-5'>测试</b>测量设备

    曙光存储FlashNexus登顶SPC-1基准测评

    近日,国际存储性能委员会(SPC)公布SPC-1 V3基准测试最新成绩,曙光存储集中式全闪FlashNexus以32控、超3000万IOPS的卓越性能刷新纪录,强势登顶全球榜首,彰显中国存储在高端领域的领先实力!
    的头像 发表于 02-27 11:17 891次阅读

    北大携智机器⼈团队提出OmniManip架构

    近日,北京大学与智机器人的联合实验室有了重大成果,北⼤携⼿智机器⼈团队提出 OmniManip 架构。 在具身智能领域,将视觉语言基础模型(VLMs)应用于机器人实现通用操作一直是核心问题。目前
    的头像 发表于 01-24 09:57 836次阅读

    SPEC ML基准测试新增模算效率指标

    近日,国际标准性能评估组织SPEC宣布了AI基准测试SPEC ML的最新进展。此次更新标志着SPEC ML基准测试在面向不同AI负载下的软硬件系统性能评估方面取得了重要突破,成功构建了
    的头像 发表于 01-15 14:28 765次阅读

    影响OTDR测试结果的因素

    光时域反射仪(OTDR)是光纤通信领域中不可或缺的测试工具。它通过发送光脉冲并测量反射回来的光信号,来确定光纤链路的长度、损耗和故障位置。然而,OTDR测试结果的准确性受到多种因素的影响。 1.
    的头像 发表于 12-31 09:22 1600次阅读

    MLCommons推出AI基准测试0.5版

    开放式机器学习工程联盟 MLCommons 在美国加州当地时间公布推出适用于消费类 PC 的 AI 性能的 MLPerf Client 基准测试的 0.5 版,这是该测试的第一个公开版
    的头像 发表于 12-12 16:47 1212次阅读

    谷歌正式发布Gemini 2.0 性能提升近

    2.0在关键基准测试中相比前代产品Gemini 1.5 Pro的性能提升了近倍。该模型支持图像、视频和音频等多种输入与输出形式,例如可以实现文本与图像的混合生成以及自定义的多语言文本转语音(TTS)内容。 此外,Gemini
    的头像 发表于 12-12 14:22 1120次阅读

    谷歌量子芯片Willow实现重大突破

    近日,谷歌在其官方网站上宣布了量子计算领域的重大突破。据报道,谷歌新一代量子芯片Willow在基准测试中展现出了惊人的计算能力。 在测试中,
    的头像 发表于 12-12 09:59 888次阅读