0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌提出元奖励学习,两大基准测试刷新最优结果

DPVg_AI_era 来源:lq 2019-02-24 10:34 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

RL算法由于奖励不明确,智能体可能会收到“利用环境中的虚假模式”的正反馈,这就有可能导致奖励黑客攻击。谷歌提出了使用开发元奖励学习(MeRL)来解决未指定奖励的问题,通过优化辅助奖励函数向智能体提供更精确的反馈。

强化学习(RL)为优化面向目标的行为,提供了统一且灵活的框架。

并且在解决诸如:玩视频游戏、连续控制和机器人学习等具有挑战性的任务方面,取得了显着成功。

RL算法在这些应用领域的成功,往往取决于高质量和密集奖励反馈的可用性。

然而,将RL算法的适用性,扩展到具有稀疏和未指定奖励的环境,是一个持续的挑战。

需要学习智能体从有限的反馈中,概括例如如何学习正确行为的问题。

在这种问题设置中研究RL算法性能的一种自然方法,是通过自然语言理解任务。

为智能体提供自然语言输入,并且需要生成复杂的响应,以实现输入过程中指定的目标,同时仅接收“成功-失败”的反馈。

例如一个“盲”智能体,任务是通过遵循一系列自然语言命令(例如,“右,上,上,右”)到达迷宫中的目标位置。

给定输入文本,智能体(绿色圆圈)需要解释命令,并基于这种解释采取动作以生成动作序列(a)。

如果智能体人达到目标(红色星级),则获得1的奖励,否则返回0。

由于智能体无法访问任何可视信息,因此智能体解决此任务,并概括为新指令的唯一方法,是正确解释指令。

在这些任务中,RL智能体需要学习从稀疏(只有少数轨迹导致非零奖励)和未指定(无目的和意外成功之间的区别)奖励。

重要的是,由于奖励不明确,智能体可能会收到“利用环境中的虚假模式”的正反馈,这就有可能导致奖励黑客攻击,在实际系统中部署时会导致意外和有害的行为。

在“学习从稀疏和未指定的奖励中进行概括”中,使用开发元奖励学习(MeRL)来解决未指定奖励的问题,通过优化辅助奖励函数向智能体提供更精确的反馈。

《Learning to Generalize from Sparse and Underspecified Rewards》论文地址:

https://arxiv.org/abs/1902.07198

MeRL与使用“新探索策略收集到成功轨迹”的记忆缓冲区相结合,从而通过稀疏奖励学习。

这个方法的有效性在语义分析中得到证明,其目标是学习从自然语言到逻辑形式的映射(例如,将问题映射到SQL程序)。

本文研究了弱监督问题设置,其目标是从问答配对中自动发现逻辑程序,而不需要任何形式的程序监督。

例如下图中找出“哪个国家赢得最多银牌?”,智能体需要生成类似SQL的程序,以产生正确的答案(即“尼日利亚”)。

所提出的方法在WikiTableQuestions和WikiSQL基准测试中实现了最先进的结果,分别将先前的工作提升了1.2%和2.4%。

MeRL自动学习辅助奖励函数,而无需使用任何专家演示(例如,ground-truth计划),使其更广泛适用并且与先前的奖励学习方法不同。

高级概述:

元奖励学习(MeRL)

MeRL在处理不明确奖励方面发现,虚假轨迹和实现意外成功的程序,对智能体的泛化性能不利。

例如,智能体可能解决上述迷宫问题的特定实例。但是,如果它在训练期间学会执行虚假动作,提供看不见的指令则可能导致其失败。

为了缓解这个问题,MeRL优化了更精确的辅助奖励函数,可以根据行动轨迹的特征区分意外、或非意外的成功。

通过元学习最大化训练的智能体在保持验证集上的表现,来优化辅助奖励。

从稀疏奖励中学习

要从稀疏的奖励中学习,有效的探索如何找到一组成功轨迹,至关重要。

论文通过利用Kullback-Leibler(KL)发散的两个方向来解决这一挑战,这是一种衡量两种不容概率分布的方法。

在下面的示例中,使用KL散度来最小化固定双峰(阴影紫色)和学习高斯(阴影绿色)分布之间的差异,这可以分别代表智能体的最优策略分布,和学习的策略的分布。

KL对象的一个学习方向,试图覆盖两种模式的分布,而其他目标学习的分布,则在寻求特定模式(即,它更喜欢A模式而不是B模式)。

我们的方法利用模式覆盖了KL关注多个峰值以收集多样化的成功轨迹和模式的倾向,寻求KL在轨迹之间的隐含偏好,以学习强有力的策略。

结论

设计区分最佳和次优行为的奖励函数对于将RL应用于实际应用程序至关重要。

这项研究在没有任何人为监督的情况下向奖励函数建模方向迈出了一小步。

在未来的工作中,我们希望从自动学习密集奖励函数的角度解决RL中的信用分配问题。

致谢

这项研究是与Chen Liang和Dale Schuurmans合作完成的。 我们感谢Chelsea Finn和Kelvin Guu对该论文的评论。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 谷歌
    +关注

    关注

    27

    文章

    6258

    浏览量

    111956
  • 智能体
    +关注

    关注

    1

    文章

    556

    浏览量

    11644
  • 强化学习
    +关注

    关注

    4

    文章

    273

    浏览量

    11997

原文标题:谷歌提出元奖励学习,两大基准测试刷新最优结果

文章出处:【微信号:AI_era,微信公众号:新智元】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    基本半导体成功签约两大合作项目

    4月12日,“四川——清华校地合作创新发展大会”在成都举行。会议期间,基本半导体成功签约“SST直流供电技术全产业链研究平台”和“AIDC直流配电系统产业链”两大合作项目。
    的头像 发表于 04-14 14:55 277次阅读
    基本半导体成功签约<b class='flag-5'>两大</b>合作项目

    选型不再纠结!一文看懂海凌科两大隔离通信模块

    在工业通信与物联网应用中,隔离通信模块是实现长距离、抗干扰通信的核心器件。海凌科电子推出两大系列产品:RSM(3)485ECHT系列与TD5(3)21D485H-A系列,均集成电源隔离、信号隔离与总
    的头像 发表于 03-02 16:44 268次阅读
    选型不再纠结!一文看懂海凌科<b class='flag-5'>两大</b>隔离通信模块

    两大半导体巨头,关厂!

    近日,市场传出两大半导体厂商关厂的消息,一是三星年内将关闭一座8英寸晶圆厂,二是安靠将关闭日本函馆封装厂。
    的头像 发表于 01-16 17:39 1183次阅读

    谷歌评论卡,碰一碰即可完成谷歌评论 #谷歌评论卡 #NFC标签 #nfc卡

    谷歌
    深圳市融智兴科技有限公司
    发布于 :2026年01月15日 17:02:00

    博世中国一举斩获两大重要奖项

    12月11日,中国欧盟商会 2025 年可持续商业奖颁奖典礼在上海举行。博世中国凭借在绿色制造及社区共创两大领域的持续深耕,一举斩获两大重要奖项。
    的头像 发表于 12-22 15:06 684次阅读

    曦智科技荣登2025VENTURE50两大榜单

    2025年12月4日,由清科控股、投资界发起的 2025VENTURE50 榜单最终揭晓。曦智科技凭借卓越的创新实力与高成长性,荣登 “风云50” 与 “硬科技50” 两大榜单,收获来自资本市场与产业领域的双重认可!
    的头像 发表于 12-11 17:51 1361次阅读

    润和软件荣获ESG领域两大奖项

    近日,ESG领域两大奖项评选结果分别揭晓,江苏润和软件股份有限公司(证券简称:润和软件,证券代码:300339)凭借在环境、社会和公司治理(ESG)领域的深入实践及突出表现,荣膺2025年度财联社
    的头像 发表于 11-26 15:25 481次阅读

    电子发烧友积分如何兑换奖励

    电子发烧友积分如何兑换奖励
    发表于 11-19 09:34

    立讯精密荣获ESG领域两大权威奖项

    近日,ESG 领域两大权威奖项评选结果揭晓,立讯精密连续三年入选“中国ESG上市公司先锋100”榜单,并成功斩获“2025年度财联社致远奖—环境友好(E)先锋企业奖”,双项殊荣彰显出行业对公司可持续发展实力的高度认可。
    的头像 发表于 11-05 15:32 734次阅读

    是德示波器MSOX2024A时间基准稳定性的测试方法

    值有出入,进而使整个测量结果的准确性降低,影响对信号特性的判断与分析。 1.2 时间基准不稳定导致的测量误差 时间基准不稳定会带来多种测量误差,如时间间隔测量误差、频率测量误差等。时间间隔误差会使信号波形在时间轴上的位置
    的头像 发表于 08-18 17:19 831次阅读
    是德示波器MSOX2024A时间<b class='flag-5'>基准</b>稳定性的<b class='flag-5'>测试</b>方法

    效率最优的感应电机无差拍直接转矩控制

    摘要:提出了一种感应电机无差拍直接转矩控制系统的效率最优控制方法。在定子磁链定向坐标系中以定子磁链和转子磁链为状态变量,导出了空间矢量无差拍直接转矩控制的电压控制律。分析了电机损耗与转矩、转速和定子
    发表于 07-16 19:02

    思必驰与上海交大联合实验室研究成果入选两大顶级会议

    近日,计算语言学与自然语言处理领域全球顶级会议ACL 2025及语音研究领域旗舰会议INTERSPEECH 2025相继公布论文录用结果。思必驰-上海交大联合实验室表现亮眼,共有13篇论文被两大会议收录!
    的头像 发表于 07-11 16:24 1049次阅读
    思必驰与上海交大联合实验室研究成果入选<b class='flag-5'>两大</b>顶级会议

    华为携手两大运营商再次刷新5G上行速率

    1.1Gbps,再次刷新了5G上行速率的高度。此前,2024年8月广东电信测试的5G单用户上行速率达到1.0Gbps,此次突破标志着华为5G基站的上行链路能力达到一个新的高峰。
    的头像 发表于 05-21 16:17 1355次阅读

    活动名单公布!学电路设计分享学习心得、技术疑问及实战成果,赢取专属礼品!

    设计成果介绍) 2、格式要求: 评论前面需包含 #电路设计学习# 标签,内容≥30字,图文格式更佳。 奖励设置 开发板套件x1、10京东卡x3、电子发烧友月度VIPx5 获奖规则: 在评论区留言
    发表于 05-14 09:53

    电装发布环境与安心两大领域的战略成果

    近日,电装于「第二十一届上海国际汽车工业展览会」新闻发布会上,围绕“环境”与“安心”两大领域,展示在电动化、智能化与可持续发展领域的创新成果,彰显长期深耕中国市场、持续推动可持续出行的战略承诺与行动。
    的头像 发表于 04-27 11:11 1035次阅读