0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

强化学习中泛化的对比性行为相似性嵌入向量

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2021-11-02 10:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

强化学习 (RL) 是一种顺序决策范例,用于训练智能体来处理复杂的任务,例如机器人运动、玩视频游戏、放飞平流层气球以及设计硬件芯片等。

放飞平流层气球

http://rdcu.be/cbBRc

玩视频游戏

https://ai.googleblog.com/2020/04/an-optimistic-perspective-on-offline.html

虽然 RL 智能体已经在各种活动任务中呈现出很好的结果,但很难将这些智能体的能力转移到新的任务中,即便这些任务在语义层面上是等同的。例如,在跳跃任务中,智能体需要从图像观察中学习如何跳过一个障碍物。在用于训练 Deep RL 智能体的一些任务中,障碍物位置是变化的,此时若障碍出现在先前没有见过的位置上,则这类智能体很难成功地跃过。

跳跃任务:智能体(白块),从像素中学习如何跳过一个障碍物(灰色方块)。本任务的挑战在于,如何在测试任务中使用少量的训练任务来泛化未见过的障碍物位置和离地高度。在指定的任务中,智能体需要在离障碍物一定距离时准确地确定跳跃的时间,否则会撞到障碍物

在发表于 ICLR 2021 的“强化学习中泛化的对比性行为相似性嵌入向量 (Contrastive Behavioral Similarity Embeddings for Generalization in Reinforcement Learning)”一文中,我们将 RL 中固有的顺序结构纳入表征学习过程,以增强对未见过的任务的泛化。这与之前的主流方法不同,主流方法通常是由监督学习 (Supervised learning) 改编而来,因此在很大程度上忽略了这里提及的顺序方面。而我们的方法则利用了这样一个事实:智能体在具有相似根本方法的任务中进行操作时,至少会在这些任务中表现出类似的短序列性的行为。

强化学习中泛化的对比性行为相似性嵌入向量

https://agarwl.github.io/pse/

之前关于泛化的研究通常是由监督学习改编而来,并主要围绕加强学习过程。这些方法很少利用序列方面的属性,例如时间观察中操作的相似性

我们的方法是训练智能体学习一种表征,智能体在某些状态下的最佳行为和未来状态接近时,这些状态就是相似的。这种接近的概念,我们称之为行为相似性,可以泛化至不同任务中的观察结果。为了衡量不同任务的状态之间的行为相似性(例如,跳跃任务中不同的障碍物位置),我们引入了策略相似性指标(PSM),这是一个在理论层面驱动的状态相似性指标,受互模拟的启发而成。例如下图所示,智能体在两个视觉上不同的状态下,未来操作是相同的,因此,根据 PSM,这些状态就是相似的。

互模拟

https://arxiv.org/pdf/1207.4114.pdf

了解行为相似性。智能体(蓝色图标)需要在远离危险图标的情况下取得奖励。即便初始状态在视觉上是不同的,但就其在当前状态以及紧接着的未来状态下的最佳行为而言,它们是相似的。策略相似性指标 (PSM) 将高相似度分配给这种行为上相似的状态,将低相似度分配给不相似的状态

为了提升泛化程度,我们的方法学习了状态嵌入向量,对应基于神经网络的任务状态表征,将行为上相似的状态聚集在一起(如上图),同时将行为上不相似的状态分开。为此,我们提出了对比性指标嵌入向量(CMEs),利用对比性学习的优势来学习基于状态相似性指标的表征。我们将对比性嵌入向量与策略相似性指标 (PSM) 进行实例化,用来学习策略相似性嵌入向量(PSEs)。PSEs 将相似的表征分配给在这些状态和未来状态下具有相似行为的状态,如上图所示的两个初始状态。

如下列结果所示,PSEs 显著增强了前面提到的从像素学习的跳跃任务的泛化能力,其表现优于先前的方法。

从像素学习的跳跃任务

https://github.com/google-research/jumping-task

网格配置
方法 “宽” “窄” “随机”
正则化 17.2 (2.2) 10.2 (4.6) 9.3 (5.4)
PSEs 33.6(10.0) 9.3 (5.3) 37.7(10.4)
数据增强 50.7 (24.2) 33.7 (11.8) 71.3 (15.6)
数据增强 + 互模拟 41.4 (17.6) 17.4 (6.7) 33.4 (15.6)
数据增强 +PSEs 87.0(10.1) 52.4(5.8) 83.4(10.1)

跳跃任务结果:在有数据增强和无数据增强的情况下,不同方法解决的测试任务比例 (%)。下图显示了“宽”、“窄”和“随机”网格的配置,包含 18 个训练任务和 268 个测试任务。我们报告了不同随机初始化 100 次运行的平均性能,括号内为标准差

正则化

https://arxiv.org/abs/1810.00123

数据增强

https://arxiv.org/abs/1910.05396

互模拟

https://arxiv.org/abs/2006.10742

跳跃任务网格配置:不同配置下带有数据增强的 PSEs 平均性能的可视化。对于每种网格配置,高度沿 Y 轴变化(11 个高度),而障碍物位置沿 X 轴变化(26 个位置)。红色字母 T 表示训练任务。米色方块是 PSEs 解决的任务,而黑色方块是未解决的任务,均在有数据增强的情况下进行

我们还对 PSEs 和基线方法学到的表征进行了可视化,通过 UMAP 将它们投射到 2D 点上,这是一种常用的高维度数据可视化技术。如可视化图像所示,PSEs 将行为上相似的状态聚集在一起,而将不相似的状态分开,这与之前的方法不同。此外,PSEs 将状态分为两组:(1) 跳跃前的所有状态;(2) 操作不影响结果的状态(跳跃后的状态)。

UMAP

https://pair-code.github.io/understanding-umap/

将已学习的表征可视化。(a) 障碍物位置不同的情况下,跳跃任务(彩色方块)的最佳轨迹。具有相同数字标签的点表示智能体与障碍物距离相同,这是在各种跳跃任务中作为基础的最佳不变特征。(b-d) 我们用 UMAP 可视化隐藏的表征,其中点的颜色表示相应观察的任务。(b) PSEs 捕捉到了正确的不变特征,如图所示,具有相同数字标签的点被聚集在了一起。也就是说,在跳跃操作(编号为 2 的方块)之后,所有其他操作(无编号方块)都是相似的,如重叠的曲线所示。与 PSEs 相反,包括 (c) l2-loss 嵌入向量(而不是对比性损失)和 (d) 基于奖励的互模拟指标在内的基线并没有把具有相似数字标签、行为上相似的状态放在一起。(c, d) 的泛化能力较弱,可能是由于具有相似最佳行为的状态最终被放在远距离嵌入向量上

结论

总体上看,本文展现了利用 RL 中的固有结构来学习有效表征的优势。具体来说,本文展示了两项可推进 RL 中泛化的贡献:策略相似性指标和对比性指标嵌入向量。PSEs 结合这两种思路来加强泛化。对于未来工作,值得探究的方向包括找到更好的方法来定义行为相似性,并利用这种结构进行表征学习。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    463

    文章

    54644

    浏览量

    470991
  • 智能体
    +关注

    关注

    1

    文章

    618

    浏览量

    11656
  • 强化学习
    +关注

    关注

    4

    文章

    275

    浏览量

    12012

原文标题:利用策略相似性嵌入向量 (PSEs) 提高强化学习的泛化程度

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    在阿里云PAI平台的机器人感知强化学习规模实践

    物理 AI 正在迅速从基础运动控制迈向更复杂的环境理解。传统机器人强化学习(RL)长期依赖本体感知(proprioception),包括关节角度、力矩反馈和内部状态,来训练灵巧的运动技能。
    的头像 发表于 05-18 10:34 369次阅读
    在阿里云PAI平台的机器人感知<b class='flag-5'>强化学习</b>规模<b class='flag-5'>化</b>实践

    NVIDIA与Ineffable Intelligence合作打造强化学习基础设施

    我们正在共同构建能够解锁全新水平智能的强化学习基础设施。
    的头像 发表于 05-18 10:30 448次阅读

    Momenta R7强化学习世界模型实现量产首发

    等话题展开深度对话,正式宣布Momenta R7强化学习世界模型实现量产首发,标志着智能驾驶从“看见世界”到“理解世界”的全新跨越,物理AI正式从技术理念走向规模量产落地。
    的头像 发表于 04-29 15:44 829次阅读

    Momenta R7强化学习世界模型助力上汽大众ID. ERA 9X正式上市

    2026年4月25日,上汽大众全新旗舰SUV ID. ERA 9X于2026北京国际汽车展览会期间正式上市,并将全球首发搭载Momenta R7强化学习世界模型。这意味着Momenta R7率先在全球强化学习+世界模型方向上取得量产突破——标志着物理AI上车。
    的头像 发表于 04-29 15:42 746次阅读

    上汽奥迪E5 Sportback车型升级搭载全新Momenta强化学习大模型

    近日,上汽奥迪宣布旗下 E5 Sportback 车型升级搭载 全新Momenta 强化学习大模型。
    的头像 发表于 04-09 09:33 328次阅读

    上汽大众ID. ERA 9X全球首发搭载Momenta R7强化学习世界模型

    3月30日,Momenta R7强化学习世界模型全球首发搭载车型——上汽大众ID. ERA 9X正式开启预售。
    的头像 发表于 03-31 13:48 513次阅读

    Momenta R6强化学习大模型上车东风日产NX8

    3月20日,东风日产NX8技术暨预售发布会在广州举办,官宣Momenta R6强化学习大模型正式上车东风日产新能源SUV——NX8。以全球顶级大厂合力,融合先锋科技力量,打造更适配全家出行的智能SUV,开启合资品牌智能全新赛道。
    的头像 发表于 03-24 09:08 982次阅读

    Momenta强化学习大模型助力别克至境世家纯电版正式上市

    3月17日,别克至境世家纯电版正式上市,这是别克与Momenta强化学习大模型的又一次深度联手。融合别克在MPV市场深耕27年的技术积淀,以更从容的智慧驾控,重新定义豪华与自在的出行体验。
    的头像 发表于 03-18 15:48 412次阅读

    自动驾驶中常提的离线强化学习是什么?

    ,图片源自:网络 但强化学习本身是需要不断试错的,如果采用这种学习方式在真实道路不断尝试,一定会导致不可控的事故。于是就有人提出一种猜测,能不能利用已经存在的大量行驶日志、仿真记录和人类驾驶数据,在训练过程
    的头像 发表于 02-07 09:21 438次阅读
    自动驾驶中常提的离线<b class='flag-5'>强化学习</b>是什么?

    强化学习会让自动驾驶模型学习更快吗?

    是一种让机器通过“试错”学会决策的办法。与监督学习不同,监督学习是有人提供示范答案,让模型去模仿;而强化学习不会把每一步的“正确答案”都告诉你,而是把环境、动作和结果连起来,让机器自己探索哪个
    的头像 发表于 01-31 09:34 939次阅读
    <b class='flag-5'>强化学习</b>会让自动驾驶模型<b class='flag-5'>学习</b>更快吗?

    多智能体强化学习(MARL)核心概念与算法概览

    (Multi-AgentReinforcementLearning,MARL),但是这样会很快变得混乱。什么是多智能体强化学习MARL是多个决策者(智能体)在同一环境交互的强化学习。环境类型可
    的头像 发表于 01-21 16:21 403次阅读
    多智能体<b class='flag-5'>强化学习</b>(MARL)核心概念与算法概览

    上汽别克至境E7首发搭载Momenta R6强化学习大模型

    别克至境家族迎来新成员——大五座智能SUV别克至境E7首发。新车将搭载Momenta R6强化学习大模型,带来全场景的智能出行体验。
    的头像 发表于 01-12 16:23 599次阅读

    今日看点:智元推出真机强化学习;美国软件公司SAS退出中国市场

    智元推出真机强化学习,机器人训练周期从“数周”减至“数十分钟”   近日,智元机器人宣布其研发的真机强化学习技术,已在与龙旗科技合作的验证产线成功落地。据介绍,此次落地的真机强化学习
    发表于 11-05 09:44 1202次阅读

    自动驾驶中常提的“强化学习”是个啥?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶时,有些方案中会提到“强化学习(Reinforcement Learning,简称RL)”,强化学习是一类让机器通过试错来学会做决策的技术。简单理解
    的头像 发表于 10-23 09:00 1008次阅读
    自动驾驶中常提的“<b class='flag-5'>强化学习</b>”是个啥?

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一个适用于机器人学习的开源模块框架,其模块高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习
    的头像 发表于 07-14 15:29 2794次阅读
    NVIDIA Isaac Lab可用环境与<b class='flag-5'>强化学习</b>脚本使用指南