0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

强化学习中泛化的对比性行为相似性嵌入向量

Tensorflowers 来源:TensorFlow 作者:TensorFlow 2021-11-02 10:05 次阅读

强化学习 (RL) 是一种顺序决策范例,用于训练智能体来处理复杂的任务,例如机器人运动、玩视频游戏、放飞平流层气球以及设计硬件芯片等。

放飞平流层气球

http://rdcu.be/cbBRc

玩视频游戏

https://ai.googleblog.com/2020/04/an-optimistic-perspective-on-offline.html

虽然 RL 智能体已经在各种活动任务中呈现出很好的结果,但很难将这些智能体的能力转移到新的任务中,即便这些任务在语义层面上是等同的。例如,在跳跃任务中,智能体需要从图像观察中学习如何跳过一个障碍物。在用于训练 Deep RL 智能体的一些任务中,障碍物位置是变化的,此时若障碍出现在先前没有见过的位置上,则这类智能体很难成功地跃过。

跳跃任务:智能体(白块),从像素中学习如何跳过一个障碍物(灰色方块)。本任务的挑战在于,如何在测试任务中使用少量的训练任务来泛化未见过的障碍物位置和离地高度。在指定的任务中,智能体需要在离障碍物一定距离时准确地确定跳跃的时间,否则会撞到障碍物

在发表于 ICLR 2021 的“强化学习中泛化的对比性行为相似性嵌入向量 (Contrastive Behavioral Similarity Embeddings for Generalization in Reinforcement Learning)”一文中,我们将 RL 中固有的顺序结构纳入表征学习过程,以增强对未见过的任务的泛化。这与之前的主流方法不同,主流方法通常是由监督学习 (Supervised learning) 改编而来,因此在很大程度上忽略了这里提及的顺序方面。而我们的方法则利用了这样一个事实:智能体在具有相似根本方法的任务中进行操作时,至少会在这些任务中表现出类似的短序列性的行为。

强化学习中泛化的对比性行为相似性嵌入向量

https://agarwl.github.io/pse/

之前关于泛化的研究通常是由监督学习改编而来,并主要围绕加强学习过程。这些方法很少利用序列方面的属性,例如时间观察中操作的相似性

我们的方法是训练智能体学习一种表征,智能体在某些状态下的最佳行为和未来状态接近时,这些状态就是相似的。这种接近的概念,我们称之为行为相似性,可以泛化至不同任务中的观察结果。为了衡量不同任务的状态之间的行为相似性(例如,跳跃任务中不同的障碍物位置),我们引入了策略相似性指标(PSM),这是一个在理论层面驱动的状态相似性指标,受互模拟的启发而成。例如下图所示,智能体在两个视觉上不同的状态下,未来操作是相同的,因此,根据 PSM,这些状态就是相似的。

互模拟

https://arxiv.org/pdf/1207.4114.pdf

了解行为相似性。智能体(蓝色图标)需要在远离危险图标的情况下取得奖励。即便初始状态在视觉上是不同的,但就其在当前状态以及紧接着的未来状态下的最佳行为而言,它们是相似的。策略相似性指标 (PSM) 将高相似度分配给这种行为上相似的状态,将低相似度分配给不相似的状态

为了提升泛化程度,我们的方法学习了状态嵌入向量,对应基于神经网络的任务状态表征,将行为上相似的状态聚集在一起(如上图),同时将行为上不相似的状态分开。为此,我们提出了对比性指标嵌入向量(CMEs),利用对比性学习的优势来学习基于状态相似性指标的表征。我们将对比性嵌入向量与策略相似性指标 (PSM) 进行实例化,用来学习策略相似性嵌入向量(PSEs)。PSEs 将相似的表征分配给在这些状态和未来状态下具有相似行为的状态,如上图所示的两个初始状态。

如下列结果所示,PSEs 显著增强了前面提到的从像素学习的跳跃任务的泛化能力,其表现优于先前的方法。

从像素学习的跳跃任务

https://github.com/google-research/jumping-task

网格配置
方法 “宽” “窄” “随机”
正则化 17.2 (2.2) 10.2 (4.6) 9.3 (5.4)
PSEs 33.6(10.0) 9.3 (5.3) 37.7(10.4)
数据增强 50.7 (24.2) 33.7 (11.8) 71.3 (15.6)
数据增强 + 互模拟 41.4 (17.6) 17.4 (6.7) 33.4 (15.6)
数据增强 +PSEs 87.0(10.1) 52.4(5.8) 83.4(10.1)

跳跃任务结果:在有数据增强和无数据增强的情况下,不同方法解决的测试任务比例 (%)。下图显示了“宽”、“窄”和“随机”网格的配置,包含 18 个训练任务和 268 个测试任务。我们报告了不同随机初始化 100 次运行的平均性能,括号内为标准差

正则化

https://arxiv.org/abs/1810.00123

数据增强

https://arxiv.org/abs/1910.05396

互模拟

https://arxiv.org/abs/2006.10742

跳跃任务网格配置:不同配置下带有数据增强的 PSEs 平均性能的可视化。对于每种网格配置,高度沿 Y 轴变化(11 个高度),而障碍物位置沿 X 轴变化(26 个位置)。红色字母 T 表示训练任务。米色方块是 PSEs 解决的任务,而黑色方块是未解决的任务,均在有数据增强的情况下进行

我们还对 PSEs 和基线方法学到的表征进行了可视化,通过 UMAP 将它们投射到 2D 点上,这是一种常用的高维度数据可视化技术。如可视化图像所示,PSEs 将行为上相似的状态聚集在一起,而将不相似的状态分开,这与之前的方法不同。此外,PSEs 将状态分为两组:(1) 跳跃前的所有状态;(2) 操作不影响结果的状态(跳跃后的状态)。

UMAP

https://pair-code.github.io/understanding-umap/

将已学习的表征可视化。(a) 障碍物位置不同的情况下,跳跃任务(彩色方块)的最佳轨迹。具有相同数字标签的点表示智能体与障碍物距离相同,这是在各种跳跃任务中作为基础的最佳不变特征。(b-d) 我们用 UMAP 可视化隐藏的表征,其中点的颜色表示相应观察的任务。(b) PSEs 捕捉到了正确的不变特征,如图所示,具有相同数字标签的点被聚集在了一起。也就是说,在跳跃操作(编号为 2 的方块)之后,所有其他操作(无编号方块)都是相似的,如重叠的曲线所示。与 PSEs 相反,包括 (c) l2-loss 嵌入向量(而不是对比性损失)和 (d) 基于奖励的互模拟指标在内的基线并没有把具有相似数字标签、行为上相似的状态放在一起。(c, d) 的泛化能力较弱,可能是由于具有相似最佳行为的状态最终被放在远距离嵌入向量上

结论

总体上看,本文展现了利用 RL 中的固有结构来学习有效表征的优势。具体来说,本文展示了两项可推进 RL 中泛化的贡献:策略相似性指标和对比性指标嵌入向量。PSEs 结合这两种思路来加强泛化。对于未来工作,值得探究的方向包括找到更好的方法来定义行为相似性,并利用这种结构进行表征学习。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 芯片
    +关注

    关注

    447

    文章

    47821

    浏览量

    409198
  • 智能体
    +关注

    关注

    1

    文章

    111

    浏览量

    10426
  • 强化学习
    +关注

    关注

    4

    文章

    259

    浏览量

    11114

原文标题:利用策略相似性嵌入向量 (PSEs) 提高强化学习的泛化程度

文章出处:【微信号:tensorflowers,微信公众号:Tensorflowers】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一种基于分子编程和液滴微流控的替代性技术用于数字检测

    单分子水平的蛋白质分析揭示了集合平均技术所掩盖的异质性行为
    的头像 发表于 03-13 10:17 236次阅读
    一种基于分子编程和液滴微流控的替代性技术用于数字检测

    基于结构相似性可靠性监测结果

    电子发烧友网站提供《基于结构相似性可靠性监测结果.pdf》资料免费下载
    发表于 02-05 09:10 0次下载
    基于结构<b class='flag-5'>相似性</b>可靠性监测结果

    什么是强化学习

    的AlphaStar,他们都是强化学习模型。诸如此类的模型还有 AlphaGo Zero 等。 强化学习的原理非常简单,它非常像心理学中新行为主义派的斯金纳发现的操作性条件反射。 操作性条件反射是什么?当年斯金纳做了一个箱子,进
    的头像 发表于 10-30 11:36 1661次阅读
    什么是<b class='flag-5'>强化学习</b>

    NeurIPS 2023 | 扩散模型解决多任务强化学习问题

    扩散模型(diffusion model)在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习(RL)中来解决序列决策问题
    的头像 发表于 10-02 10:45 453次阅读
    NeurIPS 2023 | 扩散模型解决多任务<b class='flag-5'>强化学习</b>问题

    模拟矩阵在深度强化学习智能控制系统中的应用

    讯维模拟矩阵在深度强化学习智能控制系统中的应用主要是通过构建一个包含多种环境信息和动作空间的模拟矩阵,来模拟和预测深度强化学习智能控制系统在不同环境下的表现和效果,从而优化控制策略和提高系统的性能
    的头像 发表于 09-04 14:26 330次阅读
    模拟矩阵在深度<b class='flag-5'>强化学习</b>智能控制系统中的应用

    机器学习vsm算法

    机器学习vsm算法 随着机器学习技术的不断发展,相似性计算是机器学习中的重要组成部分。在信息检索、文本挖掘、机器翻译等领域中,相似性计算是必
    的头像 发表于 08-17 16:29 580次阅读

    语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路

    在智能体的开发中,强化学习与大语言模型、视觉语言模型等基础模型的进一步融合究竟能擦出怎样的火花?谷歌 DeepMind 给了我们新的答案。 一直以来,DeepMind 引领了强化学习(RL)智能
    的头像 发表于 07-24 16:55 335次阅读
    语言模型做先验,统一<b class='flag-5'>强化学习</b>智能体,DeepMind选择走这条通用AI之路

    增强AI能力:谷歌云在托管数据库中集成向量搜索

    向量嵌入是一种数值表示,通常用于将复杂的用户生成内容(如文本、音频和视频)转换为易于存储、操作和索引的形式。这些表示由嵌入模型生成,如果两个内容在语义上相似,它们各自的
    的头像 发表于 07-19 15:38 302次阅读

    基于强化学习的目标检测算法案例

    摘要:基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为,其产生的候选区域形状和尺寸变化单一,导致目标检测精确度较低。为此,在基于深度强化学习的视觉目标检测算法基础上,提出联合回归与深度
    发表于 07-19 14:35 0次下载

    什么是深度强化学习?深度强化学习算法应用分析

    什么是深度强化学习? 众所周知,人类擅长解决各种挑战性的问题,从低级的运动控制(如:步行、跑步、打网球)到高级的认知任务。
    发表于 07-01 10:29 1188次阅读
    什么是深度<b class='flag-5'>强化学习</b>?深度<b class='flag-5'>强化学习</b>算法应用分析

    人工智能强化学习开源分享

    电子发烧友网站提供《人工智能强化学习开源分享.zip》资料免费下载
    发表于 06-20 09:27 1次下载
    人工智能<b class='flag-5'>强化学习</b>开源分享

    ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

    大模型时代,模型压缩和加速显得尤为重要。传统监督学习可通过稀疏神经网络实现模型压缩和加速,那么同样需要大量计算开销的强化学习任务可以基于稀疏网络进行训练吗?本文提出了一种强化学习专用稀疏训练框架
    的头像 发表于 06-11 21:40 409次阅读
    ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出<b class='flag-5'>强化学习</b>专用稀疏训练框架RLx2

    彻底改变算法交易:强化学习的力量

    强化学习(RL)是人工智能的一个子领域,专注于决策过程。与其他形式的机器学习相比,强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习
    发表于 06-09 09:23 370次阅读

    PyTorch教程15.7之词的相似性和类比

    电子发烧友网站提供《PyTorch教程15.7之词的相似性和类比.pdf》资料免费下载
    发表于 06-05 11:04 0次下载
    PyTorch教程15.7之词的<b class='flag-5'>相似性</b>和类比

    Qdrant不只是高性能向量数据库

    为单词嵌入(word embeddings)组成的向量。通过对这些向量进行计算和比较,机器可以从数据中提取出有用的信息,如相似性、聚类等。
    的头像 发表于 05-11 09:41 1w次阅读
    Qdrant不只是高性能<b class='flag-5'>向量</b>数据库