0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

NeurIPS 2023 | 扩散模型解决多任务强化学习问题

智能感知与物联网技术研究所 来源:未知 2023-10-02 10:45 次阅读

扩散模型(diffusion model)在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习(RL)中来解决序列决策问题,它们主要利用 diffusion model 来建模分布复杂的轨迹或提高策略的表达性。

但是, 这些工作仍然局限于单一任务单一数据集,无法得到能同时解决多种任务的通用智能体。那么,diffusion model 能否解决多任务强化学习问题呢?我们最近提出的一篇新工作——“Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning”,旨在解决这个问题并希望启发后续通用决策智能的研究:

wKgaomUs_uiAPwcVAADyizd-MH8593.png

论文题目:Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning

论文链接:

https://arxiv.org/abs/2305.18459

wKgaomUs_uiARxLWAAAl6LOgh3c813.png

背景

数据驱动的大模型在 CV 和 NLP 领域已经获得巨大成功,我们认为这背后源于模型的强表达性和数据集的多样性和广泛性。基于此,我们将最近出圈的生成式扩散模型(diffusion model)扩展到多任务强化学习领域(multi-task reinforcement learning),利用 large-scale 的离线多任务数据集训练得到通用智能体。 目前解决多任务强化学习的工作大多基于 Transformer 架构,它们通常对模型的规模,数据集的质量都有很高的要求,这对于实际训练来说是代价高昂的。基于 TD-learning 的强化学习方法则常常面临 distribution-shift 的挑战,在多任务数据集下这个问题尤甚,而我们将序列决策过程建模成条件式生成问题(conditional generative process),通过最大化 likelihood 来学习,有效避免了 distribution shift 的问题。

wKgaomUs_umAfPWpAAAuhh9-KLM146.png

方法

具体来说,我们发现 diffusion model 不仅能很好地输出 action 进行实时决策,同样能够建模完整的(s,a,r,s')的 transition 来生成数据进行数据增强提升强化学习策略的性能,具体框架如图所示:

wKgaomUs_umAGc6HAAI2cE1qOKM978.png

对于决策规划任务,我们将模型称为 ;对于数据生成(增强)任务,我们将模型称为 。我们的扩散模型基于 DDPM 的训练方式,利用 损失训练 ,它能够预测逆向过程每一步的噪声 。对于 ,它的损失函数可以表示为:wKgaomUs_umAAA_wAACLlEPXDXA612.png其中wKgaomUs_umAWYSRAAB1Ws6EjIU335.png是轨迹的标准化累积回报,Demonstration Prompt,可以表示为:

wKgaomUs_umAQRwuAAAxxdL7iBY889.png

*表示专家轨迹, 即是从每个任务下的一条或几条专家轨迹采样得到的 时间步长的一段包含状态和动作的轨迹。 classifi-free guidance,并在测试推理过程中生成未来 步长的动作序列,在实验中我们选取第一个动作与环境交互。 对于 ,它的损失函数可以表示为:wKgaomUs_umAUGgDAACK-1SXsoo131.png其中wKgaomUs_umANKHeAACSilxMGYM177.png

wKgaomUs_uqAEzr3AAAq2QW7Bb8589.png

值得注意的是这里我们需要扩散模型建模整个(s,a,r)的完整轨迹,并且由于目标是完成数据生成任务,需要尽可能多样化的数据,不需要模型 condition 在 上,自然也不需要 classifier-free guidance。

wKgaomUs_uqAaGp7AAAtJ0fTuoM419.png

模型结构

为了更好地建模多任务数据,并且统一多样化的输入数据,我们用 transformer 架构替换了传统的 U-Net 网络,网络结构图如下:

wKgaomUs_uqAO-7aAAJyxIMKF6w767.png

▲ 关于模型结构和更多细节,还请参考我们的论文

wKgaomUs_uqAK0WIAAAr2pbNr48494.png

实验

我们首先在 Meta-World MT50 上开展实验并与 baselines 进行比较,我们在两种数据集上进行实验,分别是包含大量专家数据,从 SAC-single-agent 中的 replay buffer 中收集到的 Near-optimal data(100M);以及从 Near-optimal data 中降采样得到基本不包含专家数据的 Sub-optimal data(50M)。实验结果如下:

wKgaomUs_uqACYt7AAPaFsHrZ_A580.png

可以看到我们的方法在同样大小的数据上不仅超越了大多数离线强化学习方法,并且也超过了两种多任务在线强化学习方法,其中 PaCo 是目前的 SOTA 方法。我们的方法通过 classifier-free guidance 得到最优行为,对数据集质量的依赖性不强,在 Sub-optimal data 上的表现相比其他 sequence modeling 的方法有很大提升。 在我们的实验中也观察到 Behavior Cloning(BC)在 Near-optimal data 上和我们的方法相比具有 competitive performance,但 BC 严重依赖数据集质量,在 Sub-optimal data 上性能急剧下降。 在数据增强方面,我们的方法也同样有效,明显提升了数据集的质量以增强策略性能,实验结果如下:wKgaomUs_uuAFGIsAAL17Q96vJY141.png我们选取 45 个任务的 Near-optimal data 训练 ,从表中我们可以观察到在 见过的任务上,我们的方法均取得了最好的性能。甚至给定一段 demonstration prompt, 能泛化到没见过的任务上并取得较好的表现。我们选取四个任务对原数据和 生成的数据做 T-SNE 可视化分析,发现我们生成的数据的分布基本匹配原数据分布,并且在不偏离的基础上扩展了分布,使数据覆盖更加全面。

wKgaomUs_uuASXaRAAQzw2TjRHc660.png

同样也具有泛化性,更多实验分析可以参见论文。

wKgaomUs_uuAeNslAAAtTL4L6hI534.png

总结

我们提出了一种基于扩散模型(diffusion model)的一种新的、通用性强的多任务强化学习解决方案,它不仅可以通过单个模型高效完成多任务决策,而且可以对原数据集进行增强,从而提升各种离线算法的性能。我们未来将把 迁移到更加多样、更加通用的场景,旨在深入挖掘其出色的生成能力和数据建模能力,解决更加困难的任务。同时,我们会将 迁移到真实控制场景,并尝试优化其推理速度以适应某些需要高频控制的任务。


原文标题:NeurIPS 2023 | 扩散模型解决多任务强化学习问题

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2870

    文章

    41659

    浏览量

    358426

原文标题:NeurIPS 2023 | 扩散模型解决多任务强化学习问题

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    【书籍评测活动NO.30】大规模语言模型:从理论到实践

    TOP1的桂冠,可想大家对本书的认可和支持! 这本书为什么如此受欢迎?它究竟讲了什么?下面就给大家详细~~ 本书主要内容 本书围绕大语言模型构建的四个主要阶段——预训练、有监督微调、奖励建模和强化学习
    发表于 03-11 15:16

    一文详解Transformer神经网络模型

    Transformer模型强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程中,通过试错来学习最优的
    发表于 02-20 09:55 2151次阅读
    一文详解Transformer神经网络<b class='flag-5'>模型</b>

    NeurIPS 2023 | AI Agents先行者CAMEL:首个基于大模型的多智能体框架

    AI Agents 是当下大模型领域备受关注的话题,用户可以引入多个扮演不同角色的 LLM Agents 参与到实际的任务中,Agents 之间会进行竞争和协作等多种形式的动态交互,进而产生惊人
    的头像 发表于 11-26 21:25 593次阅读
    <b class='flag-5'>NeurIPS</b> <b class='flag-5'>2023</b> | AI Agents先行者CAMEL:首个基于大<b class='flag-5'>模型</b>的多智能体框架

    什么是强化学习

    的AlphaStar,他们都是强化学习模型。诸如此类的模型还有 AlphaGo Zero 等。 强化学习的原理非常简单,它非常像心理学中新行为主义派的斯金纳发现的操作性条件反射。 操作
    的头像 发表于 10-30 11:36 1661次阅读
    什么是<b class='flag-5'>强化学习</b>

    NeurIPS 2023 | 全新的自监督视觉预训练代理任务:DropPos

    工作, 目前 DropPos 已被 NeurIPS 2023 接收,相关代码已开源,有任何问题欢迎在 GitHub 提出。 TL;DR 我们提出了一种全新的自监督代理任务 DropPos,首先在 ViT
    的头像 发表于 10-15 20:25 333次阅读
    <b class='flag-5'>NeurIPS</b> <b class='flag-5'>2023</b> | 全新的自监督视觉预训练代理<b class='flag-5'>任务</b>:DropPos

    模拟矩阵在深度强化学习智能控制系统中的应用

    。 在深度强化学习智能控制系统中,讯维模拟矩阵可以用来做以下几方面的模拟和预测: 环境模拟:构建多种环境模型,包括不同参数的系统、不同干扰因素等,为深度强化学习智能控制系统提供多样化的训练和测试环境。 控制策略
    的头像 发表于 09-04 14:26 330次阅读
    模拟矩阵在深度<b class='flag-5'>强化学习</b>智能控制系统中的应用

    语言模型做先验,统一强化学习智能体,DeepMind选择走这条通用AI之路

    体的发展,从最早的 AlphaGo、AlphaZero 到后来的多模态、多任务、多具身 AI 智能体 Gato,智能体的训练方法和能力都在不断演进。 从中不难发现,随着大模型越来越成为人工智能发展的主流趋势,DeepMind 在智能体的开发中不断尝试将
    的头像 发表于 07-24 16:55 335次阅读
    语言<b class='flag-5'>模型</b>做先验,统一<b class='flag-5'>强化学习</b>智能体,DeepMind选择走这条通用AI之路

    基于强化学习的目标检测算法案例

    摘要:基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为,其产生的候选区域形状和尺寸变化单一,导致目标检测精确度较低。为此,在基于深度强化学习的视觉目标检测算法基础上,提出联合回归与深度
    发表于 07-19 14:35 0次下载

    什么是深度强化学习?深度强化学习算法应用分析

    什么是深度强化学习? 众所周知,人类擅长解决各种挑战性的问题,从低级的运动控制(如:步行、跑步、打网球)到高级的认知任务
    发表于 07-01 10:29 1188次阅读
    什么是深度<b class='flag-5'>强化学习</b>?深度<b class='flag-5'>强化学习</b>算法应用分析

    人工智能强化学习开源分享

    电子发烧友网站提供《人工智能强化学习开源分享.zip》资料免费下载
    发表于 06-20 09:27 1次下载
    人工智能<b class='flag-5'>强化学习</b>开源分享

    Arduino上的多任务处理

    电子发烧友网站提供《Arduino上的多任务处理.zip》资料免费下载
    发表于 06-14 11:05 0次下载
    Arduino上的<b class='flag-5'>多任务</b>处理

    基于深度强化学习的视觉反馈机械臂抓取系统

    机械臂抓取摆放及堆叠物体是智能工厂流水线上常见的工序,可以有效的提升生产效率,本文针对机械臂的抓取摆放、抓取堆叠等常见任务,结合深度强化学习及视觉反馈,采用AprilTag视觉标签、后视经验回放机制
    的头像 发表于 06-12 11:25 1423次阅读
    基于深度<b class='flag-5'>强化学习</b>的视觉反馈机械臂抓取系统

    ICLR 2023 Spotlight|节省95%训练开销,清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

    模型时代,模型压缩和加速显得尤为重要。传统监督学习可通过稀疏神经网络实现模型压缩和加速,那么同样需要大量计算开销的强化学习
    的头像 发表于 06-11 21:40 409次阅读
    ICLR <b class='flag-5'>2023</b> Spotlight|节省95%训练开销,清华黄隆波团队提出<b class='flag-5'>强化学习</b>专用稀疏训练框架RLx2

    彻底改变算法交易:强化学习的力量

    强化学习(RL)是人工智能的一个子领域,专注于决策过程。与其他形式的机器学习相比,强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习
    发表于 06-09 09:23 370次阅读

    基于多智能体深度强化学习的体系任务分配方法

    为了应对在未来复杂的战场环境下,由于通信受限等原因导致的集中式决策模式难以实施的情况,提出了一个基于多智能体深度强化学习方法的分布式作战体系任务分配算法,该算法为各作战单元均设计一个独立的策略网络
    的头像 发表于 05-18 16:46 2681次阅读
    基于多智能体深度<b class='flag-5'>强化学习</b>的体系<b class='flag-5'>任务</b>分配方法