NeurIPS 2023 | 扩散模型解决多任务强化学习问题-电子发烧友网

扩散模型（diffusion model）在 CV 领域甚至 NLP 领域都已经有了令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习（RL）中来解决序列决策问题，它们主要利用 diffusion model 来建模分布复杂的轨迹或提高策略的表达性。

但是，这些工作仍然局限于单一任务单一数据集，无法得到能同时解决多种任务的通用智能体。那么，diffusion model 能否解决多任务强化学习问题呢？我们最近提出的一篇新工作——“Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning”，旨在解决这个问题并希望启发后续通用决策智能的研究：

论文题目：Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning

论文链接：

https://arxiv.org/abs/2305.18459

背景

数据驱动的大模型在 CV 和 NLP 领域已经获得巨大成功，我们认为这背后源于模型的强表达性和数据集的多样性和广泛性。基于此，我们将最近出圈的生成式扩散模型（diffusion model）扩展到多任务强化学习领域（multi-task reinforcement learning），利用 large-scale 的离线多任务数据集训练得到通用智能体。目前解决多任务强化学习的工作大多基于 Transformer 架构，它们通常对模型的规模，数据集的质量都有很高的要求，这对于实际训练来说是代价高昂的。基于 TD-learning 的强化学习方法则常常面临 distribution-shift 的挑战，在多任务数据集下这个问题尤甚，而我们将序列决策过程建模成条件式生成问题（conditional generative process），通过最大化 likelihood 来学习，有效避免了 distribution shift 的问题。

方法

具体来说，我们发现 diffusion model 不仅能很好地输出 action 进行实时决策，同样能够建模完整的（s,a,r,s'）的 transition 来生成数据进行数据增强提升强化学习策略的性能，具体框架如图所示：

对于决策规划任务，我们将模型称为；对于数据生成（增强）任务，我们将模型称为。我们的扩散模型基于 DDPM 的训练方式，利用损失训练，它能够预测逆向过程每一步的噪声。对于，它的损失函数可以表示为：

其中

是轨迹的标准化累积回报，是 Demonstration Prompt，可以表示为：

*表示专家轨迹，即是从每个任务下的一条或几条专家轨迹采样得到的时间步长的一段包含状态和动作的轨迹。对做 classifi-free guidance，并在测试推理过程中生成未来步长的动作序列，在实验中我们选取第一个动作与环境交互。对于，它的损失函数可以表示为：

其中

值得注意的是这里我们需要扩散模型建模整个（s,a,r）的完整轨迹，并且由于目标是完成数据生成任务，需要尽可能多样化的数据，不需要模型 condition 在上，自然也不需要 classifier-free guidance。

模型结构

为了更好地建模多任务数据，并且统一多样化的输入数据，我们用 transformer 架构替换了传统的 U-Net 网络，网络结构图如下：

▲ 关于模型结构和更多细节，还请参考我们的论文

实验

我们首先在 Meta-World MT50 上开展实验并与 baselines 进行比较，我们在两种数据集上进行实验，分别是包含大量专家数据，从 SAC-single-agent 中的 replay buffer 中收集到的 Near-optimal data（100M）；以及从 Near-optimal data 中降采样得到基本不包含专家数据的 Sub-optimal data（50M）。实验结果如下：

可以看到我们的方法在同样大小的数据上不仅超越了大多数离线强化学习方法，并且也超过了两种多任务在线强化学习方法，其中 PaCo 是目前的 SOTA 方法。我们的方法通过 classifier-free guidance 得到最优行为，对数据集质量的依赖性不强，在 Sub-optimal data 上的表现相比其他 sequence modeling 的方法有很大提升。在我们的实验中也观察到 Behavior Cloning（BC）在 Near-optimal data 上和我们的方法相比具有 competitive performance，但 BC 严重依赖数据集质量，在 Sub-optimal data 上性能急剧下降。在数据增强方面，我们的方法也同样有效，明显提升了数据集的质量以增强策略性能，实验结果如下：

我们选取 45 个任务的 Near-optimal data 训练，从表中我们可以观察到在见过的任务上，我们的方法均取得了最好的性能。甚至给定一段 demonstration prompt，能泛化到没见过的任务上并取得较好的表现。我们选取四个任务对原数据和生成的数据做 T-SNE 可视化分析，发现我们生成的数据的分布基本匹配原数据分布，并且在不偏离的基础上扩展了分布，使数据覆盖更加全面。

同样也具有泛化性，更多实验分析可以参见论文。

总结

我们提出了一种基于扩散模型（diffusion model）的一种新的、通用性强的多任务强化学习解决方案，它不仅可以通过单个模型高效完成多任务决策，而且可以对原数据集进行增强，从而提升各种离线算法的性能。我们未来将把迁移到更加多样、更加通用的场景，旨在深入挖掘其出色的生成能力和数据建模能力，解决更加困难的任务。同时，我们会将迁移到真实控制场景，并尝试优化其推理速度以适应某些需要高频控制的任务。

原文标题：NeurIPS 2023 | 扩散模型解决多任务强化学习问题

文章出处：【微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

物联网

物联网

+关注

关注
2870

文章
41659

浏览量
358426

原文标题：NeurIPS 2023 | 扩散模型解决多任务强化学习问题

文章出处：【微信号：tyutcsplab，微信公众号：智能感知与物联网技术研究所】欢迎添加关注！文章转载请注明出处。

【书籍评测活动NO.30】大规模语言模型：从理论到实践

TOP1的桂冠，可想大家对本书的认可和支持！这本书为什么如此受欢迎？它究竟讲了什么？下面就给大家详细~~ 本书主要内容本书围绕大语言模型构建的四个主要阶段——预训练、有监督微调、奖励建模和强化学习

发表于 03-11 15:16

一文详解Transformer神经网络模型

Transformer模型在强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程中，通过试错来学习最优的

发表于 02-20 09:55 •2151次阅读

一文详解Transformer神经网络<b class='flag-5'>模型</b>

NeurIPS 2023 | AI Agents先行者CAMEL：首个基于大模型的多智能体框架

AI Agents 是当下大模型领域备受关注的话题，用户可以引入多个扮演不同角色的 LLM Agents 参与到实际的任务中，Agents 之间会进行竞争和协作等多种形式的动态交互，进而产生惊人

发表于 11-26 21:25 •593次阅读

<b class='flag-5'>NeurIPS</b> <b class='flag-5'>2023</b> | AI Agents先行者CAMEL：首个基于大<b class='flag-5'>模型</b>的多智能体框架

什么是强化学习

的AlphaStar，他们都是强化学习模型。诸如此类的模型还有 AlphaGo Zero 等。 强化学习的原理非常简单，它非常像心理学中新行为主义派的斯金纳发现的操作性条件反射。操作

发表于 10-30 11:36 •1661次阅读

NeurIPS 2023 | 全新的自监督视觉预训练代理任务：DropPos

工作，目前 DropPos 已被 NeurIPS 2023 接收，相关代码已开源，有任何问题欢迎在 GitHub 提出。 TL;DR 我们提出了一种全新的自监督代理任务 DropPos，首先在 ViT

发表于 10-15 20:25 •333次阅读

<b class='flag-5'>NeurIPS</b> <b class='flag-5'>2023</b> | 全新的自监督视觉预训练代理<b class='flag-5'>任务</b>：DropPos

模拟矩阵在深度强化学习智能控制系统中的应用

。在深度强化学习智能控制系统中，讯维模拟矩阵可以用来做以下几方面的模拟和预测：环境模拟：构建多种环境模型，包括不同参数的系统、不同干扰因素等，为深度强化学习智能控制系统提供多样化的训练和测试环境。控制策略

发表于 09-04 14:26 •330次阅读

模拟矩阵在深度<b class='flag-5'>强化学习</b>智能控制系统中的应用

语言模型做先验，统一强化学习智能体，DeepMind选择走这条通用AI之路

体的发展，从最早的 AlphaGo、AlphaZero 到后来的多模态、多任务、多具身 AI 智能体 Gato，智能体的训练方法和能力都在不断演进。从中不难发现，随着大模型越来越成为人工智能发展的主流趋势，DeepMind 在智能体的开发中不断尝试将

发表于 07-24 16:55 •335次阅读

语言<b class='flag-5'>模型</b>做先验，统一<b class='flag-5'>强化学习</b>智能体，DeepMind选择走这条通用AI之路

基于强化学习的目标检测算法案例

摘要：基于强化学习的目标检测算法在检测过程中通常采用预定义搜索行为，其产生的候选区域形状和尺寸变化单一，导致目标检测精确度较低。为此，在基于深度强化学习的视觉目标检测算法基础上，提出联合回归与深度

发表于 07-19 14:35 •0次下载

什么是深度强化学习?深度强化学习算法应用分析

什么是深度强化学习? 众所周知，人类擅长解决各种挑战性的问题，从低级的运动控制(如：步行、跑步、打网球)到高级的认知任务。

发表于 07-01 10:29 •1188次阅读

什么是深度<b class='flag-5'>强化学习</b>?深度<b class='flag-5'>强化学习</b>算法应用分析

人工智能强化学习开源分享

电子发烧友网站提供《人工智能强化学习开源分享.zip》资料免费下载

发表于 06-20 09:27 •1次下载

Arduino上的多任务处理

电子发烧友网站提供《Arduino上的多任务处理.zip》资料免费下载

发表于 06-14 11:05 •0次下载

基于深度强化学习的视觉反馈机械臂抓取系统

机械臂抓取摆放及堆叠物体是智能工厂流水线上常见的工序，可以有效的提升生产效率，本文针对机械臂的抓取摆放、抓取堆叠等常见任务，结合深度强化学习及视觉反馈，采用AprilTag视觉标签、后视经验回放机制

发表于 06-12 11:25 •1423次阅读

基于深度<b class='flag-5'>强化学习</b>的视觉反馈机械臂抓取系统

ICLR 2023 Spotlight｜节省95%训练开销，清华黄隆波团队提出强化学习专用稀疏训练框架RLx2

大模型时代，模型压缩和加速显得尤为重要。传统监督学习可通过稀疏神经网络实现模型压缩和加速，那么同样需要大量计算开销的强化学习

发表于 06-11 21:40 •409次阅读

ICLR <b class='flag-5'>2023</b> Spotlight｜节省95%训练开销，清华黄隆波团队提出<b class='flag-5'>强化学习</b>专用稀疏训练框架RLx2

彻底改变算法交易：强化学习的力量

强化学习（RL）是人工智能的一个子领域，专注于决策过程。与其他形式的机器学习相比，强化学习模型通过与环境交互并以奖励或惩罚的形式接收反馈来学习

发表于 06-09 09:23 •370次阅读

基于多智能体深度强化学习的体系任务分配方法

为了应对在未来复杂的战场环境下，由于通信受限等原因导致的集中式决策模式难以实施的情况，提出了一个基于多智能体深度强化学习方法的分布式作战体系任务分配算法，该算法为各作战单元均设计一个独立的策略网络

发表于 05-18 16:46 •2681次阅读

搜索历史

NeurIPS 2023 | 扩散模型解决多任务强化学习问题

背景

方法