0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

无需权重更新、微调,Transformer在试错中自主改进!

CVer 来源:机器之心 作者:机器之心 2022-11-02 13:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

DeepMind 表示,他们提出的算法蒸馏(AD)是首个通过对具有模仿损失的离线数据进行顺序建模以展示上下文强化学习的方法。同时基于观察结果开启了一种可能,即任何 RL 算法都可以通过模仿学习蒸馏成足够强大的序列模型如 transformer,并将这些模型转换为上下文 RL 算法。

目前,Transformers 已经成为序列建模的强大神经网络架构。预训练 transformer 的一个显著特性是它们有能力通过提示 conditioning 或上下文学习来适应下游任务。经过大型离线数据集上的预训练之后,大规模 transformers 已被证明可以高效地泛化到文本补全、语言理解和图像生成方面的下游任务。

最近的工作表明,transformers 还可以通过将离线强化学习(RL)视作顺序预测问题,进而从离线数据中学习策略。Chen et al. (2021)的工作表明,transformers 可以通过模仿学习从离线 RL 数据中学习单任务策略,随后的工作表明 transformers 可以在同领域和跨领域设置中提取多任务策略。这些工作都展示了提取通用多任务策略的范式,即首先收集大规模和多样化的环境交互数据集,然后通过顺序建模从数据中提取策略。这类通过模仿学习从离线 RL 数据中学习策略的方法被称为离线策略蒸馏(Offline Policy Distillation)或策略蒸馏(Policy Distillation, PD)。

PD 具有简单性和可扩展性,但它的一大缺点是生成的策略不会在与环境的额外交互中逐步改进。举例而言,谷歌的通才智能体 Multi-Game Decision Transformers 学习了一个可以玩很多 Atari 游戏的返回条件式(return-conditioned)策略,而 DeepMind 的通才智能体 Gato 通过上下文任务推理来学习一个解决多样化环境中任务的策略。遗憾的是,这两个智能体都不能通过试错来提升上下文中的策略。因此 PD 方法学习的是策略而不是强化学习算法。

在近日 DeepMind 的一篇论文中,研究者假设 PD 没能通过试错得到改进的原因是它训练用的数据无法显示学习进度。当前方法要么从不含学习的数据中学习策略(例如通过蒸馏固定专家策略),要么从包含学习的数据中学习策略(例如 RL 智能体的重放缓冲区),但后者的上下文大小(太小)无法捕获策略改进。

09a7e5e2-5a56-11ed-a3b6-dac502259ad0.png

论文地址:https://arxiv.org/pdf/2210.14215.pdf

研究者的主要观察结果是,RL 算法训练中学习的顺序性在原则上可以将强化学习本身建模为一个因果序列预测问题。具体地,如果一个 transformer 的上下文足够长,包含了由学习更新带来的策略改进,那么它不仅应该可以表示一个固定策略,而且能够通过关注之前 episodes 的状态、动作和奖励来表示一个策略改进算子。这样开启了一种可能性,即任何 RL 算法都可以通过模仿学习蒸馏成足够强大的序列模型如 transformer,并将这些模型转换为上下文 RL 算法。

研究者提出了算法蒸馏(Algorithm Distillation, AD),这是一种通过优化 RL 算法学习历史中因果序列预测损失来学习上下文策略改进算子的方法。如下图 1 所示,AD 由两部分组成。首先通过保存 RL 算法在大量单独任务上的训练历史来生成大型多任务数据集,然后 transformer 模型通过将前面的学习历史用作其上下文来对动作进行因果建模。由于策略在源 RL 算法的训练过程中持续改进,因此 AD 不得不学习改进算子以便准确地建模训练历史中任何给定点的动作。至关重要的一点是,transformer 上下文必须足够大(即 across-episodic)才能捕获训练数据的改进。

09d0f98c-5a56-11ed-a3b6-dac502259ad0.png

研究者表示,通过使用足够大上下文的因果 transformer 来模仿基于梯度的 RL 算法,AD 完全可以在上下文中强化新任务学习。研究者在很多需要探索的部分可观察环境中评估了 AD,包括来自 DMLab 的基于像素的 Watermaze,结果表明 AD 能够进行上下文探索、时序信度分配和泛化。此外,AD 学习到的算法比生成 transformer 训练源数据的算法更加高效。

最后值得关注的是,AD 是首个通过对具有模仿损失的离线数据进行顺序建模以展示上下文强化学习的方法。

09e3bf54-5a56-11ed-a3b6-dac502259ad0.gif

方法

在生命周期内,强化学习智能体需要在执行复杂的动作方面表现良好。对智能体而言,不管它所处的环境、内部结构和执行情况如何,都可以被视为是在过去经验的基础上完成的。可用如下形式表示:

0a0e04e4-5a56-11ed-a3b6-dac502259ad0.png

研究者同时将「长期历史条件, long history-conditioned」策略看作一种算法,得出:

0a19ed36-5a56-11ed-a3b6-dac502259ad0.png

其中∆(A)表示动作空间 A 上的概率分布空间。公式 (3) 表明,该算法可以在环境中展开,以生成观察、奖励和动作序列。为了简单起见,该研究将算法用 P 表示,将环境(即任务)用0a25de7a-5a56-11ed-a3b6-dac502259ad0.png的学习历史都是由算法0a25de7a-5a56-11ed-a3b6-dac502259ad0.png表示,这样对于任何给定任务0a3c7676-5a56-11ed-a3b6-dac502259ad0.png生成的。可以得到

0a42dab6-5a56-11ed-a3b6-dac502259ad0.png

研究者用大写拉丁字母表示随机变量,例如 O、A、R 及其对应的小写形式 o,α,r。通过将算法视为长期历史条件策略,他们假设任何生成学习历史的算法都可以通过对动作执行行为克隆来转换成神经网络。接下来,该研究提出了一种方法,该方法提供了智能体在生命周期内学习具有行为克隆的序列模型,以将长期历史映射到动作分布。

实际执行

在实践中,该研究将算法蒸馏过程 ( algorithm distillation ,AD)实现为一个两步过程。首先,通过在许多不同的任务上运行单独的基于梯度的 RL 算法来收集学习历史数据集。接下来,训练具有多情节上下文的序列模型来预测历史中的动作。具体算法如下所示:

0a4cd642-5a56-11ed-a3b6-dac502259ad0.png

实验

实验要求所使用的环境都支持许多任务,而这些任务不能从观察中轻易的进行推断,并且情节(episodes)足够短,可以有效地训练跨情节因果 transformers。这项工作的主要目的是调查相对于先前工作,AD 强化在多大程度上是在上下文中学习的。实验将 AD、 ED( Expert Distillation) 、RL^2 等进行了比较。

评估 AD、ED、 RL^2 结果如图 3 所示。该研究发现 AD 和 RL^2 都可以在上下文中学习从训练分布中采样的任务,而 ED 则不能,尽管 ED 在分布内评估时确实比随机猜测做得更好。

0a6819e8-5a56-11ed-a3b6-dac502259ad0.png

围绕下图 4,研究者回答了一系列问题。AD 是否表现出上下文强化学习?结果表明 AD 上下文强化学习在所有环境中都能学习,相比之下,ED 在大多数情况下都无法在上下文中探索和学习。

AD 能从基于像素的观察中学习吗?结果表明 AD 通过上下文 RL 最大化了情景回归,而 ED 则不能学习。

AD 是否可以学习一种比生成源数据的算法更有效的 RL 算法?结果表明 AD 的数据效率明显高于源算法(A3C 和 DQN)。

0a7f2692-5a56-11ed-a3b6-dac502259ad0.png

是否可以通过演示来加速 AD?为了回答这个问题,该研究保留测试集数据中沿源算法历史的不同点采样策略,然后,使用此策略数据预先填充 AD 和 ED 的上下文,并在 Dark Room 的环境中运行这两种方法,将结果绘制在图 5 中。虽然 ED 保持了输入策略的性能,AD 在上下文中改进每个策略,直到它接近最优。重要的是,输入策略越优化,AD 改进它的速度就越快,直到达到最优。

0aa88f6e-5a56-11ed-a3b6-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 神经网络
    +关注

    关注

    42

    文章

    4845

    浏览量

    108373
  • 数据集
    +关注

    关注

    4

    文章

    1242

    浏览量

    26298
  • DeepMind
    +关注

    关注

    0

    文章

    131

    浏览量

    12464

原文标题:DeepMind新作!无需权重更新、微调,Transformer在试错中自主改进!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    零基础手写大模型资料2026

    。这种矩阵运算模式贯穿整个模型,包括注意力计算、前馈网络等核心组件。 2. 注意力机制:动态权重分配 Transformer的核心创新在于自注意力(Self-Attention)机制。对于输入序列的每个
    发表于 05-01 17:44

    AI大模型微调企业项目实战课

    自主可控大模型:企业微调实战课,筑牢未来 AI 底座 人工智能席卷全球商业版图的今天,企业对大模型(LLM)的态度已经从“新奇观望”转变为“全面拥抱”。然而,随着应用层面的不断深入,一个严峻
    发表于 04-16 18:48

    电子工程师视角下的SAFETY ISOLATING TRANSFORMER

    电子工程师视角下的SAFETY ISOLATING TRANSFORMER 一、产品概述 电子设备的设计,安全始终是重中之重。今天要介绍的这款SAFETY ISOLATING
    的头像 发表于 04-08 16:20 176次阅读

    Transformer 入门:从零理解 AI 大模型的核心原理

    │ │ 456 │→ │ 25 │ └─────────┘│ 36 │ (2×3) └─────────┘ (3×2) 记忆技巧:想象沿着对角线折叠纸张。 Transformer 的应用:计算注意力分数
    发表于 02-10 16:33

    Transformer如何让自动驾驶大模型获得思考能力?

    在谈及自动驾驶时,Transformer一直是非常关键的技术,为何Transformer自动驾驶行业一直被提及?
    的头像 发表于 02-01 09:15 4481次阅读

    智能机器狗革命!V Bot发布新品:无需遥控,自主跑腿拿快递

    电子发烧友网报道(文/莫婷婷)近日,维他动力(V Bot)正式发布其首款消费级 具身智能 产品无需遥控的智能机器狗大头BoBo。该产品硬件配置、续航能力、安全设计上实现新突破,首次消费级产品
    的头像 发表于 12-28 09:57 6715次阅读

    亚马逊云科技扩展模型选择 Amazon Bedrock新增18款开放权重模型

    亚马逊云科技2025 re:Invent全球大会上宣布Amazon Bedrock中新增18款开放权重模型,进一步强化其提供广泛全托管模型选择的承诺。Amazon Bedrock使客户能够
    的头像 发表于 12-13 13:53 957次阅读

    用拼多多 API 实现拼多多店铺商品搜索权重提升

    电商平台如拼多多上,商品搜索权重直接影响曝光率和销量。权重高的商品更容易出现在搜索结果前列,吸引更多用户点击。通过拼多多 API(应用程序接口),卖家可以自动化优化商品信息,提升搜索权重
    的头像 发表于 08-19 17:23 1155次阅读
    用拼多多 API 实现拼多多店铺商品搜索<b class='flag-5'>权重</b>提升

    自动驾驶Transformer大模型会取代深度学习吗?

    持续讨论。特别是自动驾驶领域,部分厂商开始尝试将多模态大模型(MLLM)引入到感知、规划与决策系统,引发了“传统深度学习是否已过时”的激烈争论。然而,从技术原理、算力成本、安全需求与实际落地路径等维度来看,Transformer与深度学习并非你死我活的替代
    的头像 发表于 08-13 09:15 4456次阅读
    自动驾驶<b class='flag-5'>中</b><b class='flag-5'>Transformer</b>大模型会取代深度学习吗?

    亚马逊云科技现已上线OpenAI开放权重模型

    客户现可通过Amazon Bedrock和Amazon SageMaker AI使用OpenAI开放权重模型,实现将先进的开放权重模型与全球最广泛云服务的深度集成。 亚马逊云科技首次上线OpenAI
    的头像 发表于 08-06 19:29 1024次阅读

    Transformer端到端自动驾驶架构是何定位?

    典型的Transformer架构已被用于构建“感知-规划-控制统一建模”的方案。如Waymo和小马智行正在研发的多模态大模型(MultimodalLargeModels,MLLMs),将来自摄像头
    的头像 发表于 08-03 11:03 1599次阅读

    Android 16更新亮点介绍

    Android 近期整个平台上推出了一系列更新,包括:发布 Android 16 并为开发者和用户提供详细信息,推出改进外接显示设备上 Android 桌面体验的开发者预览版,为 Google
    的头像 发表于 07-05 11:37 4036次阅读

    Transformer架构编码器的工作流程

    编码器是Transformer体系结构的基本组件。编码器的主要功能是将输入标记转换为上下文表示。与早期独立处理token的模型不同,Transformer编码器根据整个序列捕获每个token的上下文。
    的头像 发表于 06-10 14:27 1285次阅读
    <b class='flag-5'>Transformer</b>架构<b class='flag-5'>中</b>编码器的工作流程

    改进的BP网络PID控制器无刷直流电机的应用

    具有响应速度快、精确性高和稳定性强等特点。纯分享帖,需要者可点击附件免费获取完整资料~~~*附件:改进的BP网络PID控制器无刷直流电机的应用.pdf【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉
    发表于 05-28 15:42

    改进GPC算法永磁同步电机控制系统的应用

    实际电机的相关参数一致,且动态及稳态性能良好。纯分享帖,需要者可点击附件免费获取完整资料~~~*附件:改进GPC算法永磁同步电机控制系统的应用.pdf【免责声明】本文系网络转载,版权归原作者所有。本文所用视频、图片、文字如涉
    发表于 05-28 15:41