0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MoDem解决了视觉强化学习领域的三个挑战

OpenCV学堂 来源:新智元 2023-01-05 11:24 次阅读

【导读】MetaAI这次发布的MoDem解决了视觉强化学习领域的三个挑战,无需解码器,效率最高提升250%,一起看看它有多牛。

12月27日,MetaAI 负责视觉和强化学习领域的A

eaf4d14c-8c5e-11ed-bfe3-dac502259ad0.png

截止27日晚间,这篇推文的阅读量已经达到73.9k。

eafc10a6-8c5e-11ed-bfe3-dac502259ad0.png

他表示,仅给出5个演示,MoDem就能在100K交互步骤中解决具有稀疏奖励和高维动作空间的具有挑战性的视觉运动控制任务,大大优于现有的最先进方法。

有多优秀呢?

他们发现MoDem在完成稀疏奖励任务方面的成功率比低数据机制中的先前方法高出150%-250%。

eb0169a2-8c5e-11ed-bfe3-dac502259ad0.png

Lecun也转发了这一研究,表示MoDem的模型架构类似于JEPA,可在表征空间做出预测且无需解码器。

eb0df6c2-8c5e-11ed-bfe3-dac502259ad0.png

链接小编就放在下面啦,有兴趣的小伙伴可以看看~

eb17ae42-8c5e-11ed-bfe3-dac502259ad0.png

论文链接:https://arxiv.org/abs/2212.05698

Github链接:https://github.com/facebookresearch/modem

研究创新和模型架构

样本效率低下是实际应用部署深度强化学习 (RL) 算法的主要挑战,尤其是视觉运动控制。

基于模型的RL有可能通过同时学习世界模型并使用合成部署来进行规划和政策改进,从而实现高样本效率。

然而在实践中,基于模型的RL的样本高效学习受到探索挑战的瓶颈,这次研究恰恰解决了这些主要挑战。

首先,MoDem分别通过使用世界模型、模仿+RL和自监督视觉预训练,解决了视觉强化学习/控制领域的三个主要挑战:

大样本复杂性(Large sample complexity)

高维状态和动作空间探索(Exploration in high-dimensional state and action space)

同步视觉表征和行为学习(Simultaneous learning of visual representations and behaviors)

eb22ced0-8c5e-11ed-bfe3-dac502259ad0.png

这次的模型架构类似于Yann LeCun的JEPA,并且无需解码器。

作者Aravind Rajeswaran表示,相比Dreamer需要像素级预测的解码器,架构繁重,无解码器架构可支持直接插入使用SSL预训练的视觉表示。

eb2abf6e-8c5e-11ed-bfe3-dac502259ad0.png

此外基于IL+RL,他们提出了一个三阶段算法:

BC预训练策略

使用包含演示和探索的种子数据集预训练世界模型,此阶段对于整体稳定性和效率很重要

通过在线互动微调世界模型

eb34d1b6-8c5e-11ed-bfe3-dac502259ad0.png

结果显示,生成的算法在21个硬视觉运动控制任务中取得了SOTA结果(State-Of-The-Art result),包括Adroit灵巧操作、MetaWorld和DeepMind控制套件。

从数据上来看,MoDem在各项任务中的表现远远优于其他模型,结果比之前的SOTA方法提升了150%到250%。

eb3f2a3a-8c5e-11ed-bfe3-dac502259ad0.png

红色线条为MoDem在各项任务中的表现

在此过程中,他们还阐明了MoDem中不同阶段的重要性、数据增强对视觉MBRL的重要性以及预训练视觉表示的实用性。

最后,使用冻结的 R3M 功能远远优于直接的 E2E 方法。这很令人兴奋,表明视频中的视觉预训练可以支持世界模型。

但8月数据强劲的E2E与冻结的R3M竞争,我们可以通过预训练做得更好。

eb5281de-8c5e-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1103

    浏览量

    40434
  • Meta
    +关注

    关注

    0

    文章

    230

    浏览量

    11250
  • 强化学习
    +关注

    关注

    4

    文章

    263

    浏览量

    11157

原文标题:Meta推出MoDem世界模型:解决视觉领域三大挑战,LeCun转发

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基本理想电路元件的三个特征是什么

    基本理想电路元件是构成电路的基本单元,它们具有三个基本特征:电压-电流关系、能量转换和电路参数。以下是对这三个特征的分析: 电压-电流关系 理想电路元件的电压-电流关系是其最基本的特征之一。这种关系
    的头像 发表于 08-25 09:38 295次阅读

    简述极管的三个工作区域

    极管的三个区域,通常指的是其在不同工作条件下的状态区域,即截止区、放大区和饱和区。这三个区域定义极管在不同电压和电流条件下的行为特性,
    的头像 发表于 07-29 10:50 813次阅读

    可调变阻器三个引脚怎么区分

    可调变阻器,也称为电位器或可变电阻器,是一种可以调节电阻值的电子元件。它广泛应用于各种电子设备中,如音频设备、电源管理、电机控制等。可调变阻器有三个引脚,分别是固定端、滑动端和可调端。这三个引脚
    的头像 发表于 07-24 11:12 359次阅读

    如何判断ebc三个电极电压

    在电化学领域,电化学电池(Electrochemical Battery Cell,简称EBC)是一种将化学能转化为电能的装置。EBC由三个
    的头像 发表于 07-18 15:41 282次阅读

    机器人视觉可以分为哪三个部分?

    机器人视觉是机器人技术中的一重要分支,它涉及到图像处理、计算机视觉、机器学习等多个领域。机器人视觉
    的头像 发表于 07-04 11:17 363次阅读

    深度学习在计算机视觉领域的应用

    随着人工智能技术的飞速发展,深度学习作为其中的核心技术之一,已经在计算机视觉领域取得了显著的成果。计算机视觉,作为计算机科学的一重要分支,
    的头像 发表于 07-01 11:38 421次阅读

    通过强化学习策略进行特征选择

    更快更好地学习。我们的想法是找到最优数量的特征和最有意义的特征。在本文中,我们将介绍并实现一种新的通过强化学习策略的特征选择。我们先讨论强化学习,尤其是马尔可夫决策
    的头像 发表于 06-05 08:27 212次阅读
    通过<b class='flag-5'>强化学习</b>策略进行特征选择

    微波测量的三个基本参量是什么

    微波测量是电子工程领域中的一重要分支,它涉及到对微波信号的频率、幅度、相位等参数的测量。在微波测量中,有三个基本参量:频率、幅度和相位。这三个参量是微波信号的基本特征,对于微波系统的
    的头像 发表于 05-28 14:46 587次阅读

    如何判断极管的三个极性

    极管是电子电路中的基本元件之一,其性能的好坏直接影响到整个电路的性能。而判断极管的三个极性(基极b、发射极e、集电极c)是电路分析和设计中不可或缺的一步。下面将详细介绍判断极管
    的头像 发表于 05-21 15:26 3718次阅读

    篱笆三个桩——记晶体极管的发明

    篱笆三个桩——记晶体极管的发明
    的头像 发表于 05-12 08:14 398次阅读
    一<b class='flag-5'>个</b>篱笆<b class='flag-5'>三个</b>桩——记晶体<b class='flag-5'>三</b>极管的发明

    linux关机的三个命令

    在Linux系统中,常用的关机命令有三个:shutdown、poweroff和halt。下面是对这三个命令的详细解释: shutdown命令 shutdown命令用于在指定的时间或条件下关闭计算机
    的头像 发表于 11-26 15:33 1811次阅读

    mos管三个引脚怎么区分

    mos管三个引脚怎么区分  MOS管是一种常见的电子元件,它被广泛应用于各种电子设备中。MOS管通常具有三个引脚,即栅极(Gate)、源极(Source)和漏极(Drain)。这三个引脚在MOS管
    的头像 发表于 11-22 16:51 6339次阅读

    什么是强化学习

    强化学习是机器学习的方式之一,它与监督学习、无监督学习并列,是种机器学习训练方法之一。 在围棋
    的头像 发表于 10-30 11:36 3414次阅读
    什么是<b class='flag-5'>强化学习</b>

    NeurIPS 2023 | 扩散模型解决多任务强化学习问题

    扩散模型(diffusion model)在 CV 领域甚至 NLP 领域都已经有令人印象深刻的表现。最近的一些工作开始将 diffusion model 用于强化学习(RL)中来解
    的头像 发表于 10-02 10:45 652次阅读
    NeurIPS 2023 | 扩散模型解决多任务<b class='flag-5'>强化学习</b>问题

    mosfet的三个电极怎么区分 mos管三个极电压关系

    MOSFET(金属氧化物半导体场效应晶体管)有三个主要电极,分别是栅极(Gate)、漏极(Source)和源极(Drain)。这三个电极的区分方法如下
    的头像 发表于 09-18 12:42 2.9w次阅读