0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MoDem解决了视觉强化学习领域的三个挑战

OpenCV学堂 来源:新智元 2023-01-05 11:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【导读】MetaAI这次发布的MoDem解决了视觉强化学习领域的三个挑战,无需解码器,效率最高提升250%,一起看看它有多牛。

12月27日,MetaAI 负责视觉和强化学习领域的A

eaf4d14c-8c5e-11ed-bfe3-dac502259ad0.png

截止27日晚间,这篇推文的阅读量已经达到73.9k。

eafc10a6-8c5e-11ed-bfe3-dac502259ad0.png

他表示,仅给出5个演示,MoDem就能在100K交互步骤中解决具有稀疏奖励和高维动作空间的具有挑战性的视觉运动控制任务,大大优于现有的最先进方法。

有多优秀呢?

他们发现MoDem在完成稀疏奖励任务方面的成功率比低数据机制中的先前方法高出150%-250%。

eb0169a2-8c5e-11ed-bfe3-dac502259ad0.png

Lecun也转发了这一研究,表示MoDem的模型架构类似于JEPA,可在表征空间做出预测且无需解码器。

eb0df6c2-8c5e-11ed-bfe3-dac502259ad0.png

链接小编就放在下面啦,有兴趣的小伙伴可以看看~

eb17ae42-8c5e-11ed-bfe3-dac502259ad0.png

论文链接:https://arxiv.org/abs/2212.05698

Github链接:https://github.com/facebookresearch/modem

研究创新和模型架构

样本效率低下是实际应用部署深度强化学习 (RL) 算法的主要挑战,尤其是视觉运动控制。

基于模型的RL有可能通过同时学习世界模型并使用合成部署来进行规划和政策改进,从而实现高样本效率。

然而在实践中,基于模型的RL的样本高效学习受到探索挑战的瓶颈,这次研究恰恰解决了这些主要挑战。

首先,MoDem分别通过使用世界模型、模仿+RL和自监督视觉预训练,解决了视觉强化学习/控制领域的三个主要挑战:

大样本复杂性(Large sample complexity)

高维状态和动作空间探索(Exploration in high-dimensional state and action space)

同步视觉表征和行为学习(Simultaneous learning of visual representations and behaviors)

eb22ced0-8c5e-11ed-bfe3-dac502259ad0.png

这次的模型架构类似于Yann LeCun的JEPA,并且无需解码器。

作者Aravind Rajeswaran表示,相比Dreamer需要像素级预测的解码器,架构繁重,无解码器架构可支持直接插入使用SSL预训练的视觉表示。

eb2abf6e-8c5e-11ed-bfe3-dac502259ad0.png

此外基于IL+RL,他们提出了一个三阶段算法:

BC预训练策略

使用包含演示和探索的种子数据集预训练世界模型,此阶段对于整体稳定性和效率很重要

通过在线互动微调世界模型

eb34d1b6-8c5e-11ed-bfe3-dac502259ad0.png

结果显示,生成的算法在21个硬视觉运动控制任务中取得了SOTA结果(State-Of-The-Art result),包括Adroit灵巧操作、MetaWorld和DeepMind控制套件。

从数据上来看,MoDem在各项任务中的表现远远优于其他模型,结果比之前的SOTA方法提升了150%到250%。

eb3f2a3a-8c5e-11ed-bfe3-dac502259ad0.png

红色线条为MoDem在各项任务中的表现

在此过程中,他们还阐明了MoDem中不同阶段的重要性、数据增强对视觉MBRL的重要性以及预训练视觉表示的实用性。

最后,使用冻结的 R3M 功能远远优于直接的 E2E 方法。这很令人兴奋,表明视频中的视觉预训练可以支持世界模型。

但8月数据强劲的E2E与冻结的R3M竞争,我们可以通过预训练做得更好。

eb5281de-8c5e-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1204

    浏览量

    42877
  • Meta
    +关注

    关注

    0

    文章

    316

    浏览量

    12349
  • 强化学习
    +关注

    关注

    4

    文章

    269

    浏览量

    11905

原文标题:Meta推出MoDem世界模型:解决视觉领域三大挑战,LeCun转发

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    大系列课程,形成\"传统视觉算法→深度学习建模→工业级部署\"的完整技术链,不论是新手、老手都适合学习。 1. 新手入门 课程通过层保障体系降低
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战可(11大系列课程,共5000+分钟)

    ) 团购课程适合什么人学? 本次团购课程整合11大系列课程,形成\"传统视觉算法→深度学习建模→工业级部署\"的完整技术链,不论是新手、老手都适合学习。 1. 新手入门 课程通过
    发表于 12-03 13:50

    今日看点:智元推出真机强化学习;美国软件公司SAS退出中国市场

    智元推出真机强化学习,机器人训练周期从“数周”减至“数十分钟”   近日,智元机器人宣布其研发的真机强化学习技术,已在与龙旗科技合作的验证产线中成功落地。据介绍,此次落地的真机强化学习方案,机器人
    发表于 11-05 09:44 908次阅读

    自动驾驶中常提的“强化学习”是啥?

    下,就是一智能体在环境里行动,它能观察到环境的一些信息,并做出一动作,然后环境会给出一反馈(奖励或惩罚),智能体的目标是把长期得到的奖励累积到最大。和监督学习不同,
    的头像 发表于 10-23 09:00 336次阅读
    自动驾驶中常提的“<b class='flag-5'>强化学习</b>”是<b class='flag-5'>个</b>啥?

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习(在尝试和错误中进行
    的头像 发表于 07-14 15:29 1857次阅读
    NVIDIA Isaac Lab可用环境与<b class='flag-5'>强化学习</b>脚本使用指南

    怎么结合嵌入式,Linux,和FPGA三个方向达到一均衡发展?

    在嵌入式领域,不少人都怀揣着让嵌入式、Linux 和 FPGA 三个方向实现均衡发展的梦想,然而实践中却面临诸多挑战。就像备受瞩目的全栈工程师稚晖君,他从大学玩单片机起步,凭借将智能算法融入嵌入式而
    的头像 发表于 06-25 10:08 655次阅读
    怎么结合嵌入式,Linux,和FPGA<b class='flag-5'>三个</b>方向达到一<b class='flag-5'>个</b>均衡发展?

    华为发布天才少年挑战课题发布 五大主题方向课题放榜

    ‌: ‌智能联接与计算‌:涉及自主智能无线通信架构、昇腾强化学习系统等关键技术研究。 ‌基础研究与创新‌:包括大模型安全关键技术、智能成像/编辑技术等研究。 ‌智能终端‌:聚焦于世界模型理论突破、基于计算机视觉的多
    的头像 发表于 06-16 19:23 1040次阅读

    18常用的强化学习算法整理:从基础方法到高级模型的理论技术与代码实现

    本来转自:DeepHubIMBA本文系统讲解从基本强化学习方法到高级技术(如PPO、A3C、PlaNet等)的实现原理与编码过程,旨在通过理论结合代码的方式,构建对强化学习算法的全面理解。为确保内容
    的头像 发表于 04-23 13:22 1319次阅读
    18<b class='flag-5'>个</b>常用的<b class='flag-5'>强化学习</b>算法整理:从基础方法到高级模型的理论技术与代码实现

    如何检测极管的三个

    可以用万用表来初步确定极管的好坏及类型 (NPN 型还是 PNP 型 ),并辨别出e(发射极)、b(基极)、c(集电极)三个电极。
    发表于 03-08 16:40

    如何区分场效应管mos管三个引脚

    场效应管mos管三个引脚怎么区分
    发表于 03-07 09:20 0次下载

    Linux系统中最重要的三个命令

    Linux剑客是Linux系统中最重要的三个命令,它们以其强大的功能和广泛的应用场景而闻名。这三个工具的组合使用几乎可以完美应对Shell中的数据分析场景,因此被统称为Linux
    的头像 发表于 03-03 10:37 808次阅读

    详解RAD端到端强化学习后训练范式

    受限于算力和数据,大语言模型预训练的 scalinglaw 已经趋近于极限。DeepSeekR1/OpenAl01通过强化学习后训练涌现强大的推理能力,掀起新一轮技术革新。
    的头像 发表于 02-25 14:06 1027次阅读
    详解RAD端到端<b class='flag-5'>强化学习</b>后训练范式

    150℃无压烧结银最简单三个步骤

    的热点。在材料科学与电子工程领域,烧结技术作为连接与成型的关键工艺之一,始终占据着举足轻重的地位。接下来,我们将详细介绍150℃无压烧结银AS9378TB的最简单三个步骤,以便读者和客户能够快速理解并
    发表于 02-23 16:31

    【「具身智能机器人系统」阅读体验】+初品的体验

    动态互动的。 该理论强调智能行为源于智能体的物理存在和行为能力,智能体必须具备感知环境并在其中执行任务的能力。具身智能的实现涵盖了机器学习、人工智能、机器人学、计算机视觉、自然语言处理及强化学习
    发表于 12-20 19:17

    Kimi发布视觉思考模型k1,展现卓越基础科学能力

    近日,Kimi公司正式发布其最新的视觉思考模型——k1。这款模型基于先进的强化学习技术构建,原生支持端到端的图像理解和思维链技术,为用户提供全新的
    的头像 发表于 12-17 09:59 1083次阅读