0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

MoDem解决了视觉强化学习领域的三个挑战

OpenCV学堂 来源:新智元 2023-01-05 11:24 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

【导读】MetaAI这次发布的MoDem解决了视觉强化学习领域的三个挑战,无需解码器,效率最高提升250%,一起看看它有多牛。

12月27日,MetaAI 负责视觉和强化学习领域的A

eaf4d14c-8c5e-11ed-bfe3-dac502259ad0.png

截止27日晚间,这篇推文的阅读量已经达到73.9k。

eafc10a6-8c5e-11ed-bfe3-dac502259ad0.png

他表示,仅给出5个演示,MoDem就能在100K交互步骤中解决具有稀疏奖励和高维动作空间的具有挑战性的视觉运动控制任务,大大优于现有的最先进方法。

有多优秀呢?

他们发现MoDem在完成稀疏奖励任务方面的成功率比低数据机制中的先前方法高出150%-250%。

eb0169a2-8c5e-11ed-bfe3-dac502259ad0.png

Lecun也转发了这一研究,表示MoDem的模型架构类似于JEPA,可在表征空间做出预测且无需解码器。

eb0df6c2-8c5e-11ed-bfe3-dac502259ad0.png

链接小编就放在下面啦,有兴趣的小伙伴可以看看~

eb17ae42-8c5e-11ed-bfe3-dac502259ad0.png

论文链接:https://arxiv.org/abs/2212.05698

Github链接:https://github.com/facebookresearch/modem

研究创新和模型架构

样本效率低下是实际应用部署深度强化学习 (RL) 算法的主要挑战,尤其是视觉运动控制。

基于模型的RL有可能通过同时学习世界模型并使用合成部署来进行规划和政策改进,从而实现高样本效率。

然而在实践中,基于模型的RL的样本高效学习受到探索挑战的瓶颈,这次研究恰恰解决了这些主要挑战。

首先,MoDem分别通过使用世界模型、模仿+RL和自监督视觉预训练,解决了视觉强化学习/控制领域的三个主要挑战:

大样本复杂性(Large sample complexity)

高维状态和动作空间探索(Exploration in high-dimensional state and action space)

同步视觉表征和行为学习(Simultaneous learning of visual representations and behaviors)

eb22ced0-8c5e-11ed-bfe3-dac502259ad0.png

这次的模型架构类似于Yann LeCun的JEPA,并且无需解码器。

作者Aravind Rajeswaran表示,相比Dreamer需要像素级预测的解码器,架构繁重,无解码器架构可支持直接插入使用SSL预训练的视觉表示。

eb2abf6e-8c5e-11ed-bfe3-dac502259ad0.png

此外基于IL+RL,他们提出了一个三阶段算法:

BC预训练策略

使用包含演示和探索的种子数据集预训练世界模型,此阶段对于整体稳定性和效率很重要

通过在线互动微调世界模型

eb34d1b6-8c5e-11ed-bfe3-dac502259ad0.png

结果显示,生成的算法在21个硬视觉运动控制任务中取得了SOTA结果(State-Of-The-Art result),包括Adroit灵巧操作、MetaWorld和DeepMind控制套件。

从数据上来看,MoDem在各项任务中的表现远远优于其他模型,结果比之前的SOTA方法提升了150%到250%。

eb3f2a3a-8c5e-11ed-bfe3-dac502259ad0.png

红色线条为MoDem在各项任务中的表现

在此过程中,他们还阐明了MoDem中不同阶段的重要性、数据增强对视觉MBRL的重要性以及预训练视觉表示的实用性。

最后,使用冻结的 R3M 功能远远优于直接的 E2E 方法。这很令人兴奋,表明视频中的视觉预训练可以支持世界模型。

但8月数据强劲的E2E与冻结的R3M竞争,我们可以通过预训练做得更好。

eb5281de-8c5e-11ed-bfe3-dac502259ad0.png

审核编辑 :李倩

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1226

    浏览量

    43856
  • Meta
    +关注

    关注

    0

    文章

    326

    浏览量

    12526
  • 强化学习
    +关注

    关注

    4

    文章

    275

    浏览量

    12018

原文标题:Meta推出MoDem世界模型:解决视觉领域三大挑战,LeCun转发

文章出处:【微信号:CVSCHOOL,微信公众号:OpenCV学堂】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    在阿里云PAI平台的机器人感知强化学习规模化实践

    物理 AI 正在迅速从基础运动控制迈向更复杂的环境理解。传统机器人强化学习(RL)长期依赖本体感知(proprioception),包括关节角度、力矩反馈和内部状态,来训练灵巧的运动技能。
    的头像 发表于 05-18 10:34 431次阅读
    在阿里云PAI平台的机器人感知<b class='flag-5'>强化学习</b>规模化实践

    NVIDIA与Ineffable Intelligence合作打造强化学习基础设施

    我们正在共同构建能够解锁全新水平智能的强化学习基础设施。
    的头像 发表于 05-18 10:30 497次阅读

    Momenta R7强化学习世界模型助力上汽大众ID. ERA 9X正式上市

    2026年4月25日,上汽大众全新旗舰SUV ID. ERA 9X于2026北京国际汽车展览会期间正式上市,并将全球首发搭载Momenta R7强化学习世界模型。这意味着Momenta R7率先在全球强化学习+世界模型方向上取得量产突破——标志着物理AI上车。
    的头像 发表于 04-29 15:42 768次阅读

    上汽奥迪E5 Sportback车型升级搭载全新Momenta强化学习大模型

    近日,上汽奥迪宣布旗下 E5 Sportback 车型升级搭载 全新Momenta 强化学习大模型。
    的头像 发表于 04-09 09:33 346次阅读

    上汽大众ID. ERA 9X全球首发搭载Momenta R7强化学习世界模型

    3月30日,Momenta R7强化学习世界模型全球首发搭载车型——上汽大众ID. ERA 9X正式开启预售。
    的头像 发表于 03-31 13:48 536次阅读

    Momenta R6强化学习大模型上车东风日产NX8

    3月20日,东风日产NX8技术暨预售发布会在广州举办,官宣Momenta R6强化学习大模型正式上车东风日产新能源SUV——NX8。以全球顶级大厂合力,融合先锋科技力量,打造更适配全家出行的智能SUV,开启合资品牌智能化全新赛道。
    的头像 发表于 03-24 09:08 994次阅读

    Momenta强化学习大模型助力别克至境世家纯电版正式上市

    3月17日,别克至境世家纯电版正式上市,这是别克与Momenta强化学习大模型的又一次深度联手。融合别克在MPV市场深耕27年的技术积淀,以更从容的智慧驾控,重新定义豪华与自在的出行体验。
    的头像 发表于 03-18 15:48 441次阅读

    Momenta R7强化学习世界模型即将推出

    3月16日,上汽大众举办以“人本科技”为主题的ID. ERA技术发布会,首次揭晓ID. ERA 系列包括智能辅助驾驶在内的诸多核心技术亮点。会上,Momenta CEO曹旭东正式宣布:Momenta R7强化学习世界模型即将推出,并将全球首发搭载于上汽大众全新旗舰SUV
    的头像 发表于 03-17 13:57 1393次阅读

    自动驾驶中常提的离线强化学习是什么?

    [首发于智驾最前沿微信公众号]在之前谈及自动驾驶模型学习时,详细聊过强化学习的作用,由于强化学习能让大模型通过交互学到策略,不需要固定的规则,从而给自动驾驶的落地创造更多可能。
    的头像 发表于 02-07 09:21 451次阅读
    自动驾驶中常提的离线<b class='flag-5'>强化学习</b>是什么?

    强化学习会让自动驾驶模型学习更快吗?

    [首发于智驾最前沿微信公众号]在谈及自动驾驶大模型训练时,有的技术方案会采用模仿学习,而有些会采用强化学习。同样作为大模型的训练方式,强化学习有何不同?又有什么特点呢? 什么是强化学习
    的头像 发表于 01-31 09:34 954次阅读
    <b class='flag-5'>强化学习</b>会让自动驾驶模型<b class='flag-5'>学习</b>更快吗?

    多智能体强化学习(MARL)核心概念与算法概览

    训练单个RL智能体的过程非常简单,那么我们现在换一场景,同时训练五智能体,而且每个都有自己的目标、只能看到部分信息,还能互相帮忙。这就是多智能体强化学习
    的头像 发表于 01-21 16:21 414次阅读
    多智能体<b class='flag-5'>强化学习</b>(MARL)核心概念与算法概览

    上汽别克至境E7首发搭载Momenta R6强化学习大模型

    别克至境家族迎来新成员——大五座智能SUV别克至境E7首发。新车将搭载Momenta R6强化学习大模型,带来全场景的智能出行体验。
    的头像 发表于 01-12 16:23 609次阅读

    今日看点:智元推出真机强化学习;美国软件公司SAS退出中国市场

    智元推出真机强化学习,机器人训练周期从“数周”减至“数十分钟”   近日,智元机器人宣布其研发的真机强化学习技术,已在与龙旗科技合作的验证产线中成功落地。据介绍,此次落地的真机强化学习方案,机器人
    发表于 11-05 09:44 1205次阅读

    自动驾驶中常提的“强化学习”是啥?

    下,就是一智能体在环境里行动,它能观察到环境的一些信息,并做出一动作,然后环境会给出一反馈(奖励或惩罚),智能体的目标是把长期得到的奖励累积到最大。和监督学习不同,
    的头像 发表于 10-23 09:00 1036次阅读
    自动驾驶中常提的“<b class='flag-5'>强化学习</b>”是<b class='flag-5'>个</b>啥?

    NVIDIA Isaac Lab可用环境与强化学习脚本使用指南

    Lab 是一适用于机器人学习的开源模块化框架,其模块化高保真仿真适用于各种训练环境,Isaac Lab 同时支持模仿学习(模仿人类)和强化学习(在尝试和错误中进行
    的头像 发表于 07-14 15:29 2829次阅读
    NVIDIA Isaac Lab可用环境与<b class='flag-5'>强化学习</b>脚本使用指南