0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

LeCun世界模型首个研究!自监督视觉像人一样学习和推理!

CVer 来源:机器之心 2023-06-15 15:47 次阅读

AI 像人类一样学习和推理,这是人工智能迈向人类智能的重要一步。图灵奖得主 Yann LeCun 曾提出自监督 + 世界模型的解决方案,如今终于有了第一个实实在在的视觉模型。

去年初,Meta 首席 AI 科学家 Yann LeCun 针对「如何才能打造出接近人类水平的 AI」提出了全新的思路。他勾勒出了构建人类水平 AI 的另一种愿景,指出学习世界模型(即世界如何运作的内部模型)的能力或许是关键。这种学到世界运作方式内部模型的机器可以更快地学习、规划完成复杂的任务,并轻松适应不熟悉的情况。

LeCun 认为,构造自主 AI 需要预测世界模型,而世界模型必须能够执行多模态预测,对应的解决方案是一种叫做分层 JEPA(联合嵌入预测架构)的架构。该架构可以通过堆叠的方式进行更抽象、更长期的预测。

6 月 9 日,在 2023 北京智源大会开幕式的 keynote 演讲中,LeCun 又再次讲解了世界模型的概念,他认为基于自监督的语言模型无法获得关于真实世界的知识,这些模型在本质上是不可控的。

e99419f6-0b3a-11ee-962d-dac502259ad0.png

今日,Meta 推出了首个基于 LeCun 世界模型概念的 AI 模型。该模型名为图像联合嵌入预测架构(Image Joint Embedding Predictive Architecture, I-JEPA),它通过创建外部世界的内部模型来学习, 比较图像的抽象表示(而不是比较像素本身)。

I-JEPA 在多项计算机视觉任务上取得非常不错的效果,并且计算效率远高于其他广泛使用的计算机视觉模型。此外 I-JEPA 学得的表示也可以用于很多不同的应用,无需进行大量微调。

e9a138fc-0b3a-11ee-962d-dac502259ad0.png

举个例子,Meta 在 72 小时内使用 16 块 A100 GPU 训练了一个 632M 参数的视觉 transformer 模型,还在 ImageNet 上实现了 low-shot 分类的 SOTA 性能,其中每个类只有 12 个标签样本。其他方法通常需要 2 到 10 倍的 GPU 小时数,并在使用相同数据量训练时误差率更高。

相关的论文《Self-Supervised Learning from Images with a Joint-Embedding Predictive Architecture》已被 CVPR 2023 接收。当然,所有的训练代码和模型检查点都将开源。

e9e1b396-0b3a-11ee-962d-dac502259ad0.png

论文地址:https://arxiv.org/abs/2301.08243

GitHub 地址:https://t.co/DgS9XiwnMz

通过自监督学习获取常识型知识

I-JEPA 基于一个事实,即人类仅通过被动观察就可以了解关于世界的大量背景知识,这些常识信息被认为是实现智能行为的关键。

通常,AI 研究人员会设计学习算法来捕获现实世界的常识,并将其编码为算法可访问的数字表征。为了高效,这些表征需要以自监督的方式来学习,即直接从图像或声音等未标记的数据中学习,而不是从手动标记的数据集中学习。

在高层级上,JEPA 的一个输入中某个部分的表征是根据其他部分的表征来预测的。同时,通过在高抽象层次上预测表征而不是直接预测像素值,JEPA 能够直接学习有用的表征,同时避免了生成模型的局限性。

相比之下,生成模型会通过删除或扭曲模型输入的部分内容来学习。然而,生成模型的一个显著缺点是模型试图填补每一点缺失的信息,即使现实世界本质上是不可预测的。因此,生成模型过于关注不相关的细节,而不是捕捉高级可预测的概念。

ea1f8536-0b3a-11ee-962d-dac502259ad0.png

自监督学习的通用架构,其中系统学习捕获其输入之间的关系。

迈向能力广泛的 JEPA 的第一步

I-JEPA 的核心思路是以更类似于人类理解的抽象表征来预测缺失信息。与在像素 /token 空间中进行预测的生成方法相比,I-JEPA 使用抽象的预测目标,潜在地消除了不必要的像素级细节,从而使模型学习更多语义特征。

另一个引导 I-JEPA 产生语义表征的核心设计是多块掩码策略。该研究使用信息丰富的上下文来预测包含语义信息的块,并表明这是非常必要的。

ea40fe82-0b3a-11ee-962d-dac502259ad0.png

I-JEPA 使用单个上下文块来预测源自同一图像的各种目标块的表征。

I-JEPA 中的预测器可以看作是一个原始的(和受限的)世界模型,它能够从部分可观察的上下文中模拟静态图像中的空间不确定性。更重要的是,这个世界模型是语义级的,因为它预测图像中不可见区域的高级信息,而不是像素级细节。

ea46ec20-0b3a-11ee-962d-dac502259ad0.png

预测器如何学习建模世界的语义。对于每张图像,蓝框外的部分被编码并作为上下文提供给预测器。然后预测器输出它期望在蓝框内区域的表示。为了可视化预测,Meta 训练了一个生成模型, 它生成了由预测输出表示的内容草图,并在蓝框内显示样本输出。很明显,预测器识别出了应该填充哪些部分的语义(如狗的头部、鸟的腿、狼的前肢、建筑物的另一侧)。

为了理解模型捕获的内容,Meta 训练了一个随机解码器,将 I-JEPA 预测的表示映射回像素空间,这展示出了探针操作后在蓝框中进行预测时的模型输出。这种定性评估表明,I-JEPA 正确捕获了位置不确定性,并生成了具有正确姿态的高级对象部分(如狗的头部、狼的前肢)。

简而言之,I-JEPA 能够学习对象部分的高级表示,而不会丢弃它们在图像中的局部位置信息。

高效率、强性能

I-JEPA 预训练在计算上也很高效,在使用更多计算密集型数据增强来生成多个视图时不会产生任何开销。目标编码器只需要处理图像的一个视图,上下文编码器只需要处理上下文块。

实验发现,I-JEPA 在不使用手动视图增强的情况下学习了强大的现成语义表示,具体可见下图。此外 I-JEPA 还在 ImageNet-1K 线性探针和半监督评估上优于像素和 token 重建方法。

ea567bc2-0b3a-11ee-962d-dac502259ad0.png

ImageNet-1k 数据集上的线性评估。

I-JEPA 还能与以往在语义任务上依赖手动数据增强的方法竞争。相比之下,I-JEPA 在对象计数和深度预测等低级视觉任务上取得了更好的性能。通过使用较小刚性归纳偏置的更简单模型,I-JEPA 适用于更广泛的任务集合。

ea8bd09c-0b3a-11ee-962d-dac502259ad0.png

low shot 分类准确性:使用 1% 标签时 ImageNet-1k 上的半监督评估结果(每类只有 12 张标签图像)。

AI 智能向人类水平更近了一步

I-JEPA 展示了无需通过手动图像变换来编码额外知识时,学习有竞争力的现成图像表示的潜力。继续推进 JEPA 以从更丰富模态中学习更通用世界模型将变得特别有趣,比如人们从一个短上下文中对视频中的将来事件做出长期空间和时间预测,并利用音频或文本 prompt 对这些预测进行调整。

Meta 希望将 JEPA 方法扩展到其他领域,比如图像 - 文本配对数据和视频数据。未来,JEPA 模型可以在视频理解等任务中得到应用。这是应用和扩展自监督方法来学习更通用世界模型的重要一步

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 人工智能
    +关注

    关注

    1776

    文章

    43888

    浏览量

    230633
  • 模型
    +关注

    关注

    1

    文章

    2706

    浏览量

    47697
  • 语言模型
    +关注

    关注

    0

    文章

    435

    浏览量

    10057

原文标题:CVPR 2023 | LeCun世界模型首个研究!自监督视觉像人一样学习和推理!

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    DSP能ARM一样跑系统吗?

    本帖最后由 mr.pengyongche 于 2013-4-30 03:25 编辑 平时听的太多ARM跑系统了,不知道在DSp上能跑系统不??刚开始学DSP,感觉上DSP一样很强大啊,怎么没听过在DSP上跑系统的呢??好希望DSP也能ARM
    发表于 03-23 13:52

    易语言可以labview一样简单吗

    labview可以易语言一样简单吗
    发表于 08-20 09:36

    【阿里云大学免费精品课】机器学习入门:概念原理及常用算法

    学习与人工智能技术的强大之处。你是不是也想学机器学习了?机器学习是人工智能的个分支。人工智能的研究是从以“
    发表于 06-23 13:51

    allegro能AD一样打印负片吗?

    求教allegro能AD一样打印负片吗?如何操作?
    发表于 03-29 01:39

    【瑞芯微RK1808计算棒试用申请】基于机器学习视觉机械臂研究与设计

    :完成系统软件设计;研究报告:完成研究报告份;专利:申请1-2项专利成品:完成五自由度机械臂硬件制作,实现具有深度学习视觉分析
    发表于 09-23 15:39

    基于图像的机器视觉伺服系统该怎么设计?

      制造出一样具有智能的能替代人类劳动的机器直是人类的梦想,人类获取的信息80%以上是通过视觉
    发表于 09-27 08:07

    labview测试tensorflow深度学习SSD模型识别物体

    文件调用labview深度学习推理函数完成识别以上是识别动物和等物体的labview识别效果。龙哥手把手教您LabVIEW视觉设计课程火热上线!!详情可点击下方链接进行查看:http
    发表于 08-16 17:21

    机器视觉与机器视觉有什么不一样

    机器视觉、机器视觉傻傻分不清楚。你是不是也有这么个疑问呢?机器视觉和机器视觉
    发表于 08-28 10:48

    想问下大神们,这样个网络所有过孔都亮起来星星一样怎么弄的,太炫了,想学习学习!

    想问下大神们,这样个网络所有过孔都亮起来星星一样怎么弄的,太炫了,想学习
    发表于 02-09 16:52

    RK3399Pro上的Python api与RKNN C api推理速度一样

    看了RK3399Pro的相关文档,感觉有两套API:套是Toolkit的Python api,另个是RKNN C api。这个理解对吗?另外想问下,使用这两套API的推理速度
    发表于 05-09 15:33

    pytorch模型转为rknn后没有推理结果

    , nan], dtype=float32)]如果我在rknn.build的阶段,对模型进行量化,那每次都可以输出结果,但不同的输入,都会获得一样的结果。我百思不得其解,在网上也没有人遇到相同的问题,希望有大神能为我解答,非常非常感谢!!
    发表于 01-11 18:45

    监督极限学习机分类模型

    当数据集中包含的训练信息不充分时,监督的极限学习机较难应用,因此将半监督学习应用到极限学习机,提出一种半监督极限
    发表于 12-23 11:24 0次下载

    一种基于机器学习的流簇大小推理模型

    数据中心网络需要更加高效的推理模型提升流簇大小判断的准确性和敏感性。提岀了一种基于机器学习的流簇大小推理模型( Mlcoflow),利用极限学习杋(ELM)以最小训练误差为求解目标建立
    发表于 04-02 11:38 34次下载
    一种基于机器<b class='flag-5'>学习</b>的流簇大小<b class='flag-5'>推理模型</b>

    基于计算机视觉和NLP的跨媒体问答与推理

    基于视觉和语言的跨媒体问答与推理是人工智能领域的研究热点其目的是基于给定的视觉内容和相关问题,模型能够返回正确的答案。随着深度
    发表于 04-08 10:25 8次下载
    基于计算机<b class='flag-5'>视觉</b>和NLP的跨媒体问答与<b class='flag-5'>推理</b>

    LeCun世界模型首项研究来了:自监督视觉,已开源

    LeCun 认为,构造自主 AI 需要预测世界模型,而世界模型必须能够执行多模态预测,对应的解决方案是一种叫做分层 JEPA(联合嵌入预测架
    的头像 发表于 06-14 16:53 399次阅读
    <b class='flag-5'>LeCun</b><b class='flag-5'>世界</b><b class='flag-5'>模型</b>首项<b class='flag-5'>研究</b>来了:自<b class='flag-5'>监督</b><b class='flag-5'>视觉</b>,已开源