0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

Meta开源I-JEPA,“类人”AI模型

OSC开源社区 来源:OSC开源社区 2023-06-18 17:47 次阅读

Meta宣布推出一个全新的AI 模型Image Joint Embedding Predictive Architecture (I-JEPA),可通过对图像的自我监督学习来学习世界的抽象表征,实现比现有模型更准确地分析和完成未完成的图像。

目前相关的训练代码和模型已开源,I-JEPA 论文则计划在下周的 CVPR 2023 上发表。

根据介绍,I-JEPA 结合了 Meta 首席 AI 科学家 Yann LeCun 所提倡的类人推理方式,帮助避免 AI 生成图像常见的一些错误,比如多出的手指。

I-JEPA 在多项计算机视觉任务上表现出色,且计算效率比其他广泛使用的计算机视觉模型高得多。

I-JEPA 学习的表征也可以用于许多不同的应用程序,而无需进行大量微调。

例如,项目团队在 72 小时内使用 16 个 A100 GPU 训练了一个 632M 参数的视觉转换器模型,I-JEPA 在 ImageNet 上的 low-shot 分类中性能表现最优,每个类只有 12 个标记示例。

其他方法通常需要 2 到 10 倍的 GPU 时间,并且在用相同数量的数据进行训练时错误率更高。 I-JEPA 背后的想法是以更类似于人类一般理解的抽象表示来预测缺失的信息

I-JEPA 使用抽象的预测目标,潜在地消除了不必要的 pixel-level 细节,从而使模型学习更多语义特征。

另一个引导 I-JEPA 产生语义表征的核心设计选择是多块掩码策略。

具体来说,项目团队证明了使用信息丰富的(空间分布的)上下文来预测包含语义信息(具有足够大的规模)的大块的重要性。

e452d002-0c36-11ee-962d-dac502259ad0.png

I-JEPA 中的预测器可以看作是一个原始的(和受限的)世界模型,它能够从部分可观察的上下文中模拟静态图像中的空间不确定性。

更重要的是,这个世界模型是语义的,因为它预测图像中不可见区域的高级信息,而不是 pixel-level 细节。

e46f3b5c-0c36-11ee-962d-dac502259ad0.png

为了解模型捕获的内容,团队还训练了一个随机解码器,将 I-JEPA 预测的表征映射回像素空间。

这种定性评估表明该模型正确地捕获了位置不确定性并生成了具有正确姿势的高级对象部分(例如,狗的头、狼的前腿)。

简而言之,I-JEPA 能够学习对象部分的高级表示,而不会丢弃它们在图像中的局部位置信息。

e49929f8-0c36-11ee-962d-dac502259ad0.pnge4b3ea04-0c36-11ee-962d-dac502259ad0.png





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 转换器
    +关注

    关注

    27

    文章

    8208

    浏览量

    141879
  • gpu
    gpu
    +关注

    关注

    27

    文章

    4422

    浏览量

    126715
  • 计算机视觉
    +关注

    关注

    8

    文章

    1600

    浏览量

    45617

原文标题:Meta开源I-JEPA,“类人” AI 模型

文章出处:【微信号:OSC开源社区,微信公众号:OSC开源社区】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    英特尔AI产品助力其运行Meta新一代大语言模型Meta Llama 3

    英特尔丰富的AI产品——面向数据中心的至强处理器,边缘处理器及AI PC等产品为开发者提供最新的优化,助力其运行Meta新一代大语言模型Meta
    的头像 发表于 04-28 11:16 155次阅读

    NVIDIA全面加快Meta Llama 3的推理速度

    Meta 最新开源大语言模型采用 NVIDIA 技术构建,其经过优化后可在云、数据中心、边缘和 PC 的 NVIDIA GPU 上运行。
    的头像 发表于 04-23 09:52 123次阅读

    Meta推出最强开源模型Llama 3 要挑战GPT

    Meta推出最强开源模型Llama 3 要挑战GPT Facebook母公司Meta Platforms(META.US)推出了
    的头像 发表于 04-19 17:00 465次阅读

    Meta发布CodeLlama70B开源模型

    Meta发布CodeLlama70B开源模型 Meta发布了开源模型CodeLlama70B
    的头像 发表于 01-31 10:30 967次阅读

    Meta发布开源模型Code Llama 70B

    近日,Meta宣布推出了一款新的开源模型Code Llama 70B,这是其“Code Llama家族中体量最大、性能最好的模型版本”。这款新模型
    的头像 发表于 01-31 09:24 381次阅读

    Meta推出最新版AI代码生成模型Code Llama70B

    Meta近日宣布了其最新版本的AI代码生成模型Code Llama70B,并称其为“目前最大、最优秀的模型”。这一更新标志着Meta
    的头像 发表于 01-30 18:21 866次阅读

    MediaTek运用Meta Llama 2大语言模型,赋能终端设备生成式AI应用

    2023 年 8 月 24 日 – MediaTek今日宣布利用Meta新一代开源大语言模型(LLM)Llama 2 以及MediaTek先进的AI处理器(APU)和完整的
    发表于 08-24 13:41 255次阅读
    MediaTek运用<b class='flag-5'>Meta</b> Llama 2大语言<b class='flag-5'>模型</b>,赋能终端设备生成式<b class='flag-5'>AI</b>应用

    IBM 计划在 watsonx 平台上提供 Meta 的 Llama 2 模型

    2-聊天模型,现在已经可以提供给部分客户抢先体验。这是基于 IBM 与 MetaAI 开放式创新方面的合作,包括就 Meta开源
    的头像 发表于 08-09 20:35 332次阅读

    AI模型开源算法介绍

    AI模型开源算法介绍 什么是开源?简单来说就是不收取任何费用,免费提供给用户的软件或应用程序。开源是主要用于软件的术语,除了免费用户还可
    的头像 发表于 08-08 17:25 1387次阅读

    阿里云开源AI模型,挑战Meta、OpenAI

    创新 · 挑战Meta: 阿里云开源通义千问大模型 Google的RT-2:当人工智能遇上机器人 在这个充满各种技术创新的时代,Google再次引领潮流,将AI与机器人技术相结合,为我
    的头像 发表于 08-04 18:45 543次阅读
    阿里云<b class='flag-5'>开源</b><b class='flag-5'>AI</b>大<b class='flag-5'>模型</b>,挑战<b class='flag-5'>Meta</b>、OpenAI

    微软联合Meta发布免费商业应用的开源AI模型Llama 2

    Meta 看来,「开放的方法是当今人工智能模型开发的正确方法,特别是在技术快速发展的生成领域。通过公开提供人工智能模型,它们可以使每个人受益。为企业、初创企业、企业家和研究人员提供其开发的工具,这些工具的开发规模是他们自己难
    的头像 发表于 07-19 16:22 524次阅读
    微软联合<b class='flag-5'>Meta</b>发布免费商业应用的<b class='flag-5'>开源</b><b class='flag-5'>AI</b><b class='flag-5'>模型</b>Llama 2

    LeCun世界模型首个研究!自监督视觉像人一样学习和推理!

    今日,Meta 推出了首个基于 LeCun 世界模型概念的 AI 模型。该模型名为图像联合嵌入预测架构(Image Joint Embedd
    的头像 发表于 06-15 15:47 228次阅读
    LeCun世界<b class='flag-5'>模型</b>首个研究!自监督视觉像人一样学习和推理!

    LeCun世界模型首项研究来了:自监督视觉,已开源

    LeCun 认为,构造自主 AI 需要预测世界模型,而世界模型必须能够执行多模态预测,对应的解决方案是一种叫做分层 JEPA(联合嵌入预测架构)的架构。该架构可以通过堆叠的方式进行更抽
    的头像 发表于 06-14 16:53 399次阅读
    LeCun世界<b class='flag-5'>模型</b>首项研究来了:自监督视觉,已<b class='flag-5'>开源</b>

    Meta开源文本如何生成音乐大模型

    年初,谷歌推出了音乐生成大模型 MusicLM,效果非常不错。有人称这比大火的 ChatGPT 还重要,几乎解决了音乐生成问题。近日,Meta 也推出了自己的文本音乐生成模型 MusicGen,并且
    的头像 发表于 06-12 15:11 548次阅读
    <b class='flag-5'>Meta</b><b class='flag-5'>开源</b>文本如何生成音乐大<b class='flag-5'>模型</b>

    中国开源未来发展峰会“问道 AI 分论坛”即将开幕!

    过去几个月,AI 几乎已经成为全民热议的话题。各式开源模型、训练框架层出不穷;AI 技术也加速应用在各个领域和行业,例如服务运营优化、解决供应链问题等等;数据库、云计算、大前端等多
    发表于 05-09 09:49