0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

谷歌新作SPAE:GPT等大语言模型可以通过上下文学习解决视觉任务

CVer 来源:机器之心 2023-07-09 15:35 次阅读

LLM 的能力还可以发挥到机器学习的更多子领域。

当前,大型语言模型(LLM)已经掀起自然语言处理(NLP)领域的变革浪潮。我们看到 LLM 具备强大的涌现能力,在复杂的语言理解任务、生成任务乃至推理任务上都表现优异。这启发人们进一步探索 LLM 在机器学习另一子领域 —— 计算机视觉(CV)方面的潜力。 LLM 的一项卓越才能是它们具备上下文学习的能力。上下文学习不会更新 LLM 的任何参数,却在各种 NLP 任务中却展现出了令人惊艳的成果。那么,GPT 能否通过上下文学习解决视觉任务呢? 最近,来自谷歌和卡内基梅隆大学(CMU)的研究者联合发表的一篇论文表明:只要我们能够将图像(或其他非语言模态)转化为 LLM 能够理解的语言,这似乎是可行的。

d2eb5ab8-1da8-11ee-962d-dac502259ad0.png

SPAE: Semantic Pyramid AutoEncoder for Multimodal Generation with Frozen LLMs 代码:https://github.com/google-research/magvit/ 论文地址:https://arxiv.org/abs/2306.17842 这篇论文揭示了 PaLM 或 GPT 在通过上下文学习解决视觉任务方面的能力,并提出了新方法 SPAE(Semantic Pyramid AutoEncoder)。这种新方法使得 LLM 能够执行图像生成任务,而无需进行任何参数更新。这也是使用上下文学习使得 LLM 生成图像内容的首个成功方法。 我们先来看一下通过上下文学习,LLM 在生成图像内容方面的实验效果。 例如,在给定上下文中,通过提供 50 张手写图像,论文要求 PaLM 2 回答需要生成数字图像作为输出的复杂查询:

d30951bc-1da8-11ee-962d-dac502259ad0.png

还能在有图像上下文输入的情况下生成逼真的现实图像:

d326f276-1da8-11ee-962d-dac502259ad0.png

除了生成图像,通过上下文学习,PaLM 2 还能进行图像描述:

d3495da2-1da8-11ee-962d-dac502259ad0.png

还有与图像相关问题的视觉问答

d35c67da-1da8-11ee-962d-dac502259ad0.png

甚至可以去噪生成视频

d3bee662-1da8-11ee-962d-dac502259ad0.gif

方法概述 实际上,将图像转化为 LLM 能够理解的语言,是在视觉 Transformer(ViT)论文中就已经研究过的问题。在 Google 和 CMU 的这篇论文中,他们将其提升到了一个新的层次 —— 使用实际的单词来表示图像。 这种方法就像建造一个充满文字的塔楼,捕捉图像的语义和细节。这种充满文字的表示方法让图像描述可以轻松生成,并让 LLM 可以回答与图像相关的问题,甚至可以重构图像像素。

d3d0f60e-1da8-11ee-962d-dac502259ad0.png

具体来说,该研究提出使用经过训练的编码器和 CLIP 模型将图像转换为一个 token 空间;然后利用 LLM 生成合适的词法 token;最后使用训练有素的解码器将这些 token 转换回像素空间。这个巧妙的过程将图像转换为 LLM 可以理解的语言,使我们能够利用 LLM 在视觉任务中的生成能力。

d3ec8018-1da8-11ee-962d-dac502259ad0.png

实验及结果 该研究将 SPAE 与 SOTA 方法 Frozen 和 LQAE 进行了实验比较,结果如下表 1 所示。SPAEGPT 在所有任务上性能均优于LQAE,且仅使用 2% 的 token。

d417351a-1da8-11ee-962d-dac502259ad0.png

总的来说,在 mini-ImageNet 基准上的测试表明,SPAE 方法相比之前的 SOTA 方法提升了 25% 的性能。

d42f9be6-1da8-11ee-962d-dac502259ad0.png

为了验证 SPAE 设计方法的有效性,该研究进行了消融实验,实验结果如下表 4 和图 10 所示:

d4442ec6-1da8-11ee-962d-dac502259ad0.png

d45c0938-1da8-11ee-962d-dac502259ad0.png

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    435

    浏览量

    10047
  • GPT
    GPT
    +关注

    关注

    0

    文章

    301

    浏览量

    14869
  • nlp
    nlp
    +关注

    关注

    1

    文章

    463

    浏览量

    21823

原文标题:谷歌新作SPAE:GPT等大语言模型可以通过上下文学习解决视觉任务

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    为什么transformer性能这么好?Transformer的上下文学习能力是哪来的?

    为什么 transformer 性能这么好?它给众多大语言模型带来的上下文学习 (In-Context Learning) 能力是从何而来?在人工智能领域里,transformer 已成为深度
    的头像 发表于 09-25 12:05 805次阅读
    为什么transformer性能这么好?Transformer的<b class='flag-5'>上下文学习</b>能力是哪来的?

    关于进程上下文、中断上下文及原子上下文的一些概念理解

    状态。所以在进程上下文中引用current是有意义的。 三、中断上下文 硬件通过触发信号,向CPU发送中断信号,导致内核调用中断处理程序,进入内核空间。这个过程中,硬件的一些变量和参
    发表于 09-06 09:58

    进程上下文与中断上下文的理解

    )进程下文:其是指切换到内核态后执行的程序,即进程运行在内核空间的部分。2.中断上下文:(1)中断上文:硬件通过中断触发信号,导致内核调用中断处理程序,进入内核空间。这个过程中,硬件的一些变量和参数也要
    发表于 12-11 19:45

    JavaScript的执行上下文

    JavaScript执行上下文之执行上下文
    发表于 05-29 16:12

    进程上下文/中断上下文及原子上下文的概念

    为什么会有上下文这种概念进程上下文/中断上下文及原子上下文的概念
    发表于 01-13 07:17

    中断中的上下文切换详解

    也是统一在Systick_Handler中断处理函数中进行的(具体代码可以参考irq_cm3.S)。  总结一下,RTX的内核是分态的,在中断和任务上下文中进行信号量的post动作根
    发表于 03-23 17:18

    基于多Agent的用户上下文自适应站点构架

    自适应站点很少考虑对用户环境的自适应。为此,提出用户上下文自适应站点的概念,给出基于多Agent技术的用户上下文自适应站点构架模型。阐述用户上下文获取、挖掘过程以及站
    发表于 04-11 08:49 13次下载

    终端业务上下文的定义方法及业务模型

    该文针对业务上下文仅关注业务质量较少考虑用户终端环境的现状,提出终端业务上下文的概念,为普适业务的开展提供必要的信息支撑。给出一种终端业务上下文的通用定义方法
    发表于 03-06 11:06 11次下载

    基于上下文相似度的分解推荐算法

    模型,再对目标用户的K个邻居用户建立移动用户一上下文一移动服务三维张量分解模型,获得目标用户的移动服务预测值,生成移动推荐。实验结果显示,与余弦相似性方法、Pearson相关系数方法和Cosinel改进相似度
    发表于 11-27 17:42 0次下载

    基于低秩重检测的多特征时空上下文视觉跟踪

    时空上下文跟踪算法充分的利用空间上下文中包含的结构信息能够有效的对目标进行跟踪,实时性优良.但是该算法仅仅利用单一的灰度信息,使得目标的表观表达缺乏判别性,而且该方法在由于遮挡等问题造成的跟踪漂移
    发表于 12-15 15:01 0次下载

    Web服务的上下文的访问控制策略模型

    的访问控制策略模型模型的核心思想是将各种与访问控制有关的信息统一抽象表示为一个上下文概念,以上下文为中心来制定和执行访问控制策略,上下文
    发表于 01-05 16:32 0次下载

    基于上下文语境的微博情感分析

    传统情感分析方法仅考虑单一文本,对长度短小且口语化严重的微博文本情感极性识别率较低。针对上述问题,提出一种结合上下文消息的情感分析方法。将微博情感分析问题看做标签序列学习任务,使用隐马尔可夫支持向量
    发表于 02-24 11:34 0次下载
    基于<b class='flag-5'>上下文</b>语境的微博情感分析

    追溯ChatGPT各项能力的起源

    上下文学习 (in-context learning) : 遵循给定任务的几个示例,然后为新的测试用例生成解决方案。很重要的一点是,GPT-3虽然是个语言
    的头像 发表于 02-17 10:05 818次阅读

    我们能否扩展现有的预训练 LLM 的上下文窗口

    50 页的文字,意味着在对话或生成文本时,GPT-4 最多可以记住 50 页左右内容。    一般来讲,大语言模型处理上下文窗口大小的能力
    的头像 发表于 06-30 11:09 410次阅读
    我们能否扩展现有的预训练 LLM 的<b class='flag-5'>上下文</b>窗口

    首篇!Point-In-Context:探索用于3D点云理解的上下文学习

    随着基于广泛数据训练的大模型兴起,上下文学习(In-Context Learning)已成为一种新的学习范式,在自然语言处理(NLP)和计算机视觉
    的头像 发表于 07-13 14:41 418次阅读
    首篇!Point-In-Context:探索用于3D点云理解的<b class='flag-5'>上下文学习</b>