0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于图文多模态领域典型任务

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2022-09-01 17:14 次阅读

图文多模态领域典型任务如img-text retrieval、VQA、captioning、grounding等,目前的学术设定难度尚可。但是, 一旦知识范围扩展,到了open-ended scenario,任务难度立刻剧增 。但是DeepMind的Flamingo模型在这些挑战场景中使用同一个模型便做到了。当时看到论文中的这些例子,十分惊讶!

d0502f50-2915-11ed-ba43-dac502259ad0.png

可以看到,Flamingo模型不仅可以做到open-ended captioning、VQA等,甚至可以计数、算数。其中很多额外的知识,比如火烈鸟的发源地等知识,对于单模态的语言模型如GPT-3、T5、Chinchilla等可以说是难度不大。

但是对于传统的多模态模型而言,很难通过传统的img-text pair学到如此广阔的外部知识,因为很多知识是蕴含在基于文本的单模态中的(如维基百科) 。所以,DeepMind在多模态领域的发力点就在 站人语言模型的巨人肩膀上,冻住超大规模训练的语言模型,将多模态模型设计向NLP大模型靠拢。

Frozen

要介绍Flamingo模型,不得不先介绍DeepMind在NeurIPS 2021发表的前作Frozen。Frozen模型十分简单,作者使用一个预训练好的语言模型,并且完全冻结参数,只训练visual encoder。

模型结构:其中LM模型是在C4数据上训练的包含7B参数的transformer结构,visual encoder是NF-ResNet50。训练数据:训练时只采用了CC3M数据集,包含300万img-text pair,预训练数据量不大。Frozen框架如下。其中视觉特征可以看作是LM模型的prompt,冻结的语言模型就在视觉特征的“提示”下,做出应答。

d0915886-2915-11ed-ba43-dac502259ad0.png

Frozen模型结构

可以看到,通过一些img-text pair的约束,unfrozen的visual encoder是朝着frozen LM靠拢和对齐的。该算法在预训练时只使用了captioning语料CC3M,并且知识的丰富度也有限。那么,Frozen模型能做什么呢?

d0b8bcaa-2915-11ed-ba43-dac502259ad0.png

Frozen模型在下游场景的应用

虽然由caption数据(CC3M)训练,它竟然可以做VQA甚至基于知识的VQA,比如上图,你告诉它飞机是莱特兄弟发明的,它就能类比出苹果手机是乔布斯创造的。很显然, 这种外部知识肯定不是CC3M中有限的img-text pair能够给予的,无非是来源于从始至终未参与训练、冻结的LM模型 。接下来作者做了一系列实验,可以看到,其实Frozen距离SOTA模型仍十分遥远。

d0eb882e-2915-11ed-ba43-dac502259ad0.png

Frozen实验结果

可以看到,Frozen模型距离VQA和OKVQA数据集上的SOTA算法仍有十分巨大的gap。

几个有意思的现象:

如果模型看不到图片(blind模型),只依赖于LM模型,效果尚可,但是明显低于看得见图片的模型。 说明Frozen确实对img-text模态进行了对齐,学习到了如何参考图片信息再做出应答

few-shot甚至zero-shot就可以达到还不错的性能;

end-to-end finetune LM模型效果会下降,说明由大量单模态训练出的LM模型参数很容易被少量的img-text数据破坏掉。证明了本文观点,LM模型需要Frozen才能保留文本信息学到的知识!

Flamingo

介绍完了Frozen,那么DeepMind团队再接再厉,创造效果惊艳的Flamingo模型就顺理成章了。相比于Frozen,Flamingo模型的几点改进:

更强的LM模型: 70B参数的语言模型Chinchilla;

更多的可训练参数: visual encoder这次也冻结了,但是图片特征采样模型可以训练,更重要的是LM模型的各层中也嵌入了可学习的参数,可训练参数总量高达10B;

更恐怖的训练数据:不仅加入了ALIGN算法的18亿img-text pair,数百万的video-text pair。此外,还有大量的不匹配的图文信息,来源于MultiModal MassiveWeb (M3W) dataset,其中图片数量上亿,文本大概有182 GB。可以使用unpaired img-text数据进行训练也是Flamingo模型的一大亮点。总而言之,它的数据量十分恐怖,已经远远超过目前业界的多模态算法比如CLIP、ALIGN、SimVLM、BLIP等。

下面看看Flamingo的模型结构:

d119f61e-2915-11ed-ba43-dac502259ad0.png

Flamingo模型结构

可以看到, 不同于Frozen,这一次visual encoder也是冻结的。参数可以学习的就两部分,一个是Perceiver Resampler,一个是嵌入在LM模型中的Gated Block。Perceiver Resampler结构如下:

d14359aa-2915-11ed-ba43-dac502259ad0.png

Perceiver Resampler结构

Perceiver Resampler结构一目了然,一些可学习的embedding作为query,然后图片特征或者时续的视频特征attend到query上,作为最后的输出。

d17ae7bc-2915-11ed-ba43-dac502259ad0.png

gated xattn-dense结构

嵌入在LM模型中的gated xattn-dense的结构同样一目了然,使用文本信息作为query去aggregate视觉信息。其中text embedding作为query,visual embedding作为key和value。类比于transformer结构,唯一小的差别就是cross-attention和FFN之后额外加了一个gate。

介绍完了Flamingo的模型结构,简单看看它的爆表性能吧,可以说,下游场景中只用few-shot的情况下做到这种程度,让人惊讶...... 在一些答案集合固定的任务中,比如传统的VQAv2中优势不明显, 但是open-ended的knowledge-based VQA任务中,比如OKVQA,只用few-shot就可以刷新当前SOTA 在盲人场景的VizWiz以及OCR信息特别多的TextVQA等任务中,效果同样可圈可点。一些基于视频的QA比如NextQA和iVQA效果同样刷新当前最好性能......

d19fff34-2915-11ed-ba43-dac502259ad0.png

如果Flamingo不使用few-shot模式,而进行fine-tune模式,论文中显示,同样可以刷新不少业界SOTA指标,这里就不列举了。最后再列出几个让人惊叹的示例结束本文,准备再去好好研究一番论文细节。

多模态描述,多模态问答,多模态对话,多模态推荐……以前很多人觉得很遥远,但是近年来进展飞速,距离实际场景的gap也在逐步缩小,未来可期~

d1e3fb1c-2915-11ed-ba43-dac502259ad0.png

d215a90a-2915-11ed-ba43-dac502259ad0.png

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语言模型
    +关注

    关注

    0

    文章

    425

    浏览量

    10042
  • 数据集
    +关注

    关注

    4

    文章

    1176

    浏览量

    24340
  • nlp
    nlp
    +关注

    关注

    1

    文章

    463

    浏览量

    21812

原文标题:站在NLP巨人模型的肩膀才是多模态的未来?

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    模态窗口的设置问题

    Labview中,一个窗口如果设置为模态窗口,则打开后,点击其他窗口应该是没有作用的。我设置的几个子VI为模态窗口,效果都没有问题。但有一个子VI,设置为模态窗口,打开后,点击其他窗口的按钮,虽然
    发表于 11-28 21:56

    labview 模态分析

    用labview进行模态分析,有很多问题,望高手指点一二力锤激励信号+加速度传感器信号,请问下,labview什么控件可以计算系统的模态还是说仅仅两路信号是分析不了模态的。
    发表于 06-24 11:50

    LMS Virtual Lab 流固模态分析

    LMS Virtual Lab 流固模态分析的主要步骤:1、设置材料、属性、约束条件,进行结构有限元模态分析。注意:模态计算的频率范围不要太小,否则可能计算错误!2、对流体进行模态分析
    发表于 05-29 06:59

    抗混淆滤波器怎么实现混合信号和模态传感器调节?

    一些传感器信号调节器用于处理多个传感元件的输出。这种处理过程通常由模态、混合信号调节器完成,它可以同时处理数个传感元件的输出。本文对这类传感器信号调节器中抗混淆滤波器的工作情况进行详细分析。
    发表于 04-21 06:59

    如何让Transformer在多种模态下处理不同领域的广泛应用?

    的多模态领域任务。例如,ViT专门用于视觉相关的任务,BERT专注于语言任务,而VILBERT-MT只用于相关的视觉和语言
    的头像 发表于 03-08 10:30 2416次阅读
    如何让Transformer在多种<b class='flag-5'>模态</b>下处理不同<b class='flag-5'>领域</b>的广泛应用?

    简述文本与图像领域的多模态学习有关问题

    来自:哈工大SCIR 本期导读:近年来研究人员在计算机视觉和自然语言处理方向均取得了很大进展,因此融合了二者的多模态深度学习也越来越受到关注。本期主要讨论结合文本和图像的多模态任务,将从多模态
    的头像 发表于 08-26 16:29 6397次阅读

    如何使用多模态信息做prompt

    自多模态大火以来,井喷式地出现了许多工作,通过改造预训练语言模型,用图像信息来增强语义信息,但主要集中在几个 NLU 任务上,在 NLG 上的研究比较少。 今天要介绍的这篇 paper
    的头像 发表于 11-03 09:39 1594次阅读
    如何使用多<b class='flag-5'>模态</b>信息做prompt

    DocumentAI的模型、任务和基准数据集

    随着最近几年多模态大火的,越来越多的任务都被推陈出新为多模态版本。譬如,传统对话任务,推出了考虑视觉信息的多模态数据集;事件抽取,也推出视频
    的头像 发表于 08-22 09:55 1403次阅读

    谷歌提出PaLI:一种多模态大模型,刷新多个任务SOTA!

    PaLI 使用单独 “Image-and-text to text” 接口执行很多图像、语言以及 "图像 + 语言" 任务。PaLI 的关键结构之一是重复使用大型单模态 backbone 进行语言和视觉建模,以迁移现有能力并降低训练成本。
    的头像 发表于 01-29 11:25 757次阅读

    一个真实闲聊多模态数据集TikTalk

    随着大量预训练语言模型在文本对话任务中的出色表现,以及多模态的发展,在对话中引入多模态信息已经引起了大量学者的关注。
    的头像 发表于 02-09 09:31 1233次阅读

    ImageBind:跨模态之王,将6种模态全部绑定!

    最近,很多方法学习与文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的模态对。因此,视频 - 音频嵌入无法直接用于图像 - 文本任务,反之亦
    的头像 发表于 05-11 09:30 665次阅读
    ImageBind:跨<b class='flag-5'>模态</b>之王,将6种<b class='flag-5'>模态</b>全部绑定!

    如何利用LLM做多模态任务

    大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力,但目前还未开放多模态输入接口并且不会透露任何模型上技术细节。因此,现阶段,如何利用LLM做一些多模态
    的头像 发表于 05-11 17:09 676次阅读
    如何利用LLM做多<b class='flag-5'>模态</b><b class='flag-5'>任务</b>?

    如何利用LLM做多模态任务

    并且不会透露任何模型上技术细节。因此,现阶段,如何利用LLM做一些多模态任务还是有一定的研究价值的。 本文整理了近两年来基于LLM做vision-lanuage任务的一些工作,并将其划分为4个类别:
    的头像 发表于 05-22 15:57 509次阅读
    如何利用LLM做多<b class='flag-5'>模态</b><b class='flag-5'>任务</b>?

    更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」

    当前学界和工业界都对多模态大模型研究热情高涨。去年,谷歌的 Deepmind 发布了多模态视觉语言模型 Flamingo ,它使用单一视觉语言模型处理多项任务,在多模态大模型
    的头像 发表于 07-16 20:45 395次阅读
    更强更通用:智源「悟道3.0」Emu多<b class='flag-5'>模态</b>大模型开源,在多<b class='flag-5'>模态</b>序列中「补全一切」

    人工智能领域模态的概念和应用场景

    随着人工智能技术的不断发展,多模态成为了一个备受关注的研究方向。多模态技术旨在将不同类型的数据和信息进行融合,以实现更加准确、高效的人工智能应用。本文将详细介绍多模态的概念、研究内容和应用场景,并探讨人工智能
    的头像 发表于 12-15 14:28 2871次阅读