0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

简述文本与图像领域的多模态学习有关问题

自然语言处理爱好者 来源:哈工大SCIR 作者:李晓辰 2021-08-26 16:29 次阅读

来自:哈工大SCIR

本期导读:近年来研究人员在计算机视觉和自然语言处理方向均取得了很大进展,因此融合了二者的多模态深度学习也越来越受到关注。本期主要讨论结合文本和图像的多模态任务,将从多模态预训练模型中的几个分支角度,简述文本与图像领域的多模态学习有关问题。

1. 引言

近年来,计算机视觉和自然语言处理方向均取得了很大进展。而融合二者的多模态深度学习也越来越受到关注,在基于图像和视频的字幕生成、视觉问答(VQA)、视觉对话、基于文本的图像生成等方面研究成果显著,下图1展示了有关多模态深度学习的应用范畴。

在这些任务中,无论是文本还是语音,自然语言都起到了帮助计算机“理解”图像内容的关键作用,这里的“理解”指的是对齐语言中蕴含的语义特征与图像中蕴含的图像特征。本文主要关注于结合文本和图像的多模态任务,将从多模态预训练模型中的几个分支来分析目前图像与文本的多模态信息处理领域的有关问题。

2. 多模态预训练模型

学习输入特征的更好表示是深度学习的核心内容。在传统的NLP单模态领域,表示学习的发展已经较为完善,而在多模态领域,由于高质量有标注多模态数据较少,因此人们希望能使用少样本学习甚至零样本学习。最近两年出现了基于Transformer结构的多模态预训练模型,通过海量无标注数据进行预训练,然后使用少量有标注数据进行微调即可。

多模态预训练模型根据信息融合的方式可分为两大类,分别是Cross-Stream类和Single-Stream类。

(1)Cross-Stream类模型是指将不同模态的输入分别处理之后进行交叉融合,例如ViLBERT[1]。2019年Lu Jiasen等人将输入的文本经过文本Embedding层后被输入到Transformer编码器中提取上下文信息。

使用预训练Faster R-CNN生成图片候选区域提取特征并送入图像Embedding层,然后将获取好的文本和图像表示通过Co-attention-transformer模块进行交互融合,得到最后的表征。

(2)Single-Stream类模型将图片、文本等不同模态的输入一视同仁,在同一个模型进行融合,例如VL-BERT[2]。2020年,Su Weijie等人提出了VL-BERT,它采用transformer作为主干,将视觉和语言嵌入特征同时输入模型。

3. 统一多模态模型

在之前的模型中,单模态数据集上训练的模型只能做各自领域的任务,否则它们的表现会大幅下降。要想学习多模态模型必须图文结合才行。这种多模态图文对数据数据量少,获取成本高。2021年,百度的Li Wei等人[3]提出的UNIMO模型,统一了单模态、多模态模型的训练方式,既可以利用海量的单模态数据,又能将多模态信号统一在一个语义空间内促进理解。

UNIMO的核心网络是Transformer,同时为图像和文本输入学习统一的语义表示。图像和文本数据分别通过预训练的Faster R-CNN和Bert进行特征提取和表示,多模态图文对数据被转换为图像表示序列和文本表示序列的拼接。

这三种类型数据共享模型参数,经过多层注意力机制后得到图像文本信息统一的语义表示,UNIMO结构如图4所示。其训练方式类似Bert, 此外论文还提出了一种跨模态对比学习的新预训练方法。

在多模态任务上, UNIMO超过了诸如ViLBERT、VLP、UNITER、Oscar、Villa等最新的多模预训练模型。而且在单模态任务上也取得了不错的效果,如图5(b)所示。

4. 视觉物体锚点模型

前面的几个模型只是将图像区域特征和文本特征连接起来作为输入,并不参考任何对齐线索,利用Transformer的self-attention机制,让模型自动学习整张图像和文本的语义对齐方式。Oscar的作者[4]提出把物体用作图像和文本语义层面上的锚点(Anchor Point),以简化图像和文本之间的语义对齐的学习任务。

使用Faster R-CNN等预训练物体检测器 ,将图像表示为一组图像区域特征,每个图像区域特征分配一个物体标签,同时使用预训练后的BERT得到物体标签的词嵌入表示。

该模型在共享空间中显式地将图像和文本关联在一起,物体则扮演图像、文本语义对齐中锚点的角色。在此例中,由于视觉重叠区域,“狗”和“沙发”在图像区域特征空间中相似,在单词嵌入空间中有所差异。

经过实验测试,该模型的性能在多个任务上已经超过SOTA模型。下表中 SoTAS、 SoTAB、和SoTAL分别表示小规模模型、与Bert-base和Bert-large规模相近的VLP模型。OscarB和OscarL分别是基于Bert-base和Bert-large训练的Oscar模型。

5. 总结

目前多模态研究已经取得了较大进展,但如果以构建能感知多模态信息并利用多模态信息跨越语义鸿沟的智能系统为目标,那么现在的研究仍处于初级阶段,既面临着挑战,也存在着机遇。在未来,多模态表示学习、多模态情感分析以及任务导向的大规模多模态人机交互系统等方向的发展值得我们关注。

Reference

[1] Lu J , Batra D , Parikh D , et al. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks[J]。 2019.

[2] Su W , Zhu X , Y Cao, et al. VL-BERT: Pre-training of Generic Visual-Linguistic Representations[J]。 2019.

[3] Li W , Gao C , Niu G , et al. UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning[J]。 2020.

[4] Li X , Yin X , Li C , et al. Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks[M]。 2020.

原文:李晓辰

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1062

    浏览量

    40016
  • 计算机视觉
    +关注

    关注

    8

    文章

    1575

    浏览量

    45555
  • 深度学习
    +关注

    关注

    73

    文章

    5200

    浏览量

    119803
  • 自然语言处理

    关注

    1

    文章

    506

    浏览量

    13091

原文标题:多模态预训练模型简述

文章出处:【微信号:NLP_lover,微信公众号:自然语言处理爱好者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    韩国Kakao宣布开发多模态大语言模型“蜜蜂”

    韩国互联网巨头Kakao最近宣布开发了一种名为“蜜蜂”(Honeybee)的多模态大型语言模型。这种创新模型能够同时理解和处理图像文本数据,为更丰富的交互和查询响应提供了可能性。
    的头像 发表于 01-19 16:11 229次阅读

    自动驾驶和多模态大语言模型的发展历程

    模态大语言模型(MLLM) 最近引起了广泛的关注,其将 LLM 的推理能力与图像、视频和音频数据相结合,通过多模态对齐使它们能够更高效地执行各种任务,包括图像分类、将
    发表于 12-28 11:45 157次阅读
    自动驾驶和多<b class='flag-5'>模态</b>大语言模型的发展历程

    成都汇阳投资关于多模态驱动应用前景广阔,上游算力迎机会!

    。Gemini 主打在多模态领域的突出能力,在输入端, Gemin 可以适应文本与音视频交叉的输入序列,比如自然图像、图表、截图、pdf 和视
    的头像 发表于 12-18 13:08 245次阅读
    成都汇阳投资关于多<b class='flag-5'>模态</b>驱动应用前景广阔,上游算力迎机会!

    北大&amp;华为提出:多模态基础大模型的高效微调

    深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和多模态领域展示出杰出的生成和推理能力。然而大模型巨大的参数量有两个明显缺点
    的头像 发表于 11-08 16:20 277次阅读
    北大&amp;华为提出:多<b class='flag-5'>模态</b>基础大模型的高效微调

    可以提取图像文本的5大Python库

    光学字符识别是一个古老但依然具有挑战性的问题,涉及从非结构化数据中(包括图像和PDF文档)检测和识别文本。它在银行、电子商务和社交媒体内容管理等领域具有广泛的应用。
    的头像 发表于 10-30 10:30 410次阅读
    可以提取<b class='flag-5'>图像</b><b class='flag-5'>文本</b>的5大Python库

    基于多模态学习的虚假新闻检测研究

    目前,单流架构模型在视频分类、情感分析、图像生成等多模态领域中得以广泛应用,单流模型具有结构简单、容易实现、高准确率等优势,在虚假新闻检测领域中,是一个极具潜力的研究方向。
    的头像 发表于 09-11 16:26 1037次阅读
    基于多<b class='flag-5'>模态</b><b class='flag-5'>学习</b>的虚假新闻检测研究

    适用于任意数据模态的自监督学习数据增强技术

    本文提出了一种适用于任意数据模态的自监督学习数据增强技术。   自监督学习算法在自然语言处理、计算机视觉等领域取得了重大进展。这些自监督学习
    的头像 发表于 09-04 10:07 743次阅读
    适用于任意数据<b class='flag-5'>模态</b>的自监督<b class='flag-5'>学习</b>数据增强技术

    更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」

    热度。Flamingo 具备强大的多模态上下文少样本学习能力。 Flamingo 走的技术路线是将大语言模型与一个预训练视觉编码器结合,并插入可学习的层来捕捉跨模态依赖,其采用图文对、
    的头像 发表于 07-16 20:45 380次阅读
    更强更通用:智源「悟道3.0」Emu多<b class='flag-5'>模态</b>大模型开源,在多<b class='flag-5'>模态</b>序列中「补全一切」

    VisCPM:迈向多语言多模态大模型时代

    随着 GPT-4 和 Stable Diffusion 等模型多模态能力的突飞猛进,多模态大模型已经成为大模型迈向通用人工智能(AGI)目标的下一个前沿焦点。总体而言,面向图像文本
    的头像 发表于 07-10 10:05 416次阅读
    VisCPM:迈向多语言多<b class='flag-5'>模态</b>大模型时代

    模态数据定制服务:提升智能化应用的关键利器

    在当今信息爆炸的时代,数据被认为是现代社会的石油,而多模态数据则是数据世界中的明珠。多模态数据是指结合了不同类型的信息,如文本图像、视频和声音等,它的应用范围非常广泛。通过充分利用多
    的头像 发表于 06-18 21:24 267次阅读

    基于预训练模型和语言增强的零样本视觉学习

    Stable Diffusion 多模态预训练模型 考虑多标签图像分类任务——每幅图像大于一个类别 如果已有图文对齐模型——能否用文本特征代替图像
    的头像 发表于 06-15 16:36 283次阅读
    基于预训练模型和语言增强的零样本视觉<b class='flag-5'>学习</b>

    基于文本图像模型的可控文本到视频生成

    1. 论文信息 2. 引言   大规模扩散模型在文本图像合成方面取得了巨大的突破,并在创意应用方面取得了成功。一些工作试图在视频领域复制这个成功,即在野外世界建模高维复杂视频分布。然而,训练这样
    的头像 发表于 06-14 10:39 540次阅读
    基于<b class='flag-5'>文本</b>到<b class='flag-5'>图像</b>模型的可控<b class='flag-5'>文本</b>到视频生成

    图像对齐所有模态,Meta开源多感官AI基础模型,实现大一统

    最近,很多方法学习文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的
    的头像 发表于 05-26 15:45 535次阅读
    用<b class='flag-5'>图像</b>对齐所有<b class='flag-5'>模态</b>,Meta开源多感官AI基础模型,实现大一统

    模态GPT:国内发布一款可以在线使用的多模态聊天机器人!

    基于开源多模态模型 OpenFlamingo,作者使用公开数据集创建了各种视觉指令数据,包括视觉问答、图像字幕、视觉推理、文本 OCR 和视觉对话。此外,还使用仅包含语言指令数据的语言模型组件进行了训练。
    的头像 发表于 05-12 09:55 837次阅读
    多<b class='flag-5'>模态</b>GPT:国内发布一款可以在线使用的多<b class='flag-5'>模态</b>聊天机器人!

    ImageBind:跨模态之王,将6种模态全部绑定!

    最近,很多方法学习文本、音频等对齐的图像特征。这些方法使用单对模态或者最多几种视觉模态。最终嵌入仅限于用于训练的
    的头像 发表于 05-11 09:30 608次阅读
    ImageBind:跨<b class='flag-5'>模态</b>之王,将6种<b class='flag-5'>模态</b>全部绑定!