0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

简述文本与图像领域的多模态学习有关问题

自然语言处理爱好者 来源:哈工大SCIR 作者:李晓辰 2021-08-26 16:29 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

来自:哈工大SCIR

本期导读:近年来研究人员在计算机视觉和自然语言处理方向均取得了很大进展,因此融合了二者的多模态深度学习也越来越受到关注。本期主要讨论结合文本和图像的多模态任务,将从多模态预训练模型中的几个分支角度,简述文本与图像领域的多模态学习有关问题。

1. 引言

近年来,计算机视觉和自然语言处理方向均取得了很大进展。而融合二者的多模态深度学习也越来越受到关注,在基于图像和视频的字幕生成、视觉问答(VQA)、视觉对话、基于文本的图像生成等方面研究成果显著,下图1展示了有关多模态深度学习的应用范畴。

在这些任务中,无论是文本还是语音,自然语言都起到了帮助计算机“理解”图像内容的关键作用,这里的“理解”指的是对齐语言中蕴含的语义特征与图像中蕴含的图像特征。本文主要关注于结合文本和图像的多模态任务,将从多模态预训练模型中的几个分支来分析目前图像与文本的多模态信息处理领域的有关问题。

2. 多模态预训练模型

学习输入特征的更好表示是深度学习的核心内容。在传统的NLP单模态领域,表示学习的发展已经较为完善,而在多模态领域,由于高质量有标注多模态数据较少,因此人们希望能使用少样本学习甚至零样本学习。最近两年出现了基于Transformer结构的多模态预训练模型,通过海量无标注数据进行预训练,然后使用少量有标注数据进行微调即可。

多模态预训练模型根据信息融合的方式可分为两大类,分别是Cross-Stream类和Single-Stream类。

(1)Cross-Stream类模型是指将不同模态的输入分别处理之后进行交叉融合,例如ViLBERT[1]。2019年Lu Jiasen等人将输入的文本经过文本Embedding层后被输入到Transformer编码器中提取上下文信息。

使用预训练Faster R-CNN生成图片候选区域提取特征并送入图像Embedding层,然后将获取好的文本和图像表示通过Co-attention-transformer模块进行交互融合,得到最后的表征。

(2)Single-Stream类模型将图片、文本等不同模态的输入一视同仁,在同一个模型进行融合,例如VL-BERT[2]。2020年,Su Weijie等人提出了VL-BERT,它采用transformer作为主干,将视觉和语言嵌入特征同时输入模型。

3. 统一多模态模型

在之前的模型中,单模态数据集上训练的模型只能做各自领域的任务,否则它们的表现会大幅下降。要想学习多模态模型必须图文结合才行。这种多模态图文对数据数据量少,获取成本高。2021年,百度的Li Wei等人[3]提出的UNIMO模型,统一了单模态、多模态模型的训练方式,既可以利用海量的单模态数据,又能将多模态信号统一在一个语义空间内促进理解。

UNIMO的核心网络是Transformer,同时为图像和文本输入学习统一的语义表示。图像和文本数据分别通过预训练的Faster R-CNN和Bert进行特征提取和表示,多模态图文对数据被转换为图像表示序列和文本表示序列的拼接。

这三种类型数据共享模型参数,经过多层注意力机制后得到图像文本信息统一的语义表示,UNIMO结构如图4所示。其训练方式类似Bert, 此外论文还提出了一种跨模态对比学习的新预训练方法。

在多模态任务上, UNIMO超过了诸如ViLBERT、VLP、UNITER、Oscar、Villa等最新的多模预训练模型。而且在单模态任务上也取得了不错的效果,如图5(b)所示。

4. 视觉物体锚点模型

前面的几个模型只是将图像区域特征和文本特征连接起来作为输入,并不参考任何对齐线索,利用Transformer的self-attention机制,让模型自动学习整张图像和文本的语义对齐方式。Oscar的作者[4]提出把物体用作图像和文本语义层面上的锚点(Anchor Point),以简化图像和文本之间的语义对齐的学习任务。

使用Faster R-CNN等预训练物体检测器 ,将图像表示为一组图像区域特征,每个图像区域特征分配一个物体标签,同时使用预训练后的BERT得到物体标签的词嵌入表示。

该模型在共享空间中显式地将图像和文本关联在一起,物体则扮演图像、文本语义对齐中锚点的角色。在此例中,由于视觉重叠区域,“狗”和“沙发”在图像区域特征空间中相似,在单词嵌入空间中有所差异。

经过实验测试,该模型的性能在多个任务上已经超过SOTA模型。下表中 SoTAS、 SoTAB、和SoTAL分别表示小规模模型、与Bert-base和Bert-large规模相近的VLP模型。OscarB和OscarL分别是基于Bert-base和Bert-large训练的Oscar模型。

5. 总结

目前多模态研究已经取得了较大进展,但如果以构建能感知多模态信息并利用多模态信息跨越语义鸿沟的智能系统为目标,那么现在的研究仍处于初级阶段,既面临着挑战,也存在着机遇。在未来,多模态表示学习、多模态情感分析以及任务导向的大规模多模态人机交互系统等方向的发展值得我们关注。

Reference

[1] Lu J , Batra D , Parikh D , et al. ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks[J]。 2019.

[2] Su W , Zhu X , Y Cao, et al. VL-BERT: Pre-training of Generic Visual-Linguistic Representations[J]。 2019.

[3] Li W , Gao C , Niu G , et al. UNIMO: Towards Unified-Modal Understanding and Generation via Cross-Modal Contrastive Learning[J]。 2020.

[4] Li X , Yin X , Li C , et al. Oscar: Object-Semantics Aligned Pre-training for Vision-Language Tasks[M]。 2020.

原文:李晓辰

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像
    +关注

    关注

    2

    文章

    1097

    浏览量

    42473
  • 计算机视觉
    +关注

    关注

    9

    文章

    1716

    浏览量

    47753
  • 深度学习
    +关注

    关注

    73

    文章

    5613

    浏览量

    124723
  • 自然语言处理

    关注

    1

    文章

    630

    浏览量

    14753

原文标题:多模态预训练模型简述

文章出处:【微信号:NLP_lover,微信公众号:自然语言处理爱好者】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NVIDIA发布Nemotron 3 Nano Omni开放式模态模型

    今日发布的 NVIDIA Nemotron 3 Nano Omni 是一款开放式模态模型,它将上述功能集成至一个系统中,使智能体能够对视频、音频、图像文本进行高级推理,从而提供更快
    的头像 发表于 05-08 10:06 575次阅读

    模态大模型 前沿算法与实战应用 第一季》精品课程简介

    调整语调匹配用户情绪。 2. 医疗影像诊断:图像+文本模态分析 图像编码 :用ResNet提取CT影像的病灶特征,生成1024维视觉向量
    发表于 05-01 17:46

    视美泰模态融合+姿态感知技术,让机器真正 “读懂” 世界

    通过多维感知与逻辑判断,让冰冷的机器拥有了近乎人类的场景洞察与行为解析能力。超越视觉,模态融合让决策更"聪明"在复杂的实际场景中,仅靠图像识别往往会产生误报。视美泰在AI算法架构中引入了
    的头像 发表于 04-29 14:59 260次阅读
    视美泰<b class='flag-5'>多</b><b class='flag-5'>模态</b>融合+姿态感知技术,让机器真正 “读懂” 世界

    ADPD4100/ADPD4101模态传感器前端:功能特点与应用解析

    ADPD4100/ADPD4101模态传感器前端:功能特点与应用解析 一、引言 在电子设计领域,传感器前端的性能对整个系统的表现起着至关重要的作用。ADPD4100/ADPD4101作为
    的头像 发表于 03-27 14:50 227次阅读

    ADPD4000/ADPD4001:模态传感器前端的卓越之选

    传感器前端,为众多应用领域带来了新的解决方案。本文将详细介绍ADPD4000/ADPD4001的特性、工作原理、应用模式以及相关寄存器配置,希望能为电子工程师们在设计过程中提供有价值的参考。 文件下载: ADPD4000.pdf 一、产品特性剖析 1.1
    的头像 发表于 03-27 14:45 234次阅读

    ADPD4200 模态传感器前端:功能、应用与设计要点

    ADPD4200 模态传感器前端:功能、应用与设计要点 在当今的电子设计领域模态传感器前端的应用越来越广泛,它能够集成多种功能,满足不
    的头像 发表于 03-27 09:35 259次阅读

    商汤科技正式发布并开源全新模态模型架构NEO

    商汤科技正式发布并开源了与南洋理工大学S-Lab合作研发的全新模态模型架构 —— NEO,为日日新SenseNova 模态模型奠定了新一代架构的基石。
    的头像 发表于 12-08 11:19 1233次阅读
    商汤科技正式发布并开源全新<b class='flag-5'>多</b><b class='flag-5'>模态</b>模型架构NEO

    格灵深瞳模态大模型Glint-ME让图文互搜更精准

    在电商、安防等场景下,图文互搜应用广泛。随着以CLIP为代表的模态表征方法相继提出,过去单一模态搜索(文搜文、图搜图)被突破,模型可以同时理解文本
    的头像 发表于 11-02 15:56 1925次阅读
    格灵深瞳<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型Glint-ME让图文互搜更精准

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态嵌入模型。该模型是首个通过单一模型支持
    的头像 发表于 10-29 17:15 423次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入模型

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    细化需求,系统需实时调整响应策略 1.2 轮对话系统鸟瞰:三颗“核心”协同驱动RK3576 模态交互对话方案基于 RKLLM 的核心运作,依赖于图像视觉编码器、大语言模型与对话管
    发表于 09-05 17:25

    浅析模态标注对大模型应用落地的重要性与标注实例

    ”的关键工序——模态标注重要性日益凸显。 一、什么是模态标注? 模态标注是指对
    的头像 发表于 09-05 13:49 2954次阅读

    基于米尔瑞芯微RK3576开发板的Qwen2-VL-3B模型NPU模态部署评测

    案例:支持图像文本交互 步骤 1:环境准备 步骤 2:模型的获取、验证与格式转换 步骤 3:修改代码并交叉编译可执行文件并上传到板子上 步骤 4:上传文件到开发板 性能测试 Tips
    发表于 08-29 18:08

    商汤科技模态通用智能战略思考

    时间是最好的试金石,AI领域尤其如此。当行业热议大模型走向时,商汤早已锚定“模态通用智能”——这是我们以深厚研究积累和实践反复验证的可行路径。
    的头像 发表于 08-14 09:33 1363次阅读

    飞凌嵌入式RK3576模态大模型图像理解助手,让嵌入式设备“看懂”世界

    (LLM)+视觉语言模型(VLM)模态架构,推出模态大模型图像理解助手,为嵌入式设备打造 “智能视觉中枢”,让终端设备能够真正 “看懂”
    的头像 发表于 07-25 11:09 1888次阅读
    飞凌嵌入式RK3576<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型<b class='flag-5'>图像</b>理解助手,让嵌入式设备“看懂”世界

    模态+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式

    模态+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式
    的头像 发表于 06-12 10:17 855次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式