0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在多模态的语境中利用Transformer强大的表达能力?

深度学习自然语言处理 来源:夕小瑶的卖萌屋 作者:子龙 2021-03-29 16:47 次阅读

曾几何时,多模态预训练已经不是一个新的话题,各大顶会诸多论文仿佛搭上Visual和BERT,就能成功paper+=1,VisualBERT、ViLBERT层出不穷,傻傻分不清楚。..。..这些年NLPer在跨界上忙活的不亦乐乎,提取视觉特征后和文本词向量一同输入到万能的Transformer中,加大力度预训练,总有意想不到的SOTA。

如何在多模态的语境中更细致准确地利用Transformer强大的表达能力呢?Facebook最新的 Transformer is All You Need 也许可以给你答案。

a12e796a-8e8f-11eb-8b86-12bb97331649.png

这篇貌似标题党的文章开宗明义,针对文本+视觉的多模态任务,用好Transformer就够了,与许多前作不同,这次提出的模型一个模型可以解决多个任务:目标检测、自然语言理解、视觉问答,各个模型板块各司其职、条理清晰:视觉编码器、文本编码器、特征融合解码器,都是建立在多层Transformer之上,最后添加为每个任务设计的处理器,通过多任务训练,一举刷新了多个任务的榜单。

a1a44924-8e8f-11eb-8b86-12bb97331649.png

文本编码器用Transformer提取文本特征是个老生常谈的问题,从BERT石破天惊开始,纯文本领域近乎已被Transformer蚕食殆尽,所以该文也不能免俗,直接借用BERT的结构提取文本内容,区别在于,为了解决多个任务,在文本序列前添加了一个针对不同任务的参数向量,在最后输出隐藏状态到解码器时再去掉。

视觉编码器本文将Transformer强大的表达能力运用到视觉特征的提取中,由于图片像素点数量巨大,首先通过基于卷积神经网络的ResNet-50提取卷积特征,极大程度上地降低了特征数量,最终得到的feature map大小为,然后用全联接层调整单个特征的维度到,再利用多层Transformer中的注意力机制提取各个feature之间的关系,由于Transformer的输入是序列,文章将拉成一条长为的序列,另外和文本编码器类似,同样添加了与下游任务相关的。

其中是调整维度的全联接层,是多层Transformer编码器。

模态融合解码器多模态的关键之一就在于怎么同时利用多个模态,在本文中是通过Transformer的解码器实现的,这个解码器首先将任务相关的query做self-attention,再将结果与文本编码器和视觉编码器的结果做cross-attention,针对单一模态的任务,选取对应编码器的输出即可,针对多模态的任务,取两个编码器输出的拼接。

任务处理器(task-specific output head)之前多模态预训练模型往往只针对某一项任务,而本文提出的一个模型可以解决多个文本+视觉任务,与BERT可以解决多个文本任务类似,本文的模型在模态融合解码器的结果上添加为每个任务设计的处理器,这个处理器相对简单,用于从隐藏状态中提取出与特定任务相匹配的特征。

目标检测:添加box_head和class_head两个前馈神经网络从最后一层隐藏状态中提取特征用来确定目标位置和预测目标类型。

自然语言理解、视觉问答:通过基于全联接层的分类模型实现,将模态融合解码器结果的第一位隐藏状态输入到两层全联接层并以GeLU作为激活函数,最后计算交叉熵损失。

实验与总结本文提出的多模态预训练模型各个板块划分明确,通过多层Transformer分别提取特征,再利用解码器机制融合特征并完成下游任务,同时借助最后一层任务相关的处理器,可以通过一个模型解决多个任务,同时也让多任务预训练成为可能,并在实验中的各个数据集上得到了论文主要进行了两部分实验:

多任务学习:

这里的多任务涉及目标检测和视觉问答两个任务,在目标检测上运用COCO和VG两个数据集,在视觉问答上运用VQAv2数据集。对比了单一任务和多任务同时训练的结果,同时对比了不同任务共用解码器的结果。

a1f97444-8e8f-11eb-8b86-12bb97331649.png

从结果中我们可以看出,单纯的使用多任务训练并不一定可以提高结果,不同任务间虽然相关但是却不完全相同,这可能是任务本身差异或者数据集的特性所导致,第二行和第五行可以很明显地看出COCO上的目标检测和VQAv2的视觉问答相结合后,结果有显著的下降,然而VG上的目标检测却能够和视觉问答很好地结合,通过三个数据集上的共同训练,可以得到最高的结果。

多模态学习:

这一实验中,为了体现所提出模型能够有效解决多个多种模态的不同任务,论文作者在之前COCO、VG、VQAv2的基础上,增加了单一文本任务GLUE的几个数据集(QNLI、QQP、MNLI、SST-2)和视觉推断数据集SNLI-VE,从数据集的数量上可以看出本文模型的全能性。与本文对比的有纯文本的BERT、基于Transformer的视觉模型DETR、多模态预训练模型VisualBERT。

a2736164-8e8f-11eb-8b86-12bb97331649.png

仔细看各个数据集上的结果,不难看出本文提出的模型其实并不能在所有数据集多上刷出SOTA,比如COCO上逊色于DETR,SNLI-VE逊色于VisualBERT,SST-2逊色于BERT,其他数据集上都有一定的提高,但是模型却胜在一个“全”字,模型的结构十分清晰明了,各个板块的作用十分明确,同时针对不同任务的处理器也对后续多模态任务富有启发性。

原文标题:【Transformer】没有什么多模态任务是一层Transformer解决不了的!

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    41

    文章

    3360

    浏览量

    131540
  • Transforme
    +关注

    关注

    0

    文章

    12

    浏览量

    8759
  • 多模
    +关注

    关注

    1

    文章

    21

    浏览量

    10804

原文标题:【Transformer】没有什么多模态任务是一层Transformer解决不了的!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于Transformer的多模态BEV融合方案

    由于大量的相机和激光雷达特征以及注意力的二次性质,将 Transformer 架构简单地应用于相机-激光雷达融合问题是很困难的。
    发表于 01-23 11:39 222次阅读
    基于<b class='flag-5'>Transformer</b>的多<b class='flag-5'>模态</b>BEV融合方案

    从Google多模态大模型看后续大模型应该具备哪些能力

    前段时间Google推出Gemini多模态大模型,展示了不凡的对话能力和多模态能力,其表现究竟如何呢?
    的头像 发表于 12-28 11:19 477次阅读
    从Google多<b class='flag-5'>模态</b>大模型看后续大模型应该具备哪些<b class='flag-5'>能力</b>

    成都汇阳投资关于多模态驱动应用前景广阔,上游算力迎机会!

    【Gemini 大模型主打多模态,性能对标 GPT-4】 当地时间12月6日, 谷歌公司宣布推出其规模最大、功能最强的多模态大模型 Gemini, 其最强大的 TPU (张量处理单元)系统
    的头像 发表于 12-18 13:08 276次阅读
    成都汇阳投资关于多<b class='flag-5'>模态</b>驱动应用前景广阔,上游算力迎机会!

    大模型+多模态的3种实现方法

    我们知道,预训练LLM已经取得了诸多惊人的成就, 然而其明显的劣势是不支持其他模态(包括图像、语音、视频模态)的输入和输出,那么如何在预训练LLM的基础上引入跨模态的信息,让其变得更
    的头像 发表于 12-13 13:55 727次阅读
    大模型+多<b class='flag-5'>模态</b>的3种实现方法

    求助,AD8132谐波测试电路transformer有没有推荐型号?

    AD8132谐波测试电路transformer有没有推荐型号?
    发表于 11-16 06:15

    为什么transformer性能这么好?Transformer的上下文学习能力是哪来的?

    为什么 transformer 性能这么好?它给众多大语言模型带来的上下文学习 (In-Context Learning) 能力是从何而来?在人工智能领域里,transformer 已成为深度学习
    的头像 发表于 09-25 12:05 805次阅读
    为什么<b class='flag-5'>transformer</b>性能这么好?<b class='flag-5'>Transformer</b>的上下文学习<b class='flag-5'>能力</b>是哪来的?

    基于Transformer模态先导性工作

    模态(Multimodality)是指在信息处理、传递和表达中涉及多种不同的感知模态或信息来源。这些感知模态可以包括语言、视觉、听觉、触觉等,它们共同作用来传递更丰富、更全面的信息。
    的头像 发表于 08-21 09:49 555次阅读
    基于<b class='flag-5'>Transformer</b>多<b class='flag-5'>模态</b>先导性工作

    transformer模型详解:Transformer 模型的压缩方法

    剪枝在高稀疏率时往往不可避免地删除表达神经元,这将导致模型性能严重降低。低秩近似则旨在压缩表达神经元,它对于压缩神经元中的相干部分十分有效,其本质就是提取神经元共享相干子空间的公共基,该方法在 Transformer 结构上也遇
    的头像 发表于 07-17 10:50 1348次阅读
    <b class='flag-5'>transformer</b>模型详解:<b class='flag-5'>Transformer</b> 模型的压缩方法

    更强更通用:智源「悟道3.0」Emu多模态大模型开源,在多模态序列中「补全一切」

    热度。Flamingo 具备强大的多模态上下文少样本学习能力。 Flamingo 走的技术路线是将大语言模型与一个预训练视觉编码器结合,并插入可学习的层来捕捉跨模态依赖,其采用图文对、
    的头像 发表于 07-16 20:45 404次阅读
    更强更通用:智源「悟道3.0」Emu多<b class='flag-5'>模态</b>大模型开源,在多<b class='flag-5'>模态</b>序列中「补全一切」

    2D Transformer 可以帮助3D表示学习吗?

    预训练的2D图像或语言Transformer:作为基础Transformer模型,具有丰富的特征表示能力。作者选择了先进的2D Transformer模型作为基础模型,例如Vision
    的头像 发表于 07-03 10:59 443次阅读
    2D <b class='flag-5'>Transformer</b> 可以帮助3D表示学习吗?

    Transformer在下一个token预测任务上的SGD训练动态

      【导读】 AI理论再进一步,破解ChatGPT指日可待? Transformer架构已经横扫了包括自然语言处理、计算机视觉、语音、多模态等多个领域,不过目前只是实验效果非常惊艳
    的头像 发表于 06-12 10:11 515次阅读
    <b class='flag-5'>Transformer</b>在下一个token预测任务上的SGD训练动态

    Transformer结构及其应用详解

    本文首先详细介绍Transformer的基本结构,然后再通过GPT、BERT、MT-DNN以及GPT-2等基于Transformer的知名应用工作的介绍并附上GitHub链接,看看Transformer是如
    的头像 发表于 06-08 09:56 1449次阅读
    <b class='flag-5'>Transformer</b>结构及其应用详解

    如何利用LLM做多模态任务?

    大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力,但目前还未开放多模态输入接口
    的头像 发表于 05-22 15:57 517次阅读
    如何<b class='flag-5'>利用</b>LLM做多<b class='flag-5'>模态</b>任务?

    邱锡鹏团队提出具有内生跨模态能力的SpeechGPT,为多模态LLM指明方向

    大型语言模型(LLM)在各种自然语言处理任务上表现出惊人的能力。与此同时,多模态大型语言模型,如 GPT-4、PALM-E 和 LLaVA,已经探索了 LLM 理解多模态信息的能力。然
    的头像 发表于 05-22 14:38 448次阅读
    邱锡鹏团队提出具有内生跨<b class='flag-5'>模态</b><b class='flag-5'>能力</b>的SpeechGPT,为多<b class='flag-5'>模态</b>LLM指明方向

    如何利用LLM做多模态任务?

    大型语言模型LLM(Large Language Model)具有很强的通用知识理解以及较强的逻辑推理能力,但其只能处理文本数据。虽然已经发布的GPT4具备图片理解能力,但目前还未开放多模态输入接口并且不会透露任何模型上技术细节
    的头像 发表于 05-11 17:09 679次阅读
    如何<b class='flag-5'>利用</b>LLM做多<b class='flag-5'>模态</b>任务?