Transformer模型的多模态学习应用-电子发烧友网

导读

随着Transformer在视觉中的崛起，Transformer在多模态中应用也是合情合理的事情，甚至以后可能会有更多的类似的paper。先来解释一下什么多模态，模态译作modality，多模态译作multimodel。多模态学习主要有一下几个方向：表征、转化、对齐、融合和协同学习。人就是生活在一个多模态的世界里面，文字、视觉、语言都是不同的模态，当我们能够同时从视觉、听觉、嗅觉等等来识别当前发生的事情，实际上我们就是在做了多模态的融合。而Transformer is All You Need这篇论文（从Attention is All You Need开始大家都成了标题党，X is All You Need）是属于协同学习（Co-learning）的范畴，将多个不同的tasks一起训练，共享模型参数。

背景介绍

这篇论文出自Facebook AI Research，文章提出了UniT，Unified Transformer model，用一个Transformer模型去同时学习多个不同的tasks，甚至这些tasks的领域都可能不同，从目标检测到语言理解，一共训练了7个tasks8个datasets，但是各个beachmark上都取得了不错的成绩。Transformer在各种不同的领域中都取得了极大的成功，例如NLP、images、video和audio，不仅在以上领域表现出色，甚至在一些vision-and-language reasoning的tasks上，比如VQA（visual question answering）也有很强的表现。但是现有的一些多模态的模型基本都是关注某一个领域的不同task或者就是用将近N倍的参数去处理N个不同的领域问题。在17年谷歌提出的《One Model To Learn Them All》［1］中也使用了Transformer encoder-decoder的架构，但是不同的是，它对于每个task都需要一个与之对应的decoder，如下图。类似的还有MT-DNN［2］和VILBERT-MT［3］等等。

UniT： One transformer to learn them all

用单个模型去训练跨模态的任务，UniT包括对于不同的task对于的encoder，因为不同模态的数据需要经过处理才能放到同一个网络，就和人获得不同模态的信息需要不同的器官一样。然后这些信息会经过一个共享decoder，最后各个task会有对应的简单的head进行最后的输出。UniT有两种不同模态的输入：图像和文本。也就是说只需要两个对应的encoder就可以训练7种不同的任务，可以形象地比喻这个网络有两个不同的器官（Image encoder和Text encoder）。

Image encoder一些视觉相关的task，比如目标检测、视觉问答等都需要处理图像，在UniT中，图像先经过一个卷积的backbone，然后再用transformer对特征进行编码，进一步得到编码后的向量。图像的处理与DETR［4］类似。xv=B（I），xv是经过卷积神经网络B得到的特征图，B采用了ResNet-50，并在C5中使用了空洞卷积。再用encoder Ev得到图像编码的向量，这里使用encoder进行编码时为了区别不同的task加入了task embedding以进行区分，和IPT中的作法类似，因为不同的task它可能关注的点不一样。

Text encoder对于文本的输入，采用BERT来进行编码，BERT是一个在大规模语料库上预训练好的模型。给定输入的文本，和BERT处理一样，先将文本编码成tokens的序列{w1， · · · ， wS}，和image encoder一样，还需要加入一个wtask来区分不同的task。在实现中，采用了embedding维度是768，12层的BERT。

Domain-agnostic UniT decoder领域不可知的解码器，和image和text encoder不一样的是encoder是针对某一特定领域的，但是encoder的输入可以是来自与image encoder或者是text encoder，所以是领域不可知。对于纯视觉、纯文本和视觉文本混合的task，encoder的输入是不一样的，纯视觉和纯文本的task的情况下，decoder的输入就是它们各自encoder的输出，但是对于视觉文本的task，decoder的输入是两个encoder输出的拼接，这很好理解，因为需要VQA这种同时会有image和text的输入。

Task-specific output heads每个task可能最后的输出差别很大，因此最后使用对应的prediction head来进行最后的预测。对于检测任务来说，最后decoder产生的每个向量都会produce一个输出，输出包括类别和bounding box。当然，对于不同的task，decoder输入的query是不同的。

Experiments

下图是所用到的8个不同的数据集以及上面的测试结果，可以看到不同任务的区别还是很大的。

根据下图的对比，其实UniT有些task离SOTA还是差的有点远，所以这个领域还是有很大的挖掘的空间的。

Conclusion

在这篇论文中，我们可以看到，Transformer确实是可以来处理不同的领域的，跨领域学习确实是个很大的难题，那么Transformer能否成为多模态领域发展的一个跳板呢？我们拭目以待。

Reference论文链接：https://arxiv.org/abs/2102.10772
编辑：lyn

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

视觉

视觉

+关注

关注
1

文章
140

浏览量
23681
paper

paper

+关注

关注
0

文章
7

浏览量
3436
Transformer

Transformer

+关注

关注
0

文章
130

浏览量
5899

原文标题：Facebook提出UniT：Transformer is All You Need

文章出处：【微信号：gh_a204797f977b，微信公众号：深度学习实战】欢迎添加关注！文章转载请注明出处。

一文详解Transformer神经网络模型

Transformer模型在强化学习领域的应用主要是应用于策略学习和值函数近似。强化学习是指让机器在与环境互动的过程中，通过试错来

发表于 02-20 09:55 •2156次阅读

一文详解<b class='flag-5'>Transformer</b>神经网络<b class='flag-5'>模型</b>

从Google多模态大模型看后续大模型应该具备哪些能力

前段时间Google推出Gemini多模态大模型，展示了不凡的对话能力和多模态能力，其表现究竟如何呢？

发表于 12-28 11:19 •479次阅读

从Google多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>看后续大<b class='flag-5'>模型</b>应该具备哪些能力

大语言模型背后的Transformer，与CNN和RNN有何不同

电子发烧友网报道（文/李弯弯）近年来，随着大语言模型的不断出圈，Transformer这一概念也走进了大众视野。Transformer是一种非常流行的深度学习

发表于 12-25 08:36 •1593次阅读

大语言<b class='flag-5'>模型</b>背后的<b class='flag-5'>Transformer</b>，与CNN和RNN有何不同

大模型+多模态的3种实现方法

我们知道，预训练LLM已经取得了诸多惊人的成就，然而其明显的劣势是不支持其他模态（包括图像、语音、视频模态）的输入和输出，那么如何在预训练LLM的基础上引入跨模态的信息，让其变得更强大、更通用呢？本节将介绍“大

发表于 12-13 13:55 •732次阅读

大<b class='flag-5'>模型</b>+多<b class='flag-5'>模态</b>的3种实现方法

Transformer迎来强劲竞争者新架构Mamba引爆AI圈！

作为通用序列模型的骨干，Mamba 在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面，无论是预训练还是下游评估，他们的 Mamba-3B 模型都优于同等规模的 Tra

发表于 12-07 14:14 •312次阅读

关于深度学习模型Transformer模型的具体实现方案

Transformer 本质上是一个 Encoder-Decoder 架构。因此中间部分的 Transformer 可以分为两个部分：编码组件和解码组件。

发表于 11-17 10:34 •320次阅读

探究编辑多模态大语言模型的可行性

不同于单模态模型编辑，多模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态

发表于 11-09 14:53 •258次阅读

北大&华为提出：多模态基础大模型的高效微调

深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和多模态领域展示出杰出的生成和推理能力。然而大模型巨大的参数量有两个明显

发表于 11-08 16:20 •317次阅读

为什么transformer性能这么好？Transformer的上下文学习能力是哪来的？

为什么 transformer 性能这么好？它给众多大语言模型带来的上下文学习 (In-Context Learning) 能力是从何而来？在人工智能领域里，transformer 已

发表于 09-25 12:05 •811次阅读

深度学习模型部署与优化：策略与实践；L40S与A100、H100的对比分析

深度学习、机器学习、生成式AI、深度神经网络、抽象学习、Seq2Seq、VAE、GAN、GPT、BERT、预训练语言模型、Transformer

发表于 09-22 14:13 •663次阅读

基于Transformer多模态先导性工作

多模态（Multimodality）是指在信息处理、传递和表达中涉及多种不同的感知模态或信息来源。这些感知模态可以包括语言、视觉、听觉、触觉等，它们共同作用来传递更丰富、更全面的信息。在多模态

发表于 08-21 09:49 •557次阅读

transformer模型详解：Transformer 模型的压缩方法

动机&背景 Transformer 模型在各种自然语言任务中取得了显著的成果，但内存和计算资源的瓶颈阻碍了其实用化部署。低秩近似和结构化剪枝是缓解这一瓶颈的主流方法。然而，作者通过分析发现，结构化

发表于 07-17 10:50 •1357次阅读

更强更通用：智源「悟道3.0」Emu多模态大模型开源，在多模态序列中「补全一切」

热度。Flamingo 具备强大的多模态上下文少样本学习能力。 Flamingo 走的技术路线是将大语言模型与一个预训练视觉编码器结合，并插入可学习的层来捕捉跨

发表于 07-16 20:45 •406次阅读

2D Transformer 可以帮助3D表示学习吗？

预训练的2D图像或语言Transformer：作为基础Transformer模型，具有丰富的特征表示能力。作者选择了先进的2D Transformer

发表于 07-03 10:59 •445次阅读

基于Transformer的大型语言模型（LLM）的内部机制

工作原理变得越来越重要。更好地理解这些模型是如何做出决策的，这对改进模型和减轻其故障（如幻觉或推理错误）至关重要。众所周知，最近 LLM 成功的一个重要因素是它们能够从上下文中学习和推理。LLM 对这些上下文的

发表于 06-25 15:08 •1042次阅读