如何让Transformer在多种模态下处理不同领域的广泛应用？-电子发烧友网

一个模型完成了CV，NLP方向的7个任务，每个任务上表现都非常好。

Transformer架构在自然语言处理和其他领域的机器学习(ML)任务中表现出了巨大的成功，但大多仅限于单个领域或特定的多模态领域的任务。例如，ViT专门用于视觉相关的任务，BERT专注于语言任务，而VILBERT-MT只用于相关的视觉和语言任务。

一个自然产生的问题是：我们能否建立一个单一的Transformer，能够在多种模态下处理不同领域的广泛应用？最近，Facebook的一个人工智能研究团队进行了一个新的统一Transformer(UniT) encoder-decoder模型的挑战，该模型在不同的模态下联合训练多个任务，并通过一组统一的模型参数在这些不同的任务上都实现了强大的性能。

Transformer首先应用于sequence-to-sequence模型的语言领域。它们已经扩展到视觉领域，甚至被应用于视觉和语言的联合推理任务。尽管可以针对各种下游任务中的应用对预先训练好的Transformer进行微调，并获得良好的结果，但这种模型微调方法会导致为每个下游任务创建不同的参数集。

Facebook的人工智能研究人员提出，一个Transformer可能就是我们真正需要的。他们的UniT是建立在传统的Transformer编码器-解码器架构上，包括每个输入模态类型的独立编码器，后面跟一个具有简单的每个任务特定的头的解码器。输入有两种形式：图像和文本。首先，卷积神经网络骨干网提取视觉特征，然后BERT将语言输入编码成隐藏状态序列。然后，Transformer解码器应用于编码的单个模态或两个编码模态的连接序列(取决于任务是单模态还是多模态)。最后，Transformer解码器的表示将被传递到特定任务的头，该头将输出最终的预测。

UniT模型概要

评估UniT的性能，研究人员进行了实验，需要共同学习来自不同领域的许多流行的任务：COCO目标检测和 Visual Genome数据集，语言理解任务的GLUE基准(QNLI, QQP、MNLI-mismatched SST-2)，以及视觉推理任务VQAv2 SNLI-VE数据集。

多任务训练的UniT性能优于单独训练的目标检测和VQA

基于UniT模型的目标检测与VQA的分析

UniT模型在8个数据集的7个任务上的性能

具有共享解码器的UniT模型的预测

结果表明，所提出的UniT 模型同时处理8个数据集上的7个任务，在统一的模型参数集下，每个任务都有较强的性能。强大的性能表明UniT有潜力成为一种领域未知的transformer 架构，向更通用的智能的目标迈进了一步。

原文标题：【多模态】来自Facebook AI的多任务多模态的统一Transformer：向更通用的智能迈出了一步

文章出处：【微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

责任编辑：haq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

AI

AI

+关注

关注
87

文章
26396

浏览量
264004
人工智能

人工智能

+关注

关注
1776

文章
43766

浏览量
230557
机器学习

机器学习

+关注

关注
66

文章
8105

浏览量
130542

原文标题：【多模态】来自Facebook AI的多任务多模态的统一Transformer：向更通用的智能迈出了一步

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

三坐标测量仪的高精度测量功能与广泛应用领域详解

三坐标测量仪作为一种高精度的测量设备，被广泛应用于各种复杂零件的检测和测量。它综合了机械、光学、电子、计算机等多种技术，能够准确测量物体的尺寸、形状、位置和曲面特征等多个方面。具有广泛的应用领

发表于 02-22 09:12 •488次阅读

基于Transformer的多模态BEV融合方案

由于大量的相机和激光雷达特征以及注意力的二次性质，将 Transformer 架构简单地应用于相机-激光雷达融合问题是很困难的。

发表于 01-23 11:39 •220次阅读

成都汇阳投资关于多模态驱动应用前景广阔，上游算力迎机会!

【Gemini 大模型主打多模态，性能对标 GPT-4】当地时间12月6日，谷歌公司宣布推出其规模最大、功能最强的多模态大模型 Gemini, 其最强大的 TPU (张量处理单元)系统

发表于 12-18 13:08 •274次阅读

Transformer迎来强劲竞争者新架构Mamba引爆AI圈！

作为通用序列模型的骨干，Mamba 在语言、音频和基因组学等多种模态中都达到了 SOTA 性能。在语言建模方面，无论是预训练还是下游评估，他们的 Mamba-3B 模型都优于同等规模的 Transformer 模型，并能与两倍于

发表于 12-07 14:14 •311次阅读

LLM的Transformer是否可以直接处理视觉Token？

多种LLM Transformer都可以提升Visual Encoding。例如用LLaMA和OPT的不同Transformer层都会有提升，而且不同层之间也会体现不同的规律。

发表于 11-03 14:10 •245次阅读

蓝牙设备在嵌入式领域的广泛应用

电子发烧友网站提供《蓝牙设备在嵌入式领域的广泛应用.pdf》资料免费下载

发表于 10-19 10:50 •3次下载

揭秘物联网卡的广泛应用领域

揭秘物联网卡的广泛应用领域

发表于 09-14 10:09 •369次阅读

基于多模态学习的虚假新闻检测研究

目前，单流架构模型在视频分类、情感分析、图像生成等多模态领域中得以广泛应用，单流模型具有结构简单、容易实现、高准确率等优势，在虚假新闻检测领域中，是一个极具潜力的研究方向。

发表于 09-11 16:26 •1180次阅读

IGBT在电力领域的广泛应用

IGBT在电力电子领域广泛应用，尤其在需要在宽速度范围内精确控制且背景噪音最小的脉冲宽度调制（PWM）伺服和三相驱动中。这些器件还可以用于需要频繁开关的电源电路，如不间断电源（UPS）和开关电源

发表于 09-07 15:30 •433次阅读

BEV人工智能transformer

BEV人工智能transformer 人工智能Transformer技术是一种自然语言处理领域的重要技术，广泛应用于自然语言理解、机器翻译

发表于 08-22 15:59 •615次阅读

电磁铁的广泛应用

电磁铁是一种运用电流通过线圈产生磁场的设备。由于其能够方便地控制磁场，因此电磁铁广泛应用于工业生产、医疗、通讯、交通、科学研究等领域。

发表于 08-21 14:20 •908次阅读

基于Transformer多模态先导性工作

多模态（Multimodality）是指在信息处理、传递和表达中涉及多种不同的感知模态或信息来源。这些感知模态可以包括语言、视觉、听觉、触觉

发表于 08-21 09:49 •552次阅读

汽车领域拥抱Transformer需要多少AI算力？

Transformer在汽车领域应用自然是针对视觉的，ChatGPT3这种至少需要八张英伟达A100显卡的大模型是绝对无法出现在汽车上的。

发表于 08-17 14:57 •569次阅读

Intel即将对旗下处理器全线涨价

据报道，Intel即将对旗下处理器全线涨价，现有的和即将发布的，无一例外。

发表于 07-27 09:45 •692次阅读

Transformer在下一个token预测任务上的SGD训练动态

【导读】 AI理论再进一步，破解ChatGPT指日可待？ Transformer架构已经横扫了包括自然语言处理、计算机视觉、语音、多模态等多个领域，不过目前只是实验效果非常惊艳

发表于 06-12 10:11 •511次阅读