0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何在多模态的语境中利用Transformer强大的表达能力?

深度学习自然语言处理 来源:夕小瑶的卖萌屋 作者:子龙 2021-03-29 16:47 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

曾几何时,多模态预训练已经不是一个新的话题,各大顶会诸多论文仿佛搭上Visual和BERT,就能成功paper+=1,VisualBERT、ViLBERT层出不穷,傻傻分不清楚。..。..这些年NLPer在跨界上忙活的不亦乐乎,提取视觉特征后和文本词向量一同输入到万能的Transformer中,加大力度预训练,总有意想不到的SOTA。

如何在多模态的语境中更细致准确地利用Transformer强大的表达能力呢?Facebook最新的 Transformer is All You Need 也许可以给你答案。

a12e796a-8e8f-11eb-8b86-12bb97331649.png

这篇貌似标题党的文章开宗明义,针对文本+视觉的多模态任务,用好Transformer就够了,与许多前作不同,这次提出的模型一个模型可以解决多个任务:目标检测、自然语言理解、视觉问答,各个模型板块各司其职、条理清晰:视觉编码器、文本编码器、特征融合解码器,都是建立在多层Transformer之上,最后添加为每个任务设计的处理器,通过多任务训练,一举刷新了多个任务的榜单。

a1a44924-8e8f-11eb-8b86-12bb97331649.png

文本编码器用Transformer提取文本特征是个老生常谈的问题,从BERT石破天惊开始,纯文本领域近乎已被Transformer蚕食殆尽,所以该文也不能免俗,直接借用BERT的结构提取文本内容,区别在于,为了解决多个任务,在文本序列前添加了一个针对不同任务的参数向量,在最后输出隐藏状态到解码器时再去掉。

视觉编码器本文将Transformer强大的表达能力运用到视觉特征的提取中,由于图片像素点数量巨大,首先通过基于卷积神经网络的ResNet-50提取卷积特征,极大程度上地降低了特征数量,最终得到的feature map大小为,然后用全联接层调整单个特征的维度到,再利用多层Transformer中的注意力机制提取各个feature之间的关系,由于Transformer的输入是序列,文章将拉成一条长为的序列,另外和文本编码器类似,同样添加了与下游任务相关的。

其中是调整维度的全联接层,是多层Transformer编码器。

模态融合解码器多模态的关键之一就在于怎么同时利用多个模态,在本文中是通过Transformer的解码器实现的,这个解码器首先将任务相关的query做self-attention,再将结果与文本编码器和视觉编码器的结果做cross-attention,针对单一模态的任务,选取对应编码器的输出即可,针对多模态的任务,取两个编码器输出的拼接。

任务处理器(task-specific output head)之前多模态预训练模型往往只针对某一项任务,而本文提出的一个模型可以解决多个文本+视觉任务,与BERT可以解决多个文本任务类似,本文的模型在模态融合解码器的结果上添加为每个任务设计的处理器,这个处理器相对简单,用于从隐藏状态中提取出与特定任务相匹配的特征。

目标检测:添加box_head和class_head两个前馈神经网络从最后一层隐藏状态中提取特征用来确定目标位置和预测目标类型。

自然语言理解、视觉问答:通过基于全联接层的分类模型实现,将模态融合解码器结果的第一位隐藏状态输入到两层全联接层并以GeLU作为激活函数,最后计算交叉熵损失。

实验与总结本文提出的多模态预训练模型各个板块划分明确,通过多层Transformer分别提取特征,再利用解码器机制融合特征并完成下游任务,同时借助最后一层任务相关的处理器,可以通过一个模型解决多个任务,同时也让多任务预训练成为可能,并在实验中的各个数据集上得到了论文主要进行了两部分实验:

多任务学习:

这里的多任务涉及目标检测和视觉问答两个任务,在目标检测上运用COCO和VG两个数据集,在视觉问答上运用VQAv2数据集。对比了单一任务和多任务同时训练的结果,同时对比了不同任务共用解码器的结果。

a1f97444-8e8f-11eb-8b86-12bb97331649.png

从结果中我们可以看出,单纯的使用多任务训练并不一定可以提高结果,不同任务间虽然相关但是却不完全相同,这可能是任务本身差异或者数据集的特性所导致,第二行和第五行可以很明显地看出COCO上的目标检测和VQAv2的视觉问答相结合后,结果有显著的下降,然而VG上的目标检测却能够和视觉问答很好地结合,通过三个数据集上的共同训练,可以得到最高的结果。

多模态学习:

这一实验中,为了体现所提出模型能够有效解决多个多种模态的不同任务,论文作者在之前COCO、VG、VQAv2的基础上,增加了单一文本任务GLUE的几个数据集(QNLI、QQP、MNLI、SST-2)和视觉推断数据集SNLI-VE,从数据集的数量上可以看出本文模型的全能性。与本文对比的有纯文本的BERT、基于Transformer的视觉模型DETR、多模态预训练模型VisualBERT。

a2736164-8e8f-11eb-8b86-12bb97331649.png

仔细看各个数据集上的结果,不难看出本文提出的模型其实并不能在所有数据集多上刷出SOTA,比如COCO上逊色于DETR,SNLI-VE逊色于VisualBERT,SST-2逊色于BERT,其他数据集上都有一定的提高,但是模型却胜在一个“全”字,模型的结构十分清晰明了,各个板块的作用十分明确,同时针对不同任务的处理器也对后续多模态任务富有启发性。

原文标题:【Transformer】没有什么多模态任务是一层Transformer解决不了的!

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

责任编辑:haq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    4022

    浏览量

    143730
  • Transforme
    +关注

    关注

    0

    文章

    12

    浏览量

    8977
  • 多模
    +关注

    关注

    1

    文章

    32

    浏览量

    11215

原文标题:【Transformer】没有什么多模态任务是一层Transformer解决不了的!

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    模态大模型 前沿算法与实战应用 第一季》精品课程简介

    ;模态拼接\"向\"模态共生\"演进: 统一架构 :如GPT-4V、Flamingo等模型通过单一Transformer处理任意模态输入,实现真正的
    发表于 05-01 17:46

    视美泰模态融合+姿态感知技术,让机器真正 “读懂” 世界

    通过多维感知与逻辑判断,让冰冷的机器拥有了近乎人类的场景洞察与行为解析能力。超越视觉,模态融合让决策更"聪明"在复杂的实际场景,仅靠图像识别往往会产生误报。视美泰在AI算法架构
    的头像 发表于 04-29 14:59 286次阅读
    视美泰<b class='flag-5'>多</b><b class='flag-5'>模态</b>融合+姿态感知技术,让机器真正 “读懂” 世界

    ADPD4000/ADPD4001:模态传感器前端的卓越之选

    传感器前端,为众多应用领域带来了新的解决方案。本文将详细介绍ADPD4000/ADPD4001的特性、工作原理、应用模式以及相关寄存器配置,希望能为电子工程师们在设计过程中提供有价值的参考。 文件下载: ADPD4000.pdf 一、产品特性剖析 1.1 模态测量
    的头像 发表于 03-27 14:45 244次阅读

    ADPD4200 模态传感器前端:功能、应用与设计要点

    前端,具有丰富的特性和广泛的应用场景,下面我们就来详细了解一下。 文件下载: ADPD4200.pdf 一、ADPD4200 概述 ADPD4200 是一款功能强大模态传感器前端,可刺激多达四个发光二极管(LED),并在多达
    的头像 发表于 03-27 09:35 268次阅读

    Transformer如何让自动驾驶大模型获得思考能力

    在谈及自动驾驶时,Transformer一直是非常关键的技术,为何Transformer在自动驾驶行业一直被提及?
    的头像 发表于 02-01 09:15 4481次阅读

    商汤开源SenseNova-MARS:突破模态搜索推理天花板

    今日,商汤正式开源模态自主推理模型 SenseNova-MARS(8B/32B 双版本),其在模态搜索与推理的核心基准测试以 69.7
    的头像 发表于 01-29 23:53 307次阅读
    商汤开源SenseNova-MARS:突破<b class='flag-5'>多</b><b class='flag-5'>模态</b>搜索推理天花板

    亚马逊云科技上线Amazon Nova模态嵌入模型

    Embeddings模态嵌入模型现已在Amazon Bedrock上线,这是一款专为Agentic RAG与语义搜索应用打造的顶尖模态嵌入模型。该模型是首个通过单一模型支持文本、
    的头像 发表于 10-29 17:15 440次阅读
    亚马逊云科技上线Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模态</b>嵌入模型

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    配合,三者各司其职、无缝衔接,共同构建起完整的模态对话能力轮对话系统架构 1. 图像视觉编码器(Vision Encoder) 模型选择:采用
    发表于 09-05 17:25

    浅析模态标注对大模型应用落地的重要性与标注实例

    ​在人工智能迈向AGI通用智能的关键道路上,大模型正从单一的文本理解者,演进为能同时看、听、读、想的“多面手”。驱动这一进化的核心燃料,正是高质量的模态数据,而将原始数据转化为“机器可读教材
    的头像 发表于 09-05 13:49 2991次阅读

    商汤科技模态通用智能战略思考

    时间是最好的试金石,AI领域尤其如此。当行业热议大模型走向时,商汤早已锚定“模态通用智能”——这是我们以深厚研究积累和实践反复验证的可行路径。
    的头像 发表于 08-14 09:33 1371次阅读

    自动驾驶Transformer大模型会取代深度学习吗?

    持续讨论。特别是在自动驾驶领域,部分厂商开始尝试将模态大模型(MLLM)引入到感知、规划与决策系统,引发了“传统深度学习是否已过时”的激烈争论。然而,从技术原理、算力成本、安全需求与实际落地路径等维度来看,Transformer
    的头像 发表于 08-13 09:15 4456次阅读
    自动驾驶<b class='flag-5'>中</b><b class='flag-5'>Transformer</b>大模型会取代深度学习吗?

    伟视界:解密GB28181流媒体平台,模态AI的强大支撑

    GB28181流媒体平台作为模态AI系统的基础数据枢纽,解决了源异构视频资源的接入与处理问题,提供标准化数据格式,支持各类智能分析与应用场景。其广泛的协议兼容性和强大的视频处理
    的头像 发表于 07-24 14:38 1223次阅读
    <b class='flag-5'>中</b>伟视界:解密GB28181流媒体平台,<b class='flag-5'>多</b><b class='flag-5'>模态</b>AI的<b class='flag-5'>强大</b>支撑

    研华科技携手创新奇智推出模态大模型AI一体机

    这是一款基于研华高性能边缘计算平台MIC-733,深度集成创新奇智视觉小模型与模态大模型的边缘智能终端,通过创新的“视觉识别 + 深度语义理解”融合分析路径,具备强大的本地视频智能分析及大模型深度研判
    的头像 发表于 07-17 17:14 1154次阅读
    研华科技携手创新奇智推出<b class='flag-5'>多</b><b class='flag-5'>模态</b>大模型AI一体机

    汽车模态交互测试:智能交互的深度验证

    在汽车智能座舱测试的关键进程,北京沃华慧通测控技术有限公司展现出了独特的价值与优势。作为一家专注于测控技术领域的企业,沃华慧通在智能座舱测试方面积累了丰富的经验和专业的技术能力。其研发的测试设备能够精准模拟各种复杂的车载环境,对智能座舱的
    的头像 发表于 06-25 09:00 1605次阅读
    汽车<b class='flag-5'>多</b><b class='flag-5'>模态</b>交互测试:智能交互的深度验证

    商汤日日新SenseNova融合模态大模型 国内首家获得最高评级的大模型

    近日,中国信息通信研究院(以下简称“中国信通院”)完成可信AI模态大模型首轮评估。 商汤日日新SenseNova融合模态大模型在所有模型,获得当前最高评级——4+级,并成为国内首家
    的头像 发表于 06-11 11:57 1633次阅读