0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在视觉语言表示学习中建立编码器间的桥梁

深度学习自然语言处理 来源:赛尔实验室 2023-04-14 17:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

0. Take-away messages

提出了一个简单有效的视觉语言模型架构,BridgeTower,通过在顶层单模态层和每个跨模态层之间建立桥梁,成功地引入了不同语义层次的视觉和文本表示,从而提高了跨模态编码器中注意力头的多样性,并在各种任务上实现了突出的性能改进。

公平的评估设置下,与Two-Tower架构的METER模型相比,BridgeTower显著地提高了模型的多模态表示能力。

使用400万张图片进行视觉语言预训练,BridgeTower在各种视觉语言下游任务上取得了十分强大的性能,击败了许多用更多数据和参数进行预训练的强大模型。

BridgeTower可以适用于不同的视觉、文本或跨模态编码器。

1. 背景与动机

139ba1b0-daa3-11ed-bfe3-dac502259ad0.png

视觉语言任务示例

图源:12-in-1: Multi-Task Vision and Language Representation Learning

视觉语言研究的目标,是训练一个能够理解图像和文本的智能AI系统。上图展示了一些流行的视觉语言任务。视觉问答是其中最著名的任务之一,它需要根据输入图像来回答和图片相关的问题。

各类视觉语言模型

自2019年以来,在大规模图像-文本对的自监督预训练的帮助下,基于Transformer的视觉语言模型取得了显著的进展。其中,具有双塔结构的视觉语言 (VL) 模型在视觉语言表示学习中占主导地位。基于不同的文本和视觉编码器,人们提出了各种模型架构和预训练目标。从模型架构的角度来看,近期大多数的VL工作,可以看作是由三个模块组成的双塔架构,即文本编码器、视觉编码器,以及在它们之上的跨模态融合模块。不同的VL模型在这三个模块的设计上有所不同。

13ab51aa-daa3-11ed-bfe3-dac502259ad0.jpg

视觉语言模型架构简述

图(a)-(d)是目前的四类视觉语言模型。图(e)简要说明了BridgeTower的模型结构。VE、TE和CE分别是视觉编码器、文本编码器和跨模态编码器的简称。每个矩形的高度代表其相对计算成本。本图受到了ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision的启发。

目前的VL模型要么使用轻量级的单模态编码器,并学习在深度跨模态编码器中同时提取、对齐和融合两种模态,要么将预训练的深层单模态编码器的最后一层单模态表示,送入顶部的跨模态编码器中。这两种方法都有可能限制视觉-语言表示的学习,并进一步限制模型的性能。

13b06ca8-daa3-11ed-bfe3-dac502259ad0.png

动机

如果我们深入双塔结构的单模态塔 (编码器) ,例如METER模型。我们可以发现他们只将最后一层的单模态特征直接送入顶部的跨模态融合模块,忽略了深层单模态塔的不同层的语义信息。我们自然地想到,能否在不同层的预训练单模态塔和跨模态融合模块之间建立起桥梁,以充分利用多层单模态特征?

13b7d682-daa3-11ed-bfe3-dac502259ad0.gif

架构对比

因此,我们提出了BridgeTower架构。与双塔架构不同,BridgeTower在跨模态融合模块和单模态编码器之间建立起了多座桥梁。二者的主要区别在于,双塔结构只融合最后一层的特征,而BridgeTower则逐渐融合单模态编码器顶部的多层特征。

2. 模型架构

13d7942c-daa3-11ed-bfe3-dac502259ad0.jpg

模型架构

这里我们展示了BridgeTower的详细架构图。具体而言,我们采用12层的RoBERTa-base和12层的CLIP-ViT-B作为单模态编码器。跨模态编码器为6层,每一层都添加了BridgeLayer来与单模态编码器的顶部6层建立连接。

这使得预训练单模态编码器中的不同语义层次的视觉和文本表示,通过BridgeLayer与跨模态表示进行融合,从而促进了跨模态编码器中,高效的,自下而上的跨模态对齐与融合。需要注意的是,BridgeTower架构适用于不同的视觉、文本或跨模态编码器。

3. 设计选择

我们对BridgeTower的不同设计选择进行了广泛的实验。

3.1 BridgeLayer的定义

13f5e4fe-daa3-11ed-bfe3-dac502259ad0.gif

bridge-layer

首先是BridgeLayer的定义,也就是单模态信息与跨模态信息如何在BridgeLayer中融合。

14220b2e-daa3-11ed-bfe3-dac502259ad0.png

上表展示了不同定义的BridgeLayer的参数量和其在VQAv2和Flickr30K数据集上的性能。RSUM表示图文检索任务的召回度量之和。

表示前一层输出的跨模态表示。

表示相应的单模态表示。我们省略了每一行中使用的 。有些出乎意料但又合乎情理的是,第一行中的 使用最小的参数量得到了最好的结果。

3.2 Cross-Modal Layer的数量

14367fd2-daa3-11ed-bfe3-dac502259ad0.gif

cross-modal-layer

接着我们基于12层的文本和视觉编码器,研究不同数量的跨模态层对性能的影响。

144e23b2-daa3-11ed-bfe3-dac502259ad0.png

表示跨模态层的数量,并且BridgeTower使用Top-的单模态表示作为跨模态层的输入。我们在两个数据集上比较不同下,METER和BridgeTower的性能情况,我们发现更多的跨模态层并不能不断提高性能。这可能是由于

更多的跨模态层需要更多的训练数据。

顶层的单模态表示有利于跨模态对齐和融合,而底层的单模态表示可能不利于,甚至是有害于跨模态表示的学习。虽然METER和BridgeTower之间唯一的区别是BridgeLayers,但BridgeTower在不同数量的跨模态层中始终获得了一致的性能提升。

3.3 BridgeLayer的数量

1471f74c-daa3-11ed-bfe3-dac502259ad0.gif

internal-external

最后是BridgeLayer的数量,也就是在使用相同数量的跨模态层时,应该加入多少个BridgeLayer。

14930e1e-daa3-11ed-bfe3-dac502259ad0.png

为了充分比较BridgeTower和双塔结构的METER模型,我们试图建立一个从BridgeTower到Two-Tower逐渐变化的情景。为了进行公平的比较,我们使用共计6个跨模态层,并将它们分为外部 (External) 跨模态层和内部 (Internal) 跨模态层。二者的区别在于内部跨模态层具有BridgeLayer,而外部跨模态层没有。

第一行显示了6个跨模态层均为内部层的BridgeTower的结果。然后,我们逐渐增加外部层,减少内部层。我们发现在两个数据集上的性能都出现了稳定的下降

最后一行显示了双塔结构的METER模型的性能。这表明BridgeTower通过BridgeLayers,将单模态编码器的顶层与跨模态编码器的每一层连接起来,可以显著提高性能

3.4 单模态编码器

14a3b494-daa3-11ed-bfe3-dac502259ad0.png

最后我们尝试了不同的视觉和文本编码器作为BridgeTower的预训练单模态编码器,并直接对下游任务进行微调,以进一步研究BridgeLayers带来的影响。我们发现,对于不同的预训练视觉和文本编码器,BridgeTower的性能都持续显著地优于METER的性能。

4. 实验效果

14c48df4-daa3-11ed-bfe3-dac502259ad0.png

我们基于公共图文对数据集对BridgeTower进行预训练,如上表所示,大约共计400万张独立图片,900万对图文对。我们使用通用的掩码语言建模 (Masked Language Modeling, MLM) 和图文匹配 (Image-Text Matching, ITM) 任务作为预训练任务。所有的预训练设置与预训练参数都与METER一致,以提供METER和BridgeTower之间的公平比较

14d089a6-daa3-11ed-bfe3-dac502259ad0.png

上图展示了BridgeTower模型在视觉问答 (Visual Question Answering) 的VQAv2数据集上的Base和Large两种Size的模型性能。在视觉-语言预训练中,我们的Base模型只使用了400万张图片进行预训练,就在VQAv2基准上取得了令人印象深刻的表现。

而且,METER和BridgeTower使用相同的文本编码器、视觉编码器和跨模态融合机制。只需将METER模型的Two-Tower架构改为BridgeTower架构,在相同的预训练数据和几乎可以忽略不计的额外参数和计算成本下,VQAv2数据集的Test-Standard性能就可以轻松提高1.09。BridgeTower的Large模型在VQAv2数据集上更是取得81.15的Test-Standard性能。

值得注意的是,BridgeTower超过了许多使用10倍甚至100倍的图像进行VL预训练的Base模型与Large模型,击败了许多用更多数据和参数进行预训练的强大模型。

14e5dbda-daa3-11ed-bfe3-dac502259ad0.png

类似的趋势也出现在视觉蕴含 (Visual Entailment) 和图像-文本检索 (Image-Text Retrieval) 任务中。特别是在Flickr30K数据集上,BridgeTower的Base模型带来了5.9点收益。

5. 可视化结果

为了进一步研究性能提高的原因,我们通过分析每个跨模态层中,不同注意力头的注意力权重分布之间的KL散度,来比较双塔架构的METER模型和我们的BridgeTower架构。

KL散度可以被看作是注意力头的多样性。较高或较低的KL散度表示不同的注意力头之间,关注的token更加不同或更加相似

14f95b60-daa3-11ed-bfe3-dac502259ad0.jpg

图中的小点代表不同注意力头的注意力分布间的KL散度,大点表示同层KL散度的均值。上图对比了METER和BridgeTower模型的跨模态编码器中,视觉/文本部分的自我/交叉注意力层之间的区别。

上图展示了两个模型的跨模态编码器的视觉和文本部分的自注意力以及交叉注意力的注意力头的多样性。图中存在两个明显的趋势:

对于BridgeTower来说,注意力头的多样性随着层的深入而逐渐变小,但对于METER来说,注意力头的多样性随着层的深入而逐渐变大,然后变小。

BridgeTower每层的注意力头的多样性明显大于METER,尤其是第1层至第5层。

因此,对于跨模态编码器的视觉和文本部分的自注意力以及交叉注意力的不同注意力头,与METER相比,BridgeTower能够关注到更多不同的标记 (token)。

我们将此归功于我们提出的BridgeLayers,它将单模态编码器的顶层与跨模态编码器的每一层连接起来。不同语义层次的视觉和文本表示通过BridgeLayer与跨模态表示进行融合,从而促进了跨模态编码器每一层的更有效更丰富的跨模态对齐和融合。

6. 结论

在本文中,我们提出了BridgeTower,它引入了多个BridgeLayer,在单模态编码器的顶层和跨模态编码器的每一层之间建立连接。这使得预训练单模态编码器中的不同语义层次的视觉和文本表示,通过BridgeLayer与跨模态表示进行融合,从而促进了跨模态编码器中,高效的,自下而上的跨模态对齐与融合。

使用400万张图像进行视觉语言预训练,BridgeTower在各种下游的视觉-语言任务中取得了非常强大的性能。特别是在VQAv2数据集上,BridgeTower达到了78.73%的准确率,在相同的预训练数据和几乎可以忽略不计的额外参数和计算成本下,比Two-Tower架构的METER模型高出了1.09%的准确率。值得注意的是,当进一步扩展该模型时,BridgeTower达到了81.15%的准确率,甚至超过了一些在更大数量级的数据集上使用更多参数进行预训练的强大模型。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    3903

    浏览量

    141442

原文标题:AAAI2023 | BridgeTower: 在视觉语言表示学习中建立编码器间的桥梁

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    国产编码器人形机器人领域的进展

    电子发烧友网综合报道 编码器是测量旋转角度、位移及速度的传感,作为伺服系统的核心部件,人形机器人领域,其数据反馈对实现机器人运动的精密控制与定位至关重要。   编码器种类丰富,按技
    的头像 发表于 09-24 09:41 1062次阅读

    Bourns发布全新增量式微型编码器

    Bourns 推出 PEC04 系列 4 mm 增量式微型编码器、PEC05 PEC05 系列 5 mm 增量式微型编码器,以及 PEC06 型号 6 mm 增量式微型编码器。Bourns 全新微型
    的头像 发表于 09-22 16:05 901次阅读

    重载型编码器钢厂天车定位系统的成功应用案例

    重载编码器钢厂成功应用案例: 某特钢企业 50 吨天车上部署雷恩增量型重载编码器的组合系统: 功能实现:编码器信号通过 SM1231 模拟量模块接入 PLC,结合防摇摆算法(基于模糊
    的头像 发表于 09-08 14:29 1021次阅读
    重载型<b class='flag-5'>编码器</b><b class='flag-5'>在</b>钢厂天车定位系统<b class='flag-5'>中</b>的成功应用案例

    增量型编码器与绝对值型编码器怎么选择?

    选择增量型编码器与绝对值型编码器时,需要考虑多个因素,包括应用需求、成本、精度、可靠性以及环境适应性等。以下是对两种编码器的详细比较及选择建议: 一、增量型
    的头像 发表于 07-10 10:34 849次阅读

    Transformer架构编码器的工作流程

    编码器是Transformer体系结构的基本组件。编码器的主要功能是将输入标记转换为上下文表示。与早期独立处理token的模型不同,Transformer编码器根据整个序列捕获每个to
    的头像 发表于 06-10 14:27 822次阅读
    Transformer架构<b class='flag-5'>中</b><b class='flag-5'>编码器</b>的工作流程

    磁旋转编码器永磁同步电机位置测量的应用(可下载)

    一、概述与直流电机相比,永磁同步电机具有体积小、 效率高、无需维护等优点,某些应用 场景,由位置传感精度引起的转矩波动应限制 1%以内,这就要求电机位置传感
    发表于 04-09 13:37 0次下载

    数字电路—编码器

    编码器:用二进制代码表示文字、符号或者数码等特定对象的过程,称为编码。实现编码的逻辑电路,称为编码器
    发表于 03-26 11:08

    编码器与无轴承编码器,到底如何选择?

    选择轴编码器与无轴承编码器时,需要根据具体的应用场景、性能需求、环境条件和成本预算等因素进行综合考虑。以下是对两者的详细对比,以帮助做出合适的选择: 一、工作原理与结构 1. 轴编码器
    的头像 发表于 03-11 15:33 987次阅读
    轴<b class='flag-5'>编码器</b>与无轴承<b class='flag-5'>编码器</b>,到底如何选择?

    伺服电机编码器怎么选型

    伺服电机编码器的选型是一个综合性的过程,需要考虑多个因素以确保所选编码器能够满足系统的性能要求。以下是一些关键的选型步骤和考虑因素: 一、明确应用需求 首先,需要明确伺服电机编码器的应用需求,包括
    的头像 发表于 03-11 12:01 1463次阅读
    伺服电机<b class='flag-5'>编码器</b>怎么选型

    编码器常见的故障问题及案例分析

    编码器作为自动化控制系统的重要组件,负责将机械位移转换为电信号,以供上位机、PLC或驱动等设备读取和处理。然而,使用过程
    的头像 发表于 03-07 11:05 3662次阅读

    DISCOAA编码器性质特点

    。它们广泛应用于各种工业、机械和自动化系统。根据工作原理和测量类型,编码器可以分为多种类型,如绝对式编码器和增量式编码器,以及电磁式、光电式、电感式、电容式、激光式等不同工作原理的
    的头像 发表于 02-20 13:50 622次阅读

    DISCOAA编码器类型功能

    DISCOAA编码器可能包括绝对编码器和增量编码器两种类型,其主要功能是将输入信号进行分析和处理,并将其转换为数字信号 ‌。 关于类型,虽然搜索结果并未直接提及DISCOAA
    的头像 发表于 02-20 13:47 672次阅读

    绝对式编码器伺服电机控制的应用与优势分析

          绝对式编码器伺服电机控制的应用广泛且重要,其优势显著,以下是对其应用与优势的详细分析:       一、绝对式编码器伺服电
    的头像 发表于 02-06 09:46 1553次阅读
    绝对式<b class='flag-5'>编码器</b><b class='flag-5'>在</b>伺服电机控制<b class='flag-5'>中</b>的应用与优势分析

    伺服电机编码器故障及维修

    伺服电机编码器故障及维修,伺服电机编码器4大常见故障,编码器信号丢失或不稳定,编码器零点偏移,编码器过热,
    的头像 发表于 01-21 14:49 4011次阅读
    伺服电机<b class='flag-5'>编码器</b>故障及维修

    拉线编码器关键参数详解

    工业自动化和精密测量领域,拉线编码器以其高精度、长寿命和灵活的安装方式,成为了众多应用场合的首选。然而,面对市场上琳琅满目的拉线编码器产品,如何挑选一款符合自己需求的编码器,成为了许
    的头像 发表于 01-07 15:53 1205次阅读