0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

在视觉语言表示学习中建立编码器间的桥梁

深度学习自然语言处理 来源:赛尔实验室 2023-04-14 17:33 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

0. Take-away messages

提出了一个简单有效的视觉语言模型架构,BridgeTower,通过在顶层单模态层和每个跨模态层之间建立桥梁,成功地引入了不同语义层次的视觉和文本表示,从而提高了跨模态编码器中注意力头的多样性,并在各种任务上实现了突出的性能改进。

公平的评估设置下,与Two-Tower架构的METER模型相比,BridgeTower显著地提高了模型的多模态表示能力。

使用400万张图片进行视觉语言预训练,BridgeTower在各种视觉语言下游任务上取得了十分强大的性能,击败了许多用更多数据和参数进行预训练的强大模型。

BridgeTower可以适用于不同的视觉、文本或跨模态编码器。

1. 背景与动机

139ba1b0-daa3-11ed-bfe3-dac502259ad0.png

视觉语言任务示例

图源:12-in-1: Multi-Task Vision and Language Representation Learning

视觉语言研究的目标,是训练一个能够理解图像和文本的智能AI系统。上图展示了一些流行的视觉语言任务。视觉问答是其中最著名的任务之一,它需要根据输入图像来回答和图片相关的问题。

各类视觉语言模型

自2019年以来,在大规模图像-文本对的自监督预训练的帮助下,基于Transformer的视觉语言模型取得了显著的进展。其中,具有双塔结构的视觉语言 (VL) 模型在视觉语言表示学习中占主导地位。基于不同的文本和视觉编码器,人们提出了各种模型架构和预训练目标。从模型架构的角度来看,近期大多数的VL工作,可以看作是由三个模块组成的双塔架构,即文本编码器、视觉编码器,以及在它们之上的跨模态融合模块。不同的VL模型在这三个模块的设计上有所不同。

13ab51aa-daa3-11ed-bfe3-dac502259ad0.jpg

视觉语言模型架构简述

图(a)-(d)是目前的四类视觉语言模型。图(e)简要说明了BridgeTower的模型结构。VE、TE和CE分别是视觉编码器、文本编码器和跨模态编码器的简称。每个矩形的高度代表其相对计算成本。本图受到了ViLT: Vision-and-Language Transformer Without Convolution or Region Supervision的启发。

目前的VL模型要么使用轻量级的单模态编码器,并学习在深度跨模态编码器中同时提取、对齐和融合两种模态,要么将预训练的深层单模态编码器的最后一层单模态表示,送入顶部的跨模态编码器中。这两种方法都有可能限制视觉-语言表示的学习,并进一步限制模型的性能。

13b06ca8-daa3-11ed-bfe3-dac502259ad0.png

动机

如果我们深入双塔结构的单模态塔 (编码器) ,例如METER模型。我们可以发现他们只将最后一层的单模态特征直接送入顶部的跨模态融合模块,忽略了深层单模态塔的不同层的语义信息。我们自然地想到,能否在不同层的预训练单模态塔和跨模态融合模块之间建立起桥梁,以充分利用多层单模态特征?

13b7d682-daa3-11ed-bfe3-dac502259ad0.gif

架构对比

因此,我们提出了BridgeTower架构。与双塔架构不同,BridgeTower在跨模态融合模块和单模态编码器之间建立起了多座桥梁。二者的主要区别在于,双塔结构只融合最后一层的特征,而BridgeTower则逐渐融合单模态编码器顶部的多层特征。

2. 模型架构

13d7942c-daa3-11ed-bfe3-dac502259ad0.jpg

模型架构

这里我们展示了BridgeTower的详细架构图。具体而言,我们采用12层的RoBERTa-base和12层的CLIP-ViT-B作为单模态编码器。跨模态编码器为6层,每一层都添加了BridgeLayer来与单模态编码器的顶部6层建立连接。

这使得预训练单模态编码器中的不同语义层次的视觉和文本表示,通过BridgeLayer与跨模态表示进行融合,从而促进了跨模态编码器中,高效的,自下而上的跨模态对齐与融合。需要注意的是,BridgeTower架构适用于不同的视觉、文本或跨模态编码器。

3. 设计选择

我们对BridgeTower的不同设计选择进行了广泛的实验。

3.1 BridgeLayer的定义

13f5e4fe-daa3-11ed-bfe3-dac502259ad0.gif

bridge-layer

首先是BridgeLayer的定义,也就是单模态信息与跨模态信息如何在BridgeLayer中融合。

14220b2e-daa3-11ed-bfe3-dac502259ad0.png

上表展示了不同定义的BridgeLayer的参数量和其在VQAv2和Flickr30K数据集上的性能。RSUM表示图文检索任务的召回度量之和。

表示前一层输出的跨模态表示。

表示相应的单模态表示。我们省略了每一行中使用的 。有些出乎意料但又合乎情理的是,第一行中的 使用最小的参数量得到了最好的结果。

3.2 Cross-Modal Layer的数量

14367fd2-daa3-11ed-bfe3-dac502259ad0.gif

cross-modal-layer

接着我们基于12层的文本和视觉编码器,研究不同数量的跨模态层对性能的影响。

144e23b2-daa3-11ed-bfe3-dac502259ad0.png

表示跨模态层的数量,并且BridgeTower使用Top-的单模态表示作为跨模态层的输入。我们在两个数据集上比较不同下,METER和BridgeTower的性能情况,我们发现更多的跨模态层并不能不断提高性能。这可能是由于

更多的跨模态层需要更多的训练数据。

顶层的单模态表示有利于跨模态对齐和融合,而底层的单模态表示可能不利于,甚至是有害于跨模态表示的学习。虽然METER和BridgeTower之间唯一的区别是BridgeLayers,但BridgeTower在不同数量的跨模态层中始终获得了一致的性能提升。

3.3 BridgeLayer的数量

1471f74c-daa3-11ed-bfe3-dac502259ad0.gif

internal-external

最后是BridgeLayer的数量,也就是在使用相同数量的跨模态层时,应该加入多少个BridgeLayer。

14930e1e-daa3-11ed-bfe3-dac502259ad0.png

为了充分比较BridgeTower和双塔结构的METER模型,我们试图建立一个从BridgeTower到Two-Tower逐渐变化的情景。为了进行公平的比较,我们使用共计6个跨模态层,并将它们分为外部 (External) 跨模态层和内部 (Internal) 跨模态层。二者的区别在于内部跨模态层具有BridgeLayer,而外部跨模态层没有。

第一行显示了6个跨模态层均为内部层的BridgeTower的结果。然后,我们逐渐增加外部层,减少内部层。我们发现在两个数据集上的性能都出现了稳定的下降

最后一行显示了双塔结构的METER模型的性能。这表明BridgeTower通过BridgeLayers,将单模态编码器的顶层与跨模态编码器的每一层连接起来,可以显著提高性能

3.4 单模态编码器

14a3b494-daa3-11ed-bfe3-dac502259ad0.png

最后我们尝试了不同的视觉和文本编码器作为BridgeTower的预训练单模态编码器,并直接对下游任务进行微调,以进一步研究BridgeLayers带来的影响。我们发现,对于不同的预训练视觉和文本编码器,BridgeTower的性能都持续显著地优于METER的性能。

4. 实验效果

14c48df4-daa3-11ed-bfe3-dac502259ad0.png

我们基于公共图文对数据集对BridgeTower进行预训练,如上表所示,大约共计400万张独立图片,900万对图文对。我们使用通用的掩码语言建模 (Masked Language Modeling, MLM) 和图文匹配 (Image-Text Matching, ITM) 任务作为预训练任务。所有的预训练设置与预训练参数都与METER一致,以提供METER和BridgeTower之间的公平比较

14d089a6-daa3-11ed-bfe3-dac502259ad0.png

上图展示了BridgeTower模型在视觉问答 (Visual Question Answering) 的VQAv2数据集上的Base和Large两种Size的模型性能。在视觉-语言预训练中,我们的Base模型只使用了400万张图片进行预训练,就在VQAv2基准上取得了令人印象深刻的表现。

而且,METER和BridgeTower使用相同的文本编码器、视觉编码器和跨模态融合机制。只需将METER模型的Two-Tower架构改为BridgeTower架构,在相同的预训练数据和几乎可以忽略不计的额外参数和计算成本下,VQAv2数据集的Test-Standard性能就可以轻松提高1.09。BridgeTower的Large模型在VQAv2数据集上更是取得81.15的Test-Standard性能。

值得注意的是,BridgeTower超过了许多使用10倍甚至100倍的图像进行VL预训练的Base模型与Large模型,击败了许多用更多数据和参数进行预训练的强大模型。

14e5dbda-daa3-11ed-bfe3-dac502259ad0.png

类似的趋势也出现在视觉蕴含 (Visual Entailment) 和图像-文本检索 (Image-Text Retrieval) 任务中。特别是在Flickr30K数据集上,BridgeTower的Base模型带来了5.9点收益。

5. 可视化结果

为了进一步研究性能提高的原因,我们通过分析每个跨模态层中,不同注意力头的注意力权重分布之间的KL散度,来比较双塔架构的METER模型和我们的BridgeTower架构。

KL散度可以被看作是注意力头的多样性。较高或较低的KL散度表示不同的注意力头之间,关注的token更加不同或更加相似

14f95b60-daa3-11ed-bfe3-dac502259ad0.jpg

图中的小点代表不同注意力头的注意力分布间的KL散度,大点表示同层KL散度的均值。上图对比了METER和BridgeTower模型的跨模态编码器中,视觉/文本部分的自我/交叉注意力层之间的区别。

上图展示了两个模型的跨模态编码器的视觉和文本部分的自注意力以及交叉注意力的注意力头的多样性。图中存在两个明显的趋势:

对于BridgeTower来说,注意力头的多样性随着层的深入而逐渐变小,但对于METER来说,注意力头的多样性随着层的深入而逐渐变大,然后变小。

BridgeTower每层的注意力头的多样性明显大于METER,尤其是第1层至第5层。

因此,对于跨模态编码器的视觉和文本部分的自注意力以及交叉注意力的不同注意力头,与METER相比,BridgeTower能够关注到更多不同的标记 (token)。

我们将此归功于我们提出的BridgeLayers,它将单模态编码器的顶层与跨模态编码器的每一层连接起来。不同语义层次的视觉和文本表示通过BridgeLayer与跨模态表示进行融合,从而促进了跨模态编码器每一层的更有效更丰富的跨模态对齐和融合。

6. 结论

在本文中,我们提出了BridgeTower,它引入了多个BridgeLayer,在单模态编码器的顶层和跨模态编码器的每一层之间建立连接。这使得预训练单模态编码器中的不同语义层次的视觉和文本表示,通过BridgeLayer与跨模态表示进行融合,从而促进了跨模态编码器中,高效的,自下而上的跨模态对齐与融合。

使用400万张图像进行视觉语言预训练,BridgeTower在各种下游的视觉-语言任务中取得了非常强大的性能。特别是在VQAv2数据集上,BridgeTower达到了78.73%的准确率,在相同的预训练数据和几乎可以忽略不计的额外参数和计算成本下,比Two-Tower架构的METER模型高出了1.09%的准确率。值得注意的是,当进一步扩展该模型时,BridgeTower达到了81.15%的准确率,甚至超过了一些在更大数量级的数据集上使用更多参数进行预训练的强大模型。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    45

    文章

    4011

    浏览量

    143374

原文标题:AAAI2023 | BridgeTower: 在视觉语言表示学习中建立编码器间的桥梁

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    绝对式旋转编码器常用什么类型磁铁?

    绝对式旋转编码器是一种能够在任意时刻直接输出唯一角度位置值的传感,即使断电重启也无需回零,所以被广泛用于工业控制,机器人,这种编码器是需要磁铁来配合的,那么它常用哪种磁铁呢?绝对式
    的头像 发表于 03-26 13:44 219次阅读
    绝对式旋转<b class='flag-5'>编码器</b>常用什么类型磁铁?

    低温编码器:极寒环境的精准守护者

    科技飞速发展的今天,编码器作为自动化设备不可或缺的核心部件,其性能与稳定性直接关乎整个系统的运行效率与可靠性。而在众多特殊环境,低温环境对编码
    的头像 发表于 03-26 08:36 223次阅读

    磁铁在编码器的作用与应用

    编码器,磁铁的作用不可小觑,常用的磁性材料主要是钕铁硼和铁氧体,今天这篇文章主要介绍下磁铁用于哪些编码器类型,以及其具体作用。磁铁在编码器
    的头像 发表于 03-19 14:42 413次阅读
    磁铁在<b class='flag-5'>编码器</b><b class='flag-5'>中</b>的作用与应用

    编码器:解锁未来科技的“双核密码”

    边界,成为行业升级的“隐形引擎”。 双编码器:1+1>2的协同革命 传统单编码器如同“单线程大脑”,面对复杂任务时,往往需要在速度与精度艰难取舍。而双
    的头像 发表于 03-05 08:39 502次阅读
    双<b class='flag-5'>编码器</b>:解锁未来科技的“双核密码”

    解码未来:编码器信号转换模块——工业智能化的“数字桥梁

    的传感数据实现统一处理? 编码器信号转换模块 ,正是破解这一难题的“数字钥匙”,它以高效、精准、灵活的信号转换能力,为工业场景搭建起一座跨越协议鸿沟的桥梁。 打破协议壁垒,让设备“自由对话” 工业现场
    的头像 发表于 02-06 08:46 259次阅读
    解码未来:<b class='flag-5'>编码器</b>信号转换模块——工业智能化的“数字<b class='flag-5'>桥梁</b>”

    如何提高绝对值编码器恶劣环境下的精度稳定性?

    如何提高绝对值编码器恶劣环境下的精度稳定性?根据具体的恶劣环境条件选择相应的编码器类型。例如,高温环境,可选择具有耐高温材料和散热设计
    的头像 发表于 10-13 13:58 584次阅读
    如何提高绝对值<b class='flag-5'>编码器</b><b class='flag-5'>在</b>恶劣环境下的精度稳定性?

    国产编码器人形机器人领域的进展

    电子发烧友网综合报道 编码器是测量旋转角度、位移及速度的传感,作为伺服系统的核心部件,人形机器人领域,其数据反馈对实现机器人运动的精密控制与定位至关重要。   编码器种类丰富,按技
    的头像 发表于 09-24 09:41 1712次阅读

    Bourns发布全新增量式微型编码器

    Bourns 推出 PEC04 系列 4 mm 增量式微型编码器、PEC05 PEC05 系列 5 mm 增量式微型编码器,以及 PEC06 型号 6 mm 增量式微型编码器。Bourns 全新微型
    的头像 发表于 09-22 16:05 1459次阅读

    深入ZMC900E:主站控制编码器的使用与优势

    视频推荐工业自动化领域,编码器是确保设备精准运行的关键部件。本期我们将深入探讨ZMC900E主站控制编码器功能。
    的头像 发表于 09-11 11:34 898次阅读
    深入ZMC900E:主站控制<b class='flag-5'>器</b><b class='flag-5'>编码器</b>的使用与优势

    重载型编码器钢厂天车定位系统的成功应用案例

    重载编码器钢厂成功应用案例: 某特钢企业 50 吨天车上部署雷恩增量型重载编码器的组合系统: 功能实现:编码器信号通过 SM1231 模拟量模块接入 PLC,结合防摇摆算法(基于模糊
    的头像 发表于 09-08 14:29 1437次阅读
    重载型<b class='flag-5'>编码器</b><b class='flag-5'>在</b>钢厂天车定位系统<b class='flag-5'>中</b>的成功应用案例

    磁性编码器的抗污染、抗冲击特性及其恶劣环境应用

    磁性编码器IC作为现代工业自动化系统的关键组件,其性能直接影响到设备的精度和可靠性。特别是恶劣环境下,如高粉尘、强振动、极端温度等条件下,磁性编码器的抗污染和抗冲击特性显得尤为重要
    的头像 发表于 08-13 16:48 890次阅读

    绝对值编码器与增量式编码器相比有哪些优势?

    绝对值编码器与增量式编码器相比有哪些优势?核心功能:断电后位置信息不丢失,绝对值编码器:通过机械结构或电子存储(如电池备份),能实时输出当前位置的唯一绝对值编码(如二进制、格雷码)。无
    的头像 发表于 08-11 13:57 2081次阅读
    绝对值<b class='flag-5'>编码器</b>与增量式<b class='flag-5'>编码器</b>相比有哪些优势?

    增量型编码器与绝对值型编码器怎么选择?

    选择增量型编码器与绝对值型编码器时,需要考虑多个因素,包括应用需求、成本、精度、可靠性以及环境适应性等。以下是对两种编码器的详细比较及选择建议: 一、增量型
    的头像 发表于 07-10 10:34 1825次阅读

    Transformer架构编码器的工作流程

    编码器是Transformer体系结构的基本组件。编码器的主要功能是将输入标记转换为上下文表示。与早期独立处理token的模型不同,Transformer编码器根据整个序列捕获每个to
    的头像 发表于 06-10 14:27 1213次阅读
    Transformer架构<b class='flag-5'>中</b><b class='flag-5'>编码器</b>的工作流程

    磁性编码器非线性误差补偿及重型机床高精度伺服控制应用

    重型机床加工精度面临磁性编码器非线性误差挑战,误差来源包括磁栅刻划误差、磁头偏心及温度漂移。创新补偿技术如双读头差分、智能算法及双反馈系统,将定位误差控制微米级,推动国产编码器技术从跟跑到并跑。
    的头像 发表于 05-16 17:29 1618次阅读