0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于VLP模型的语义对齐机制

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2022-10-28 11:09 次阅读

研究动机

对齐不同模态的语义是多模态预训练(VLP)模型的一个重要能力。然而,VLP模型的内部对齐机制是不可知的。许多研究已经关注到这个问题,其中一个主流方法是通过精心设计的分类探针实验来探究模型的对齐能力[1, 2]。但是我们认为简单的分类任务不能准确地探究的这个问题:第一,这些分类任务仍然将VLP模型当作黑盒子,只能从分类任务的指标上分析模型在某一个方面的对齐效果;第二,很多分类任务只需要使用图片-文本对中的部分信息就可以完成(例如一个区域,一个词组或者两者都使用)。

b45ed2a6-5606-11ed-a3b6-dac502259ad0.png

图1:给出1张图片与6个句子,测试不同的VLP模型会选择哪个句子与图片最匹配

为了进一步说明这一点,图1展示了1张图片和6个句子,其中句子(a)是对图片的合理描述,(b)-(f)是不可读的5个句子。令人惊讶的是,我们测试的5个预训练模型都没有选择合理的描述(a),这促使我们去深入研究VLP模型会认为哪一种句子是更符合图片的,即从文本视角探究多模态预训练模型的语义对齐机制。

如果人工去生成图1所示的不可读的句子,然后再去测试VLP模型是否对其有偏好是非常困难的,本文则考虑利用自动化的方式生成VLP模型偏好的句子。具体而言,我们可以把VLP模型认为哪个句子更好(匹配分数越大)作为一种反馈,来训练一个多模态生成模型,通过最大化匹配分数来生成为图片生成描述。通过这种方式,生成模型会放大VLP模型对句子的偏好并反映到生成的句子中。所以我们提出一个新的探针实验:使用图像描述(captioning)模型,通过分析生成的句子来探究VLP模型的多模态的语义对齐机制。

02

贡献

1.我们提出了一个新的探针实验:使用图像描述模型,通过分析生成描述来探究VLP模型的多模态的语义对齐机制。

2.我们在5个主流VLP模型上进行了探针实验,通过captioning模型生成的句子,分析了每一个VLP模型的语义对齐能力。

3.通过5个VLP模型反映出的对齐问题,总结了目前VLP模型存在的3个缺陷并进行了验证。

03

探针实验与分析

我们选择了5个主流的VLP模型,包括UNITER[3],ROSITA[4],ViLBERT[5],CLIP[6]以及LXMERT[7]。

我们使用COCO数据集作为我们探针实验数据集,使用FC model[8]作为实验的captioning模型。由于VLP的匹配分数不能直接反馈到图像描述模型,所以我们使用SCST[8]的方法来优化。

经过VLP模型匹配分数的优化后,captioning模型生成的句子可以获得很高的匹配分数(表1左边所示),这说明VLP模型认为这些句子与图片更匹配了。直觉上,这些句子应该更好地描述了图像中的内容,但是我们使用图像描述指标测试这些句子却发现,它们的指标下降了非常多(表1右边所示),这促使我们去检查一下生成的句子发生了哪些变化。

表1:生成句子在图像描述指标和VLP模型匹配分数上的测试结果。CE表示使用cross-entropy作为loss训练的基础模型。b476efbc-5606-11ed-a3b6-dac502259ad0.png

b48f0cdc-5606-11ed-a3b6-dac502259ad0.png图2经过不同VLP模型的匹配分数优化后生成的句子

图2展示了经过匹配分数优化后生成的的句子,我们可以发现几乎所有的句子都已经变得不可读。我们从困惑度(perplexity),句子长度,视觉词的数量等角度对这些句子进行定量分析,发现这些句子已经与CE模型生成的句子有了非常大的变化(如表2所示)。不仅如此,我们还发现每一个VLP模型似乎都对某些固定的句式有偏好,如图2中,被CLIP优化的captioning模型,生成的句子的前缀带(prefix)经常含有与“a image of”相关的词组。我们利用正则表达式,对这些句子的句式(pattern)进行进行总结(表3),可以发现每一个VLP模型都有自己偏好的句式。

表2生成句子的困惑度,长度,视觉词数量的统计信息b4d7d7e6-5606-11ed-a3b6-dac502259ad0.png

表3生成句子的句式统计b50bfe22-5606-11ed-a3b6-dac502259ad0.png

04

VLP模型的缺陷

通过上述对生成句子的定量分析,我们发现现在的预训练模型主要存在3个缺陷。为了验证这3个发现,我们使用了COCO测试集中的5000张图片。

(a)VLP模型在判断一个图片-句子对是否匹配的时候过于依赖图片中的区域特征和句子中的视觉词,而忽视了全局的语义信息是否对齐。

我们对CE生成的句子进行两种处理:替换视觉词(Replacing visual words)和替换非视觉词(Replacing other words)。从图3中我们可以发现替换视觉词会使得VLP模型的匹配分数大幅下降,但是替换非视觉词只会让匹配分数下降一点。需要注意的是,替换了非视觉词后的句子是不可读的,但是模型还是会认为这些不可读句子与图片是匹配的。

b522e524-5606-11ed-a3b6-dac502259ad0.png

图3替换视觉词与替换非视觉词的匹配分数与原始分数的对比

(b)VLP模型会对偏好某些固定的句式,因此忽视了更重要的文本信息,如流畅度,语法等。

我们利用表3发现的句式,提取出CE句子的视觉词,把视觉词填补到这些句式中。我们仅仅是改变了句子的结构,就可以使得这些句子的匹配分数大幅提高(表4所示)。

表4重构后句子的匹配分数b5581758-5606-11ed-a3b6-dac502259ad0.png

(c)VLP模型认为包含更多视觉词的句子更匹配图片,这会弱化图片中关键物体的作用。

我们把每张图片的ground-truth中的视觉词先提取出来,然后每次填充k (k=3,4,5,6,7)个到句式模版中。从图4中可以看出,随着视觉词的增加,重构句子的匹配分数越来越高。

b59e4430-5606-11ed-a3b6-dac502259ad0.png

图4含有k个视觉词句子的匹配分数

05

总结

在本文中,我们利用图像描述模型提出一个新颖的探针方法。通过这个方法,我们从文本角度分析了VLP模型的语义对齐机制。我们发现现有的VLP模型在对齐方面有明显的缺陷。我们希望这些发现可以促进研究者设计更合理的模型结构或预训练任务。同时,研究者也可以使用我们的探针方法,分析其设计的VLP模型是否存在缺陷。

审核编辑:彭静

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模型
    +关注

    关注

    1

    文章

    2704

    浏览量

    47685
  • 数据集
    +关注

    关注

    4

    文章

    1178

    浏览量

    24351

原文标题:EMNLP'22 Findings | 南大提出:从文本视角探究多模态预训练模型的语义对齐能力

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    基于OWL属性特征的语义检索研究

    语义检索模型中,设计本体内实体间匹配度算法,度量概念的相似度,并对检索指标参数化。设计的原型系统实验表明,通过参数化可以有效调节检索的性能指标,定制用户的检索。【关键词】:本体;;Web本体语言
    发表于 04-24 09:48

    语义对等网覆盖路由模型的研究

    现有对等网覆盖路由模型只适应精确查找,存在不支持语义查询的缺点。该文通过建立语义空间,根据所存储数据对象的兴趣来聚集节点,实现支持语义的对等网络路由
    发表于 04-18 09:27 14次下载

    基于CAN协议P2P网络的语义web服务模型

    本文提出一种基于 CAN 协议的P2P 网络模型语义web 服务的发现机制,采用OWL-S对web 服务进行描述以支持基于语义的搜索能力,采用基于CAN 协议的P2P 网络节点可以直
    发表于 09-18 10:32 11次下载

    基于过程模型的工作流执行语义研究

    针对现有工作流建模语言难以兼顾语言的可理解性、执行语义的形式化和描述维度的单一性等问题,提出利用可视化的过程模型作为工作流建模语言。过程模型能从过程、数据、
    发表于 10-07 11:56 7次下载

    基于四层树状语义模型的场景语义识别方法

    场景分类的主要方法是基于底层特征的方法和基于视觉词包模型的方法,前者缺乏语义描述能力并且时间复杂度大,后者识别率低。借鉴两类方法的优势,提出了基于四层树状语义模型的场景
    发表于 12-07 11:17 0次下载
    基于四层树状<b class='flag-5'>语义</b><b class='flag-5'>模型</b>的场景<b class='flag-5'>语义</b>识别方法

    基于语义网技术的SLA协商机制

    针对服务等级协议(SLA)的自动协商中用于协商的SLA元素及协商过程缺乏语义描述的问题,提出了一种基于语义网技术的SLA协商机制。首先提出一种协商本体Osn,该本体专门描述直接用于协商过程的SLA
    发表于 01-02 17:17 0次下载

    基于语音、字形和语义的层次注意力神经网络模型

    神经网络、双向门控循环单元和注意力机制提取 PFSHAN模型的语音、字形和语义特征。在特征融合阶段,针对不同单词对幽默语言学特征的贡献程度不同,且不同幽默语言学特征和语句之间关联程度不同的问题,采用层次注意力
    发表于 03-26 15:38 14次下载
    基于语音、字形和<b class='flag-5'>语义</b>的层次注意力神经网络<b class='flag-5'>模型</b>

    意图和语义槽填充联合识别模型设计方案

    时记忆网络( BLSTM),由 BLSTM得到隐藏层状态后,对两任务分别加入注意力机制,通过语义槽门控杋制将意图识别的结果作用于语乂槽填充任务,并在语乂槽填充任务中加λ尞件随杋场(CRF)模型,该
    发表于 04-12 10:36 8次下载
    意图和<b class='flag-5'>语义</b>槽填充联合识别<b class='flag-5'>模型</b>设计方案

    基于SEGNET模型的图像语义分割方法

    使用原始 SEGNET模型对图像进行语义分割时,未对图像中相邻像素点间的关系进行考虑,导致同一目标中像素点类别预测结果不一致。通过在 SEGNET结构中加入一条自上而下的通道,使得 SEGNET包含
    发表于 05-27 14:54 15次下载

    基于WordNet模型的迁移学习文本特征对齐算法

    基于WordNet模型的迁移学习文本特征对齐算法
    发表于 06-27 16:14 8次下载

    基于大数据和语义识别模型的地震救援平台

    基于大数据和语义识别模型的地震救援平台
    发表于 07-05 15:24 7次下载

    文本图片编辑新范式:单个模型实现多文本引导图像编辑

    本文首先利用已有的编码器将需要编辑的图像转换到 StyleGAN 的 语义空间中的潜在编码 w,再通过提出的语义调制模块对该隐编码进行自适应的调制。该语义调制模块包括语义
    的头像 发表于 01-10 16:08 465次阅读

    95VLP857A 数据表

    95VLP857A 数据表
    发表于 05-08 19:38 0次下载
    95<b class='flag-5'>VLP</b>857A 数据表

    95VLP857A 数据表

    95VLP857A 数据表
    发表于 06-27 19:18 0次下载
    95<b class='flag-5'>VLP</b>857A 数据表

    基于语义域资源的多址技术

    我们从语义角度,以基于模型的人工智能方法,从信源中提取高维语义域特征,并针对信源和信道特征联合构建模型信息空间。
    发表于 07-17 15:02 327次阅读
    基于<b class='flag-5'>语义</b>域资源的多址技术