0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

一种无监督下利用多模态文档结构信息帮助图片-句子匹配的采样方法

深度学习自然语言处理 来源:深度学习自然语言处理 作者:深度学习自然语言 2020-12-26 10:26 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

引 言

本文介绍了复旦大学数据智能与社会计算实验室 (Fudan DISC) 在AAAI 2021上录用的一篇关于多模态匹配的工作:An Unsupervised Sampling Approach for Image-Sentence Matching UsingDocument-Level Structural Information,提出了一种无监督设定下,更有效地利用多模态文档的共现结构信息帮助采样完成句子-图片匹配的方法。本文的合作单位是杭州之江实验室。

文章摘要

文章针对无监督的句子图片匹配任务。现存的方法主要通过利用多模态文档的图片句子共现信息来无监督地采样正负样本对,但是其在获得负样本时只考虑了跨文档的图片句子对,在一定程度上引入了采样的偏差,使得模型无法分辨同一文档内语义较为近似的图片和句子。

在本文中,我们提出了一种新的采样的方法,通过引入同一文档内的图片句子对作为额外的正负样本来减小采样的偏差;进一步,我们提出了一个基于Transformer的模型来识别更为复杂的语义关联,该模型为每个多模态文档隐式地构建了一个图的结构,构建了同一篇文档内句子和图片的表征学习间的桥梁。实验的结果证明了我们提出的方法有效的减小偏差并且进一步获得了更好的跨模态表征。

研究背景

dfab07a2-4692-11eb-8b86-12bb97331649.png

图1. 句子-图片匹配任务说明

(绿色/蓝色点代表图片/句子,红色实线代表匹配关系的标签,红色/蓝色虚线代表无监督方法选出的(伪)正/负样本对)

图片-句子的匹配一直是跨模态领域的基础任务,其根本的目的是对其视觉和文本的语义空间。如(a)所示,两个模态之间本身存在着语义空间上的差异,对其的常见方法是通过有监督的标签拉近匹配的样本对,如(b)所示。在无监督的环境下,最大的挑战即为如何选择出想要拉近的正样本对和远离的负样本对。

如(c)所示,最近的无监督的方法通过文档的图片句子共现信息,通过拉近句子集合和图片集合的方式来进行训练,其中,同文档内语义近似的句子-图片对被看作正样本,而跨文档间的句子-图片对被看作负样本,如(c)所示,这样的方法没有考虑到文档内部语义相似度更高的负样本,其选出的负样本与真实的负样本分布存在着偏差。

于是本文提出了新的采样策略,如(d)所示,我们引入了更多同一文档内部的正负样本对来帮助训练。进一步,为了更好地识别同一文档内更加复杂的句子图片语义匹配模式,我们考虑使用更加细粒度的表征学习方法,提出了一个新的基于Transformer的模型,在其中为每个文档的句子图片间隐性建模了一个图,来帮助获得更好的跨模态表征。

方法描述

采样方法

本文的方法基于三个部分的采样,通过3个训练目标实现,如图2所示。

图2. 三个部分的采样和训练目标示意

第一个部分为之前的工作提出的跨文档训练目标(cross-document objective)。其假设为同一文档内的句子集合和图片集合间的相似度要整体高于来自两个不同文档的句子集合和图片集合间的相似度,背后通过一定的方式来选出几个句子图片对之间的相似度来代表句子集合和图片集合间的相似度。其采样得到的正样本为来自同一文档的语义较为近似的句子-图片对;负样本为来自不同文档的语义较为近似的图片句子对。

第二个部分为文档内部的训练目标(intra-document objective)。其假设为同一篇文档内部的语义近似的图片句子对之间的相似度也要高于内部语义相差较远的图片句子对间的相似度,高于一定的值,在此目标下采样出的正样本为来自同一文档的语义较为近似的句子-图片对;负样本为来自同一文档的语义相差较远的图片句子对。

第三个部分为次跨文档训练目标(dropout sub-document objective)。其假设为即使一篇文档我们将其随机的遮盖住部分的句子/图片,剩下的残缺文档内的句子集合和图片集合间的相似度也要高于跨文档间的图片集合-句子集合间的相似度。在此目标下采样出的正样本为来自同一“残次”文档的语义较为近似的句子-图片对;负样本为来自不同文档的语义近似的图片句子对。

跨模态表征模型

图3. 总的模型结构示意

由于引入了更多的同一文档内的图片句子对,我们需要得到包含更细粒度信息的多模态表征,所以我们将图片分割为区域,将句子分割为token,Transformer可以看作是带有attention机制的图网络,我们通过两个视觉/文本的Transformer对各模态内的(区域/token)节点进行编码,与此同时我们引入了视觉的概念,这里我们将图片区域预测出的标签作为图片包括的概念,将它们作为中间的桥梁将两个模态的图桥接起来。概念会直接加入到视觉的图中,作为节点存在,而概念和文本端的关系通过共享的embedding层来实现。这样的模型里,当句子里直接提到了区域里对应的概念时,我们的模型就能很快地捕捉到这样的匹配关系。

实验

我们在无监督的多句子多图片文档内的跨模态链接预测任务上进行了实验,其中包括了基于MSCOCO, VIST构建出的三个文档数据集。对于每一个文档,其内部有多个句子和多个图片,需要去预测其中句子和图片间是否存在着链接的边(匹配关系),使用AUC/P@1/P@5进行评估。相较于之前只使用cross-document objective的方法(表内MulLink),我们的方法有了明显的提高。

e1927e92-4692-11eb-8b86-12bb97331649.png

表1. 总的实验结果

同时我们对我们提出的模型的结构,和三个部分的训练目标进行了消融实验:

e212875e-4692-11eb-8b86-12bb97331649.png

表2. 部分消融实验的结果

(S列代表采样方法,T代表同时使用三种目标训练,O代表只使用跨文档训练目标,w/o代表without,w/o Transformer的方法里我们使用GRU对句子进行表征,对图片的各个区域进行softmax pooling进行表征。)

可以看到整体上同时使用三种目标可以采样到更多的信息,帮助训练,我们也对三个目标进行了更加细致的消融实验,详情可以参考原文。同时我们提出的模型更好地利用了细粒度的信息,也获得了更好地跨模态表征。

同时,我们进行了有监督、无监督和迁移学习的比较。有监督的方法直接使用文档内的匹配的图片句子对作为训练,如图4,迁移学习则尝试迁移从MSCOCO上进行有监督训练的信息到DII测试集上,如表3。

e2a01a74-4692-11eb-8b86-12bb97331649.png

图4. 有监督-无监督比较

蓝色代表有监督学习下,随着使用的数据增加在测试集上的表现

e31ba77a-4692-11eb-8b86-12bb97331649.png

表3. 迁移学习和无监督学习的比较

可以看到相较于只使用跨文档训练目标,同时使用三种目标得到的更多样本对里包括了更多的信息,我们无监督的方法可以利用训练集内更多的信息(~40%),相较于迁移自其他数据集的信息,也更加有效。

除此之外,我们通过错误分析的方法验证我们的方法对于偏差的修正效果。该偏差的表现为同一文档内的句子和图片更加近似,跨文档内的图片和句子差异更大,所以我们使用文档内的句子/图片表征的发散程度来代表这个差异,同一文档内越发散,训练和测试之间的差异越小。在DII上,我们使用每个文档内句子/图片的发散程度来拟合该文档链接预测的AUC,原来的方法得到的线性模型的R方为42%,也就是说差异能很大程度解释错误的原因,而我们的方法得到的R方为23%,这意味着该差异对于结果的作用减弱了,加上我们模型整体上更好地表现,我们可以认为我们减弱了采样的偏差,使得偏差引起的错误减少了。

结论

在本文里,我们对于无监督的句子-图片匹配任务,针对之前方法存在的采样偏差问题提出了新的采样策略,希望更高效地利用多模态文档内句子和图片共现的结构信息,引入了更多的来自同一文档内的正/负图片-句子对。同时提出了可以利用更细粒度信息的模型,建立了跨模态表征学习的关系桥梁。最终的实验证明了我们方法的有效性。

责任编辑:xj

原文标题:【Fudan DISC】一种无监督下利用多模态文档结构信息帮助图片-句子匹配的采样方法

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 语义
    +关注

    关注

    0

    文章

    22

    浏览量

    8793
  • 自然语言
    +关注

    关注

    1

    文章

    292

    浏览量

    13921

原文标题:【Fudan DISC】一种无监督下利用多模态文档结构信息帮助图片-句子匹配的采样方法

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    可以更快。轮对话1:这张图片上有哪些文字信息 感受一下第一次出词的耗时 轮对话1:这张图片
    发表于 09-05 17:25

    一种新的刷直流电机反电动势检测方法

    位置传感器刷直流电机的控制算法是近年来研究的热点之,有霍尔位置信号直流电机根据霍尔状态来确定通断功率器件。利用刷直流电机的数学模型,
    发表于 08-07 14:29

    基于硬件的位置传感器刷直流电机启动新方法

    针对传统的位置传感器刷直流电机控制的起动需采用复杂的软件、成本高、定位不准确、容易堵转的缺陷,提出了一种通过检测线电压差获得转子位置的方法。提出的
    发表于 08-07 13:30

    一种新的刷直流电机反电动势检测方法

    位置传感器刷直流电机的控制算法是近年来研究的热点之,有霍尔位置信号直流电机根据霍尔状态来确定通断功率器件。利用刷直流电机的数学模型,
    发表于 08-04 14:59

    一种带通滤波器在位置传感器转子检测中的应用

    摘 要:论文研究了一种直流无刷电机的位置传感器的转子位置的硬件电路检测方法。结合传统“反电动势\"方法,分析并设计了一种新的带通滤波器延时
    发表于 08-04 14:56

    基于刷直流电机的积分变结构控制器抑制转矩脉动

    摘 要:文章基于刷直流电机设计了一种积分变结构(IVSC)控制器,以抑制转矩脉动。在利用传统电流控制技术中,如果反电动势(EMF)是一种
    发表于 07-29 16:24

    基于电感法刷直流电机起动方法的优化设计

    摘要:针对位置传感器刷直流电机在静止和低速状态检测转子位置较为困难的问题,提出了一种新的位置传感器
    发表于 07-28 15:04

    斜齿式超声电机定子振动模态的有限元分析

    超声电机是一种利用压电陶瓷逆压电效应制成的全新概念的电机,主要由定子、转子以及施加预压力的机构等部件构成。其中,斜齿式模态转换型超声电机是一种针对大力矩、单
    发表于 07-16 19:04

    刷直流电机非换相相电流采样的逆变器结构

    摘要:提出了一种新型的逆变器结构,将传统的三相桥逆变器中与功率开关管反并联安装的续流二极管独立开,通过采用磁感应式电流传感器,实现刷直流电机的非换相相电流的采样,从而使得电磁转矩的精
    发表于 06-27 16:42

    使用MATLAB进行监督学习

    监督学习是一种根据未标注数据进行推断的机器学习方法监督学习旨在识别数据中隐藏的模式和关系,
    的头像 发表于 05-16 14:48 1178次阅读
    使用MATLAB进行<b class='flag-5'>无</b><b class='flag-5'>监督</b>学习

    电机联轴控制的旋转机械定转子模态分析

    介绍了一种电机联轴控制的旋转机械结构。振动模态分析是电机优化设计的重要步骤,本文利用ANSYS有限元软件对定转子模态模型进行了详细的计算和分
    发表于 04-24 21:07

    一种模态驾驶场景生成框架UMGen介绍

    端到端自动驾驶技术的快速发展对闭环仿真器提出了迫切需求,而生成式模型为其提供了一种有效的技术架构。然而,现有的驾驶场景生成方法大多侧重于图像模态,忽略了其他关键模态的建模,如地图
    的头像 发表于 03-24 15:57 1511次阅读
    <b class='flag-5'>一种</b><b class='flag-5'>多</b><b class='flag-5'>模态</b>驾驶场景生成框架UMGen介绍

    2025年Next Token Prediction范式会统一多模态

    各种模态信息(如图像、视频和音频片段)分解为最小的单元序列(Token),以便 Transformer 结构为基础的 NTP 模型学习。 Tokenization 方法可以分为离散(
    的头像 发表于 01-21 10:11 925次阅读
    2025年Next Token Prediction范式会统<b class='flag-5'>一多</b><b class='flag-5'>模态</b>吗

    体验MiniCPM-V 2.6 模态能力

    模态组网
    jf_23871869
    发布于 :2025年01月20日 13:40:48

    商汤日日新模态大模型权威评测第

    刚刚,商汤科技日日新SenseNova模态大模型,在权威综合评测权威平台OpenCompass的模态评测中取得榜单第
    的头像 发表于 12-20 10:39 1496次阅读