0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

如何通过多模态对比学习增强句子特征学习

深度学习自然语言处理 来源:知乎 作者:李加贝 2022-09-21 10:06 次阅读

论文:MCSE: Multimodal Contrastive Learning of Sentence Embeddings

链接:https://aclanthology.org/2022.naacl-main.436.pdf

代码:https://github.com/uds-lsv/MCSE

8e32bb9e-22ce-11ed-ba43-dac502259ad0.png

视觉作为人类感知体验的核心部分,已被证明在建立语言模型和提高各种NLP任务的性能方面是有效的。作者认为视觉作为辅助语义信息可以进一步促进句子表征学习。在这篇论文中,为了同时利用视觉信息和文本信息,作者采用了sota句子嵌入框架SimCSE,并将其扩展为多模态对比目标。作者发现,除了文本语料库之外,使用少量多模态数据可以显著提高STS任务的性能。在论文的最后,作者也对该方法所存在的局限性进行了分析

虽然这篇论文的框架非常简单,但是我觉得对于实验和作者的局限性分析还是有值得思考的地方

方法

8e5651da-22ce-11ed-ba43-dac502259ad0.png

MCSE模型

SimCSE

8e8929c0-22ce-11ed-ba43-dac502259ad0.png

就是通过dropout+编码两次构建正样本对,进行对比学习

给定一个图像句子对,把他们映射到一个共同的嵌入空间中

8e9d2420-22ce-11ed-ba43-dac502259ad0.png

f()为预训练的语言编码器和预训练的图像编码器,g()为映射头

接下来就是多模态对比学习:

8eac4fea-22ce-11ed-ba43-dac502259ad0.png

最终的损失函数为 SimCSE的损失+多模态对比损失:

8ec916c0-22ce-11ed-ba43-dac502259ad0.png

Experiments

作者使用Flickr30k(包含29, 783个训练图像)和MS-COCO(包含82, 783个训练图像)作为多模态数据集,使用Wiki1M(个句子)作为文本语料库

SimCSEMCSE的差别就是,MCSE利用了图像-句子对,引入了多模态对比损失。即使多模态数据量相对较小,可获得辅助视觉信息的MCSE模型也能进一步取得显著的改进。在STS16上,Bert+MCSE的性能较差,作者解释为域差异,其中一些接近训练分布的子集比其他子集更能从视觉基础中获益。

8ed9a648-22ce-11ed-ba43-dac502259ad0.png

表1

为了进一步研究不同数据集的影响,作者只在多模态数据上训练模型,并在表2中报告结果。我们观察到,在没有大型纯文本语料库的情况下,性能比表1中的结果下降了很多,但是依然可以超过SimCSE。此外,作者将成对的图像替换为打乱的图像进行训练,模型下降了0.8-5.0个点,进一步验证了视觉语义的有效性

这点其实我不太理解,是将图像句子对的匹配关系给打乱了么,如果是这样的话,感觉好像没什么意义呀

8eeaba50-22ce-11ed-ba43-dac502259ad0.png

表2

作者使用bert-base model只在多模态数据上进行了训练,来研究数据规模大小对性能的影响,在数量有限的样本上,SimCSE取得了更好的性能,随着数据量的增加,MCSE的性能更好,作者推测,这一现象可以归因于多模态映射投权重的渐进训练

8f03863e-22ce-11ed-ba43-dac502259ad0.png

作者报告了alignment and uniformity两个量化指标,结果表明,与SimCSE模型相比,MCSE模型在保持一致性的同时获得了更好的对齐得分。这一分析进一步支持了视觉基础可以通过改善文本嵌入空间的对齐特性来增强句子特征学习。

8f1fef4a-22ce-11ed-ba43-dac502259ad0.png

8f2ce7a4-22ce-11ed-ba43-dac502259ad0.png

8f3a9cd2-22ce-11ed-ba43-dac502259ad0.png

Limitations

作者还指出了该方法所存在的局限性,多模态数据收集标注困难,如果可以合理的利用噪声图像-句子对,或者摆脱显式的图像文本对齐关系,将会有很大的实用价值。此外,我们发现只有来自相关领域的子集可以获得显著的改进,而其他子集则受到域偏移的影响。对于学习通用的句子嵌入来说,减小域偏移是至关重要的。此外,“语义相似度”的定义是高度任务依赖的。除了STS基准之外,值得探讨的是纯文本模型和多模态模型在其他基准上的性能差距,这些基准也可以评估句子特征的质量。

编辑:黄飞

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • nlp
    nlp
    +关注

    关注

    1

    文章

    463

    浏览量

    21818

原文标题:NAACL22 | 引入多模态对比学习来增强句子特征学习

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    适用于任意数据模态的自监督学习数据增强技术

    本文提出了一种适用于任意数据模态的自监督学习数据增强技术。   自监督学习算法在自然语言处理、计算机视觉等领域取得了重大进展。这些自监督学习
    的头像 发表于 09-04 10:07 784次阅读
    适用于任意数据<b class='flag-5'>模态</b>的自监督<b class='flag-5'>学习</b>数据<b class='flag-5'>增强</b>技术

    基于多模态特征数据的多标记迁移学习方法的早期阿尔茨海默病诊断

    特征选择模块和多模态多标记分类回归学习器模块。首先,通过稀疏多标记学习模型对分类和回归学习任务进
    发表于 12-14 11:22 3次下载

    多文化场景下的多模态情感识别

    学习特征,并通过多模态融合方法结合不同的模态。比较不同单模态
    发表于 12-18 14:47 0次下载

    一种无监督下利用多模态文档结构信息帮助图片-句子匹配的采样方法

    的共现结构信息帮助采样完成句子-图片匹配的方法。本文的合作单位是杭州之江实验室。     文章摘要   文章针对无监督的句子图片匹配任务。现存的方法主要通过利用多模态文档的图片
    的头像 发表于 12-26 10:26 1903次阅读
    一种无监督下利用多<b class='flag-5'>模态</b>文档结构信息帮助图片-<b class='flag-5'>句子</b>匹配的采样方法

    通过多模态特征融合来设计三维点云分类模型

    针对点云数据本身信息量不足导致现有三维点云分类方法分类精度较低的问题,结合多模态特征融合,设计一种三维点云分类模型。通过引入投影图对点云数据信息进行扩充,将点云数据与图像数据同时作为输入
    发表于 03-11 14:09 3次下载
    <b class='flag-5'>通过多</b><b class='flag-5'>模态</b><b class='flag-5'>特征</b>融合来设计三维点云分类模型

    基于语义耦合相关的判别式跨模态哈希特征表示学习算法

    特征表示的语义判别性,从而导致哈希码表示的类别区分性不强,降低了最近邻搜索的准确性和鲁棒性。该文提出了基于语义耦合相关的判别式跨模态哈希特征表示学习算法。算法在模型的优化目标函数设计
    发表于 03-31 11:28 12次下载
    基于语义耦合相关的判别式跨<b class='flag-5'>模态</b>哈希<b class='flag-5'>特征</b>表示<b class='flag-5'>学习</b>算法

    可提高跨模态行人重识别算法精度的特征学习框架

    为了提升跨模态行人重识别算法的识别精度,提出了一种基于改进困难三元组损失的特征学习框架。首先,改进了传统困难三元组损失,使其转换为全局三元组损失。其次,基于跨模态行亼重识别中存在
    发表于 05-10 11:06 9次下载

    特征选择和机器学习的软件缺陷跟踪系统对比

    软件缺陷报告严重程度。通过对4种特征选择算法及4种机器学习算法处理结果的交叉对比表明,使用信息增益特征选择算法对原始数据集进行
    发表于 06-10 10:50 12次下载

    基于耦合字典学习与图像正则化的跨模态检索

    基于耦合字典学习与图像正则化的跨模态检索
    发表于 06-27 11:23 39次下载

    简述文本与图像领域的多模态学习有关问题

    来自:哈工大SCIR 本期导读:近年来研究人员在计算机视觉和自然语言处理方向均取得了很大进展,因此融合了二者的多模态深度学习也越来越受到关注。本期主要讨论结合文本和图像的多模态任务,将从多模态
    的头像 发表于 08-26 16:29 6407次阅读

    对比学习的关键技术和基本应用分析

    对比学习的主要思想是相似的样本的表示相近,而不相似的远离。对比学习可以应用于监督和无监督的场景下,并且目前在CV、NLP等领域中取得了较好的性能。本文先对
    的头像 发表于 03-09 16:28 4636次阅读

    结合句子间差异的无监督句子嵌入对比学习方法-DiffCSE

    句向量表征技术目前已经通过对比学习获取了很好的效果。而对比学习的宗旨就是拉近相似数据,推开不相似数据,有效地
    的头像 发表于 05-05 11:35 970次阅读

    通过对比学习的角度来解决细粒度分类的特征质量问题

    一、本文贡献 1.网络通过提取显著性区域并融合这些区域特征,以同时学习局部和全局的特征2.通过混杂来自负例的注意力
    的头像 发表于 05-13 16:54 1818次阅读
    <b class='flag-5'>通过</b><b class='flag-5'>对比</b><b class='flag-5'>学习</b>的角度来解决细粒度分类的<b class='flag-5'>特征</b>质量问题

    为什么不同模态的embedding在表征空间中形成不同的簇

    文中将一些经典的多模态对比学习模型中两个模态的embedding,通过降维等方法映射到二维坐标系中。
    的头像 发表于 12-05 14:06 695次阅读

    CMU最新《多模态机器学习的基础和最新趋势》综述

    开发具有智能能力的计算机智能体一直是人工智能的一个宏伟目标,如通过多模态经验和数据进行理解、推理和学习,就像我们人类使用多种感官模式感知世界的方式一样。
    的头像 发表于 12-07 14:43 771次阅读