0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

ICLR 2024 清华/新国大/澳门大学提出一模通吃的多粒度图文组合检索MUG:通过不确定性建模,两行代码完成部署

CVer 来源:CVer 2024-01-25 16:53 次阅读

在本篇工作中,研究者探索了一种统一的学习方法,通过考虑多粒度的不确定性来同时对粗粒度和细粒度的图像检索进行建模。论文的方法集成了不确定性建模和不确定性正则化来提高召回率并增强检索过程,在三个公共数据集FashionIQ、Fashion200k 和 Shoes上,所提出的方法在baseline上分别提高了 +4.03%、+ 3.38% 和 + 2.40% Recall@50。

05fa7fb8-bb44-11ee-8b88-92fbcf53809c.png

论文题目: Composed Image Retrieval with Text Feedback via Multi-Grained Uncertainty Regularization 论文链接: https://arxiv.org/abs/2211.07394 论文代码: https://github.com/Monoxide-Chen/uncertainty_retrieval

一、背景

典型的检索过程包含两个步骤,即粗粒度检索和细粒度检索。粗粒度检索利用简短或不精确的描述查询图像,而细粒度检索则需要更多细节进行一对一映射。

之前工作有什么痛点?

1. 传统的图像检索系统要求用户提前提供准确的查询图像,通常是不好获得;而添加文本反馈,用户则可以对查询图像进行的修改,来逐渐细化他们的搜索。

2. 现有的组合搜索方法通常侧重于在训练过程中优化严格的成对距离,这与一对多粗粒度测试设置不同。过多关注一对一度量学习会削弱模型对潜在候选图片的召回能力。

二、方法

1、总览

0607ce70-bb44-11ee-8b88-92fbcf53809c.png

在这篇论文中,研究者不追更精细的网络结构,而是采用一种新的学习策略。因此,主要遵循现有的工作CosMo[1]来构建网络以进行公平比较,更多的结构细节在论文中进行了提供。

给定源图像 06179634-bb44-11ee-8b88-92fbcf53809c.jpg 和用于修改的文本 061e992a-bb44-11ee-8b88-92fbcf53809c.jpg,我们通过Compositor组合 063174c8-bb44-11ee-8b88-92fbcf53809c.jpg0646dfc0-bb44-11ee-8b88-92fbcf53809c.jpg 得到了组合特征 064e480a-bb44-11ee-8b88-92fbcf53809c.jpg。同时,我们通过与源图像相同的Image Encoder提取了目标图像 065cdb04-bb44-11ee-8b88-92fbcf53809c.jpg 的视觉特征 06642e40-bb44-11ee-8b88-92fbcf53809c.jpg。我们的主要贡献是通过Augmenter进行不确定性建模,以及对粗匹配进行的不确定性正则化。   

2、不确定性建模

066b7fba-bb44-11ee-8b88-92fbcf53809c.png

如上图所示,不再采用严格的一对一匹配,而是促使模型专注于一对多匹配,即从细粒度过渡到粗粒度。因此,首先引入了一个用于噪声增强的Augmenter来生成抖动,这个模块直接作用于最终的特征空间。具体而言,Augmenter向目标特征 06642e40-bb44-11ee-8b88-92fbcf53809c.jpg 添加原始特征分布的高斯噪声。高斯噪声的均值 0693283a-bb44-11ee-8b88-92fbcf53809c.jpg 和标准差 06ac0382-bb44-11ee-8b88-92fbcf53809c.jpg 是从原始特征 06642e40-bb44-11ee-8b88-92fbcf53809c.jpg 计算得出的。因此,最终的抖动特征 06be5000-bb44-11ee-8b88-92fbcf53809c.jpg 可以表示为:

06d74ff6-bb44-11ee-8b88-92fbcf53809c.jpg

其中,06e7ba12-bb44-11ee-8b88-92fbcf53809c.jpg06f9124e-bb44-11ee-8b88-92fbcf53809c.jpg 是与输入目标特征具有相同形状的噪声向量,070031be-bb44-11ee-8b88-92fbcf53809c.jpg,而 07093854-bb44-11ee-8b88-92fbcf53809c.jpg。通过这种方式可以使特征在有限程度上波动,接近于原始分布。

3、不确定性正则化

现有的方法通常采用InfoNCE损失函数,可以看作是一种batch分类损失函数(batch-wise classification loss)。其简单表述如下:

070fe960-bb44-11ee-8b88-92fbcf53809c.jpg

对于一个具有 071ab9bc-bb44-11ee-8b88-92fbcf53809c.jpg 个样本的batch,给定图文合成特征 064e480a-bb44-11ee-8b88-92fbcf53809c.jpg 和目标特征 06642e40-bb44-11ee-8b88-92fbcf53809c.jpg,InfoNCE损失同时最大化自相似性 0735ce5a-bb44-11ee-8b88-92fbcf53809c.jpg 并最小化batch中与其他样本相似性 073fbe60-bb44-11ee-8b88-92fbcf53809c.jpg074ad1d8-bb44-11ee-8b88-92fbcf53809c.jpg 。可以看出,InfoNCE损失仅关注一对一的精细粒度匹配。在这项工作中旨在统一精细和粗粒度的匹配。由偶然不确定性(Aleatoric Uncertainty)[2]的启发,给定两种类型的特征 06be5000-bb44-11ee-8b88-92fbcf53809c.jpg064e480a-bb44-11ee-8b88-92fbcf53809c.jpg,不确定性正则化可以定义如下:   

076169d4-bb44-11ee-8b88-92fbcf53809c.jpg

为了优化多粒度检索性能,采用了细粒度损失 076eaf72-bb44-11ee-8b88-92fbcf53809c.jpg 和论文提出的不确定性正则化 0776dd32-bb44-11ee-8b88-92fbcf53809c.jpg 的组合。因此,总损失如下:

07845a48-bb44-11ee-8b88-92fbcf53809c.jpg

三、实验

1、实验设置

论文在多个数据集上(FashionIQ、Fashion200k、Shoes)测试了方法的准确性,提升了召回率。代码已经公开在github上。

2、实验结果

展示了一些论文结果,更多的实验结果和消融实验请参考论文。

078b9d4e-bb44-11ee-8b88-92fbcf53809c.png

在FashionIQ上的结果

07a982a0-bb44-11ee-8b88-92fbcf53809c.png

在Fashion200k和Shoes上的结果

四、总结

总的来说,该论文通过多粒度不确定性正则化的角度提出了一种新颖的通过文本反馈进行组合图像检索的方法。该方法通过不确定性建模和正则化同时对粗粒度和精细粒度的检索进行建模,从而解决了现实世界图像检索中的训练和测试不一致性问题。该方法生成抖动特征以模拟不确定范围,并根据波动范围自适应地调整权重。与现有方法相比,所提出的方法在三个公共数据集上显著提高了召回率。论文还讨论了该方法在现实场景中的潜在应用以及其对集成数据集的可扩展性。总体而言,所提出的方法为通过文本反馈进行组合图像检索面临的挑战提供了有希望的解决方案。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 建模
    +关注

    关注

    1

    文章

    281

    浏览量

    60505
  • 模型
    +关注

    关注

    1

    文章

    2706

    浏览量

    47702
  • 图像检索
    +关注

    关注

    0

    文章

    28

    浏览量

    7993
  • 检索系统
    +关注

    关注

    0

    文章

    8

    浏览量

    6425

原文标题:ICLR 2024 清华/新国大/澳门大学提出一模通吃的多粒度图文组合检索MUG:通过不确定性建模,两行代码完成部署

文章出处:【微信号:CVer,微信公众号:CVer】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    去嵌入和不确定性是否使用了正确的设置

    视为“适配器移除”吗?我没想到我们的不确定性加倍,所以我想检查下我是否使用了正确的设置。 以上来自于谷歌翻译 以下为原文Hi guys, So the problem I'm having
    发表于 09-27 15:47

    E8364C PNA的不确定性和跟踪是什么?

    在中断后,我回到网络分析仪,并提出个简单的问题。我正在阅读E8364C PNA的数据表,并遇到了E8364C PNA,不确定性和跟踪,但没有解释这些术语。我的猜测是,不确定性是与公认
    发表于 10-18 17:03

    是否可以使用全双端口校准中的S11不确定性来覆盖单端口校准的不确定性

    我们直在使用Agilent VNA不确定度计算器电子表格,让我们了解我们测量的设备的不确定性。有关单端口校准的问题:目前您必须从电子表格中选择您的VNA(带宽和平均值),然后选择校准类型(全双端口
    发表于 12-29 16:32

    N5531S TRFL不确定性

    我正在尝试使用N5531S(选择550传感器)测量接收器系统测量0到-130dBm的绝对功率水平,然后计算它的不确定性。安捷伦的应用笔记已经提到,不确定度可以使用公式+/-计算(功率计范围2-4
    发表于 02-19 15:40

    435B-K05输出不确定性

    以及将435B-K05的输出结果与UUT功率计的参考输出进行比较来准确测量输出。我反对他们的方法的理由是,通过次测量,不匹配不确定度和仪表误差不确定性将加倍,更不用说必须包括435B
    发表于 08-02 14:33

    测试系统不确定性分析

    测试系统不确定性分析
    发表于 09-18 09:19

    5G网络架构的不确定性及其对承载网的影响

    不确定性问题的分析,提出以下建议:  (1)基站应采用适度规模集中部署方式,充分利用现有LTE网络的前传光缆网络资源,在5G做连续覆盖时,新增基站前传光缆建设应充分利用现有光缆网
    发表于 12-03 16:03

    傅里叶变换与不确定性看了就知道

    傅里叶变换与不确定性
    发表于 12-30 06:41

    基于RFID技术的供应链管理项目存在哪些不确定性

    基于RFID技术的供应链管理项目存在哪些不确定性?项目嵌入的实物期权类型有哪几种?
    发表于 05-28 07:08

    运算放大器的开环电压增益有哪些不确定性

    运算放大器的开环电压增益的值有多大?运算放大器的开环电压增益有哪些不确定性?如何去解决?
    发表于 07-19 09:11

    三相电压型变换器不确定性建模及滑模控制方法_刘雄飞

    三相电压型变换器不确定性建模及滑模控制方法_刘雄飞
    发表于 01-08 11:28 0次下载

    连续值信息系统的不确定性度量

    度量进行了系统研究。基于经典Pawlak粗糙集理论中的近似精度、知识粒度与信息熵,提出了连续值信息系统的粗糙度、知识粒度与知识熵,并对三种度量方式进行了比较分析。三种不确定性度量方式的
    发表于 11-29 15:22 0次下载

    针对自闭症辅助的不确定性联合组稀疏建模方法

    提出一种新型的不确定性联合组稀疏建模方法JGSI-TSK,并将其用于自闭症的辅助诊断。首先,对原始rs-MRI数据进行预处理和特征提取,得到低维特征数据;然后,基于TSK模糊系统框架,从特征之间的相关性出发,在后件参数学习过程
    发表于 04-07 11:23 2次下载
    针对自闭症辅助的<b class='flag-5'>不确定性</b>联合组稀疏<b class='flag-5'>建模</b>方法

    不确定性感知和姿态回归结合用于自动驾驶车辆定位

    提出了一种联合训练姿态估计和不确定性的方法,其具有可靠的不确定性估计和改进的训练稳定性
    的头像 发表于 01-30 11:30 1219次阅读

    海森堡不确定性原理的本质是什么呢?

    海森堡不确定性原理是德国物理学家维尔纳·海森堡于1927年提出的,它表明在量子力学里,粒子的位置和动量不可能同时被精确地测量
    的头像 发表于 04-03 10:03 922次阅读