0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

融合Image-Text和Image-Label两种数据的多模态训练新方式

深度学习自然语言处理 来源:圆圆的算法笔记 作者:圆圆的算法笔记 2022-07-14 14:12 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

目前CV领域中包括两种典型的训练模式,第一种是传统的图像分类训练,以离散的label为目标,人工标注、收集干净、大量的训练数据,训练图像识别模型。第二种方法是最近比较火的基于对比学习的图文匹配训练方法,利用图像和其对应的文本描述,采用对比学习的方法训练模型。这两种方法各有优劣,前者可以达到非常高的图像识别精度、比较强的迁移能力,但是依赖人工标注数据;后者可以利用海量噪声可能较大的图像文本对作为训练数据,在few-shot learning、zero-shot learning上取得很好的效果,但是判别能力相比用干净label训练的方法较弱。今天给大家介绍一篇CVPR 2022微软发表的工作,融合两种数据的一个大一统对比学习框架。

78152864-033a-11ed-ba43-dac502259ad0.png

论文题目:Unified Contrastive Learning in Image-Text-Label Space

下载地址:https://arxiv.org/pdf/2204.03610.pdf

CVPR 2022微软发表的这篇工作,希望同时利用图像、文本、label三者的信息,构建一个统一的对比学习框架,同时利用两种训练模式的优势。下图反映了两种训练模式的差异,Image-Label以离散label为目标,将相同概念的图像视为一组,完全忽视文本信息;而Image-Text以图文对匹配为目标,每一对图文可以视作一个单独的label,文本侧引入丰富的语义信息。

7828afec-033a-11ed-ba43-dac502259ad0.png

1

两种数据的融合

上面所说的Image-Label和Image-Text两种数据,可以表示成一个统一的形式:(图像,文本,label)三元组。其中,对于Image-Lable数据,文本是每个label对应的类别名称,label对应的每个类别的离散标签;对于Image-Text数据,文本是每个图像的文本描述,label对于每对匹配的图文对都是不同的。将两种数据融合到一起,如下图右侧所示,可以形成一个矩阵,填充部分为正样本,其他为负样本。Image-Label数据中,对应类别的图文为正样本;Image-Text中对角线为正样本。

785b4fba-033a-11ed-ba43-dac502259ad0.png

2

损失函数

在上述矩阵的基础上,可以利用对比学习的思路构建融合Image-Label和Image-Text两种数据优化函数。对于一个batch内的所有样本,分别使用图像Encoder和文本Encoder得到图像和文本的表示,并进行归一化,然后计算图像文本之间的相似度,和CLIP类似。其中Image-to-Text损失函数可以表示为:

7881cfb4-033a-11ed-ba43-dac502259ad0.png

以样本i(文本)为中心,k表示当前batch内,和样本i的label相同的图像,j表示batch内所有其他样本。也就是说,对于每个文本,损失函数的分子是和该文本匹配的图像,分母是batch内所有图像。Text-to-Image损失函数也类似。最终BiC loss是二者之和:

789533f6-033a-11ed-ba43-dac502259ad0.png

3

与其他损失函数的对比

BiC loss和交叉熵、Supervised Contrast以及CLIP三种方法的损失函数差别如下图所示,这几种损失函数之间存在着一定的联系。

78a56e88-033a-11ed-ba43-dac502259ad0.png

与交叉熵损失的关系:如果text encoder只是一个普通的全连接,并且batch size相比类别数量足够大,以至于一个batch内所有类别的样本都出现过,那么BiC和交叉熵等价。因此BiC相比交叉熵更具一般性,BiC让具有相似文本描述的图像表示形成类簇,不具有相似文本描述的图像被拉远。文本侧也更加灵活,能够使用任意种类的文本输入,结合更丰富的文本Encoder联合学习。

与SupCon的关系:SupCon是图像对比学习,训练数据每对pair都是图像,共用一个Encoder;而BiC针对的是跨模态对比学习,图片和文本跨模态对齐。但是两者的核心思路都是根据有label数据,将batch内出现样本更多置为正样本。

与CLIP的关系:和CLIP的主要差别在于,利用label信息将一部分非对角线上的元素视为正样本。如果这里不使用Image-Label数据,那么就和CLIP相同。

4

实验效果

图像分类效果对比:相比使用交叉熵损失和有监督对比学习,文中提出的UniCL在多个模型和数据集上取得较好的效果。尤其是在小数据集上训练时,UniCL比交叉熵训练效果提升更明显,因为引入的图文匹配方式让具有相似语义图像聚集在一起,缓解了过拟合问题。

78b9b1cc-033a-11ed-ba43-dac502259ad0.png

文本Encoder和损失函数对比:文中也对比了文本Encoder是否引入的效果,如果将Transformer替换成线性层,效果有所下降,表明文本Encoder的引入能够帮助模型学习到1000多个类别之间的关系文本语义关系,有助于提升图像分类效果。同时,如果去掉i2t的loss只保留t2i的loss,会导致效果大幅下降。

78d53dde-033a-11ed-ba43-dac502259ad0.png

Image-Text引入对Image-Label效果提升:对于上面3行和下面3行,下面3行引入额外Image-Text数据的图像分类效果要显著优于只使用图像分类数据的效果。

78f8c3b2-033a-11ed-ba43-dac502259ad0.png

Image-Label引入对Image-Text效果提升:通过下面实验对比,引入Image-Label对Image-Text效果有一定提升作用。

792c30f8-033a-11ed-ba43-dac502259ad0.png

下图绘制了使用CLIP(左)和UniCL(右)两种方法训练的图像embedding的t-sne图。可以看到,使用CLIP训练的模型,不同类别的图像表示混在一起;而使用UniCL训练的模型,不同类别的图像表示能够比较好的区分。

7946524e-033a-11ed-ba43-dac502259ad0.png

5

总结

本文介绍了融合Image-Text和Image-Label两种数据的的多模态训练新方式,充分利用了不同的图像-文本数据,信息相互补充,相比单独使用一个数据取得非常好的效果。Label的引入也让对比学习的正负样本构造更加科学。

原文标题:图文匹配 + 图像分类 = 统一多模态对比学习框架

文章出处:【微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7347

    浏览量

    95006
  • 图像识别
    +关注

    关注

    9

    文章

    534

    浏览量

    40175
  • 函数
    +关注

    关注

    3

    文章

    4421

    浏览量

    67822

原文标题:图文匹配 + 图像分类 = 统一多模态对比学习框架

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    沐曦股份曦云C系列GPU产品Day 0适配百度文心ERNIE-Image文生图模型

    4月15日,百度文心大模型团队重磅推出ERNIE‑Image文生图模型,沐曦股份曦云 C 系列 GPU 已完成对 ERNIE‑Image 的Day 0 深度适配,同步支持 ERNIE‑Image Turbo 极速推理版本,以轻量
    的头像 发表于 04-15 17:39 413次阅读

    GoogleDrive 中缺少 Image-55,怎么处理?

    刚刚拿到我的 VF2 并尝试下载 image-55,这不再存在于 googledrive 中。在百度中,它存在,但我只能很难用翻译器阅读一些东西,它希望我安装一些东西以便能够下载。 这是错误吗?除了使用百度下载image-55,还有别的方法吗?
    发表于 03-16 06:23

    深入解析U-Boot image.c:RK平台镜像处理核心逻辑

    的SD/NAND/SPI等启动方式做了专属适配。本文将拆解image.c的核心逻辑,梳理RK平台镜像处理的关键流程,帮助开发者理解和调试启动相关问题。 一、文件定位与核心作用 image.c是U-Boot中镜像管理的核心模块,主
    的头像 发表于 02-24 16:46 1774次阅读
    深入解析U-Boot <b class='flag-5'>image</b>.c:RK平台镜像处理核心逻辑

    格灵深瞳模态大模型荣登InfoQ 2025中国技术力量年度榜单

    灵感实验室联合LLaVA社区发布的模态大模型LLaVA-OneVision-1.5,实现了训练数据、代码和模型权重的全链路开源,在多项公开
    的头像 发表于 01-05 10:05 649次阅读

    使用Firebase AI Logic生成图像模型的两种新功能

    为您的应用添加自定义图像,能够显著改善和个性化用户体验,有效提高用户参与度。本文将探讨使用 Firebase AI Logic 生成图像的两种新功能: 其一是 Imagen 专属编辑功能预览版;其二
    的头像 发表于 11-30 09:28 540次阅读

    使用lv_label_set_text释放内存没对齐是什么原因导致的?

    )Air_Data[1]); rt_mutex_take(lv_mutex, RT_WAITING_FOREVER); // 确保线程安全 lv_label_set_text
    发表于 09-16 06:44

    米尔RK3576部署端侧模态轮对话,6TOPS算力驱动30亿参数LLM

    首轮推理延迟,适配对响应速度敏感的车载、医疗等场景; 其二,模态融合再升级—— 在图文基础上集成语音、传感器数据,实现 “看 + 听 + 感知” 的跨
    发表于 09-05 17:25

    浅析模态标注对大模型应用落地的重要性与标注实例

    ”的关键工序——模态标注重要性日益凸显。 一、什么是模态标注? 模态标注是指对文本、图像、
    的头像 发表于 09-05 13:49 2727次阅读

    振弦式应变计两种数据传输方式介绍

    采集的效率与可靠性。下面给大家介绍振弦式应变计两种数据传输方式。一、有线传输:稳定可靠的传统方案有线传输是振弦式应变计最传统的数据传输方式,通过专用电缆将传感器与采集终
    的头像 发表于 07-15 13:38 741次阅读
    振弦式应变计<b class='flag-5'>两种数据</b>传输<b class='flag-5'>方式</b>介绍

    模态+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式

    模态+空间智能:盾华以AI+智慧路灯杆,点亮城市治理新方式
    的头像 发表于 06-12 10:17 772次阅读
    <b class='flag-5'>多</b><b class='flag-5'>模态</b>+空间智能:盾华以AI+智慧路灯杆,点亮城市治理<b class='flag-5'>新方式</b>

    商汤日日新SenseNova融合模态大模型 国内首家获得最高评级的大模型

    近日,中国信息通信研究院(以下简称“中国信通院”)完成可信AI模态大模型首轮评估。 商汤日日新SenseNova融合模态大模型在所有模型中,获得当前最高评级——4+级,并成为国内首家
    的头像 发表于 06-11 11:57 1553次阅读

    普密斯IMAGE 3系列:珠宝加工行业的尺寸测量新宠

    普密斯 IMAGE 3 系列图像尺寸测量仪凭借其适应珠宝材质的先进技术、高精度的测量能力和高效的检测流程,为珠宝加工行业的尺寸测量提供了全方位的解决方案。
    的头像 发表于 06-11 08:59 807次阅读
    普密斯<b class='flag-5'>IMAGE</b> 3系列:珠宝加工行业的尺寸测量新宠

    image.Image为什么无法创建图像?

    运行的测试代码如下: import lcd import image import time img = image.Image(size=(320, 240), color=(255, 255
    发表于 04-29 06:02

    部署image_classification模型卡住了怎么解决?

    /main/image_classification/deployment/README_STM32N6.md 长时间不动,截图如下: 我用Ctrl+C中断运行,截图如下:
    发表于 04-27 06:29

    RGB888格式的image怎么保存jpg格式?

    01的K230板子 1.2.2固件 我用RGB565可以顺利保存jpg,但是RGB888就不行,提示如下 提问:RGB888格式的image怎么保存jpg格式 想保存888是因为感觉图像质量更好,后面用这些保存的图片来训练模型 试试这个
    发表于 04-25 08:18