0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

基于预训练视觉-语言模型的跨模态Prompt-Tuning

深度学习自然语言处理 来源:zenRRan 作者:zenRRan 2021-10-09 15:10 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

论文:CPT:Colorful Prompt Tuning for Pre-Training Vision-Language Models

状态:Work in Progress

单位:清华大学、新加坡国立大学

链接:https://arxiv.org/pdf/2109.11797.pdf

提取摘要

预训练的视觉语言模型 (VL-PTMs) 在将自然语言融入图像数据中显示出有前景的能力,促进了各种跨模态任务。

然而,作者注意到模型pre-training和finetune的客观形式之间存在显着差距,导致需要大量标记数据来刺激 VL-PTMs 对下游任务的视觉基础能力。

为了应对这一挑战,本文提出了跨模态提示调优Cross-modal Prompt Tuning(CPT,或者,彩色-Color提示调优),这是一种用于finetune VL-PTMs 的新范式,它在图像和文本中使用基于颜色的共同参照标记重新构建了视觉定位问题,使之成为一个填空问题,最大限度地缩小差距。

通过这种方式,本文的Prompt-Tuning方法可以让 VL-PTMs 在少样本甚至零样本的强大的视觉预测能力。

综合实验结果表明,Prompt-Tuning的 VL-PTMs 大大优于 finetune 的方法(例如,在 RefCOCO 评估中,一次平均提高 17.3% 准确度,one shot下平均相对标准偏差降低73.8%)。

数据和代码会在之后公开,小伙伴们不要急~

方法介绍

背景:该任务为Visual Grounding视觉定位问题,通过一个给定的expression来定位在图像中的位置。

Pre-training和fine-tuning

比如有一张识别好的图片和下面的文字:

4ce01cce-2246-11ec-82a8-dac502259ad0.png

普通使用MLM(masked language modeling)的预训练模型的到VL-PTMs方法为:

4d581986-2246-11ec-82a8-dac502259ad0.png

就是使用[mask]机制来预测被被掩盖的token。

而finetune的话,就是使用传统的[CLS]来迁就下游的任务,比如做二分类:

4dde4a06-2246-11ec-82a8-dac502259ad0.png

而使用被大规模数据预训练的模型通过[CLS]来迁就下游任务,其实并不可解释,而反过来让下游带着任务来到预训练模型的[mask]战场上,才能更能发挥其作用呀。

CPT: Cross-model Prompt Tuning

CPT方法首先将图片用不同颜色来区分不同的实体模块:

4e6a3e12-2246-11ec-82a8-dac502259ad0.png

其次将Query Text插入到color-based的模板(eg. is in [mask] color)里:

4f1e1770-2246-11ec-82a8-dac502259ad0.png

最后在[mask]上预测对应的该是哪个颜色即可,语义上非常行得通。

模型公式

普通Finetune for VL-PLMs

首先从图片 I 中通过目标检测工具,检测出一系列的region:

4f97a306-2246-11ec-82a8-dac502259ad0.png

最终这些被选出来的region和Query Text(w)将被放入:

4ffcb052-2246-11ec-82a8-dac502259ad0.png

其中[IMG]、[CLS]和[SEP]为特殊token。

其中图片regions的representation通过视觉的encoder获得,而文本的就是lookup即可,最后通过预训练模型VL-PLMs会得到:

50520d36-2246-11ec-82a8-dac502259ad0.png

最终使用隐层finetune做分类即可。

但是,finetuned VL-PLMs需要大量的标注数据来提高视觉定位的效果,这个也是一个弊端吧。

Cross-Modal Prompt Tuning - CPT

上面说过了,CPT需要两个部分:

视觉子prompt

文本子prompt

视觉子prompt,目的是为了区分每一个region通过可分辨的标记,比如颜色,比如RGB (255, 0, 0)表示red,RGB和text要对应起来。

这里要注意的是,这个子prompt是直接加在原图片上的,所以既没有改变模型结果,又没有改变参数。

文本子prompt,目的就是在图片和Query Text之间建立一个链接,这里使用的模板为:

50afb7a6-2246-11ec-82a8-dac502259ad0.png

然后,VL-PTMs模型通过这样的提示(prompt)来决定哪个颜色的region填在这个空里最恰当:

51029b1a-2246-11ec-82a8-dac502259ad0.png

实验

和finetune相比,CPT在zero-shot和few-shot下,性能可以说是爆表,巨额提升。在全量数据下,也能达到最佳值或者接近最佳值:

5175c4d2-2246-11ec-82a8-dac502259ad0.png

CPT在其他视觉任务上的应用

实体检测

52040c92-2246-11ec-82a8-dac502259ad0.png

谓元分类

52a17086-2246-11ec-82a8-dac502259ad0.png

场景图分类

53448974-2246-11ec-82a8-dac502259ad0.png

总之,Prompt方法就是通过模板重新定义了任务,让模型更具有解释性,本篇文章第一次将Prompt用在了Vision-Language上,未来还会有很大的研究动向,感兴趣的小伙伴可以细读原文。

编辑:jq

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 数据
    +关注

    关注

    8

    文章

    7349

    浏览量

    95025
  • RGB
    RGB
    +关注

    关注

    4

    文章

    836

    浏览量

    62234
  • CLS
    CLS
    +关注

    关注

    0

    文章

    9

    浏览量

    9898
  • prompt
    +关注

    关注

    0

    文章

    16

    浏览量

    2886

原文标题:清华刘知远提出CPT:基于预训练视觉-语言模型的跨模态Prompt-Tuning

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    人工智能多模态视觉模型开发实战 - 2026必会

    训练模型可以逐渐提升对图像的理解能力,实现对各种视觉任务的精准处理。 此外,视觉模型的发展还得益于大规模数据集和强大计算资源的支持。海
    发表于 04-15 16:06

    众智FlagOS适配面壁智能开源全模态模型MiniCPM-o 4.5

    2月3日,面壁智能正式发布并开源了集语言视觉、语音于一体的全模态模型 MiniCPM-o 4.5。作为首个全双工全模态
    的头像 发表于 02-09 14:45 998次阅读
    众智FlagOS适配面壁智能开源全<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>MiniCPM-o 4.5

    什么是大模型,智能体...?大模型100问,快速全面了解!

    ,LLM)是大模型中最主要的一类,专门用于处理和生成人类语言。大语言模型通过“阅读”海量的文本数据(如书籍、网页、文章等)进行
    的头像 发表于 02-02 16:36 1133次阅读
    什么是大<b class='flag-5'>模型</b>,智能体...?大<b class='flag-5'>模型</b>100问,快速全面了解!

    商汤科技日日新V6.5荣获2025年多模态模型全国第一

    近日,权威大模型评测基准 SuperCLUE 发布《中文多模态视觉语言模型测评基准12月报告》,商汤日日新V6.5(SenseNova V6
    的头像 发表于 01-06 14:44 933次阅读
    商汤科技日日新V6.5荣获2025年多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>全国第一

    格灵深瞳多模态模型Glint-ME让图文互搜更精准

    在电商、安防等场景下,图文互搜应用广泛。随着以CLIP为代表的多模态表征方法相继提出,过去单一模态搜索(文搜文、图搜图)被突破,模型可以同时理解文本、图像、音频乃至视频,实现
    的头像 发表于 11-02 15:56 1856次阅读
    格灵深瞳多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>Glint-ME让图文互搜更精准

    亚马逊云科技上线Amazon Nova多模态嵌入模型

    的统一嵌入模型,能以行业顶尖的准确率实现模态检索。 当今,企业正不断寻求解决方案,以期从文本、图像、文档、视频、音频等海
    的头像 发表于 10-29 17:15 372次阅读
    亚马逊云科技上线Amazon Nova多<b class='flag-5'>模态</b>嵌入<b class='flag-5'>模型</b>

    格灵深瞳三项成果获得国际顶级学术会议认可

    以OpenAI CLIP为代表的多模态训练模型,为安防、电商等应用场景提供了强大的模态理解基
    的头像 发表于 09-15 14:43 1489次阅读

    我如何用Prompt工程将大模型调教成风控专家

    作为一个交易风控的算法工程师,在日常工作中,我常常与海量的数据和复杂的模型打交道,试图在看似平静的水面下,捕捉那些隐藏的风险暗流。最近,我尝试将大语言模型(LLM)引入到我的工作流中,这段经历充满了
    的头像 发表于 09-08 14:22 554次阅读
    我如何用<b class='flag-5'>Prompt</b>工程将大<b class='flag-5'>模型</b>调教成风控专家

    米尔RK3576部署端侧多模态多轮对话,6TOPS算力驱动30亿参数LLM

    细化需求,系统需实时调整响应策略 1.2 多轮对话系统鸟瞰:三颗“核心”协同驱动RK3576 多模态交互对话方案基于 RKLLM 的核心运作,依赖于图像视觉编码器、大语言模型与对话管
    发表于 09-05 17:25

    浅析多模态标注对大模型应用落地的重要性与标注实例

    ”的关键工序——多模态标注重要性日益凸显。 一、什么是多模态标注? 多模态标注是指对文本、图像、语音、视频、点云等异构数据进行模态语义关联
    的头像 发表于 09-05 13:49 2766次阅读

    基于米尔瑞芯微RK3576开发板的Qwen2-VL-3B模型NPU多模态部署评测

    ,“视觉 + 投影”组件的整体作用是:把图像“翻译”成模型能看懂的“语言”(特征),并确保这种“语言”能和文本的“语言”互通,为后续的多
    发表于 08-29 18:08

    基于大规模人类操作数据训练的VLA模型H-RDT

    近年来,机器人操作领域的VLA模型普遍基于本体机器人数据集训练,这类方法存在两大局限:不同机器人本体和动作空间的差异导致统一训练困难;现
    的头像 发表于 08-21 09:56 1224次阅读
    基于大规模人类操作数据<b class='flag-5'>预</b><b class='flag-5'>训练</b>的VLA<b class='flag-5'>模型</b>H-RDT

    飞凌嵌入式RK3576多模态模型图像理解助手,让嵌入式设备“看懂”世界

    (LLM)+视觉语言模型(VLM)多模态架构,推出多模态模型图像理解助手,为嵌入式设备打造 “
    的头像 发表于 07-25 11:09 1825次阅读
    飞凌嵌入式RK3576多<b class='flag-5'>模态</b>大<b class='flag-5'>模型</b>图像理解助手,让嵌入式设备“看懂”世界

    龙芯中科与文心系列模型开展深度技术合作

    ”解决方案。 强强联合!自主架构赋能大模型训练 文心大模型 文心4.5系列模型均使用飞桨深度学习框架进行高效训练、推理和部署。在大
    的头像 发表于 07-02 16:53 1480次阅读

    NVIDIA助力图灵新讯美推出企业级多模态视觉模型融合解决方案

    中国推出企业级多模态视觉模型融合解决方案,推动先进 AI 模型在交通治理、工业质检、金融风控等领域实现高效识别、精准预警和稳定交付。
    的头像 发表于 06-26 09:17 1515次阅读