基于预训练视觉-语言模型的跨模态Prompt-Tuning-电子发烧友网

论文：CPT：Colorful Prompt Tuning for Pre-Training Vision-Language Models

状态：Work in Progress

单位：清华大学、新加坡国立大学

链接：https://arxiv.org/pdf/2109.11797.pdf

提取摘要

预训练的视觉语言模型（VL-PTMs）在将自然语言融入图像数据中显示出有前景的能力，促进了各种跨模态任务。

然而，作者注意到模型pre-training和finetune的客观形式之间存在显着差距，导致需要大量标记数据来刺激 VL-PTMs 对下游任务的视觉基础能力。

为了应对这一挑战，本文提出了跨模态提示调优Cross-modal Prompt Tuning（CPT，或者，彩色-Color提示调优），这是一种用于finetune VL-PTMs 的新范式，它在图像和文本中使用基于颜色的共同参照标记重新构建了视觉定位问题，使之成为一个填空问题，最大限度地缩小差距。

通过这种方式，本文的Prompt-Tuning方法可以让 VL-PTMs 在少样本甚至零样本的强大的视觉预测能力。

综合实验结果表明，Prompt-Tuning的 VL-PTMs 大大优于 finetune 的方法（例如，在 RefCOCO 评估中，一次平均提高 17.3% 准确度，one shot下平均相对标准偏差降低73.8%）。

数据和代码会在之后公开，小伙伴们不要急~

方法介绍

背景：该任务为Visual Grounding视觉定位问题，通过一个给定的expression来定位在图像中的位置。

Pre-training和fine-tuning

比如有一张识别好的图片和下面的文字：

普通使用MLM（masked language modeling）的预训练模型的到VL-PTMs方法为：

就是使用［mask］机制来预测被被掩盖的token。

而finetune的话，就是使用传统的［CLS］来迁就下游的任务，比如做二分类：

而使用被大规模数据预训练的模型通过［CLS］来迁就下游任务，其实并不可解释，而反过来让下游带着任务来到预训练模型的［mask］战场上，才能更能发挥其作用呀。

CPT： Cross-model Prompt Tuning

CPT方法首先将图片用不同颜色来区分不同的实体模块：

其次将Query Text插入到color-based的模板（eg. is in ［mask］ color）里：

最后在［mask］上预测对应的该是哪个颜色即可，语义上非常行得通。

模型公式

普通Finetune for VL-PLMs

首先从图片 I 中通过目标检测工具，检测出一系列的region：

最终这些被选出来的region和Query Text（w）将被放入：

其中［IMG］、［CLS］和［SEP］为特殊token。

其中图片regions的representation通过视觉的encoder获得，而文本的就是lookup即可，最后通过预训练模型VL-PLMs会得到：

最终使用隐层finetune做分类即可。

但是，finetuned VL-PLMs需要大量的标注数据来提高视觉定位的效果，这个也是一个弊端吧。

Cross-Modal Prompt Tuning - CPT

上面说过了，CPT需要两个部分：

视觉子prompt

文本子prompt

视觉子prompt，目的是为了区分每一个region通过可分辨的标记，比如颜色，比如RGB （255， 0， 0）表示red，RGB和text要对应起来。

这里要注意的是，这个子prompt是直接加在原图片上的，所以既没有改变模型结果，又没有改变参数。

文本子prompt，目的就是在图片和Query Text之间建立一个链接，这里使用的模板为：

然后，VL-PTMs模型通过这样的提示（prompt）来决定哪个颜色的region填在这个空里最恰当：

实验

和finetune相比，CPT在zero-shot和few-shot下，性能可以说是爆表，巨额提升。在全量数据下，也能达到最佳值或者接近最佳值：

CPT在其他视觉任务上的应用

实体检测

谓元分类

场景图分类

总之，Prompt方法就是通过模板重新定义了任务，让模型更具有解释性，本篇文章第一次将Prompt用在了Vision-Language上，未来还会有很大的研究动向，感兴趣的小伙伴可以细读原文。

编辑：jq

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

数据

数据

+关注

关注
8

文章
6509

浏览量
87562
RGB

RGB

+关注

关注
4

文章
754

浏览量
57377
CLS

CLS

+关注

关注
0

文章
9

浏览量
9646
prompt

prompt

+关注

关注
0

文章
12

浏览量
2635

原文标题：清华刘知远提出CPT：基于预训练视觉-语言模型的跨模态Prompt-Tuning

文章出处：【微信号：zenRRan，微信公众号：深度学习自然语言处理】欢迎添加关注！文章转载请注明出处。

字节发布机器人领域首个开源视觉-语言操作大模型，激发开源VLMs更大潜能

对此，ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作

发表于 01-23 16:02 •184次阅读

字节发布机器人领域首个开源<b class='flag-5'>视觉</b>-<b class='flag-5'>语言</b>操作大<b class='flag-5'>模型</b>，激发开源VLMs更大潜能

机器人基于开源的多模态语言视觉大模型

ByteDance Research 基于开源的多模态语言视觉大模型 OpenFlamingo 开发了开源、易用的 RoboFlamingo 机器人操作

发表于 01-19 11:43 •119次阅读

机器人基于开源的多<b class='flag-5'>模态</b><b class='flag-5'>语言</b><b class='flag-5'>视觉</b>大<b class='flag-5'>模型</b>

自动驾驶和多模态大语言模型的发展历程

多模态大语言模型(MLLM) 最近引起了广泛的关注，其将 LLM 的推理能力与图像、视频和音频数据相结合，通过多模态对齐使它们能够更高效地执行各种任务，包括图像分类、将文本与相应的视频

发表于 12-28 11:45 •203次阅读

自动驾驶和多<b class='flag-5'>模态</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的发展历程

大模型+多模态的3种实现方法

我们知道，预训练LLM已经取得了诸多惊人的成就，然而其明显的劣势是不支持其他模态（包括图像、语音、视频模态）的输入和输出，那么如何在预训练LLM的基础上引入跨

发表于 12-13 13:55 •695次阅读

大<b class='flag-5'>模型</b>+多<b class='flag-5'>模态</b>的3种实现方法

哈工大提出Myriad：利用视觉专家进行工业异常检测的大型多模态模型

最近，大型多模态（即视觉和语言）模型（LMM）在图像描述、视觉理解、视觉推理等多种

发表于 11-21 16:08 •662次阅读

哈工大提出Myriad：利用<b class='flag-5'>视觉</b>专家进行工业异常检测的大型多<b class='flag-5'>模态</b><b class='flag-5'>模型</b>

探究编辑多模态大语言模型的可行性

不同于单模态模型编辑，多模态模型编辑需要考虑更多的模态信息。文章出发点依然从单模态

发表于 11-09 14:53 •249次阅读

探究编辑多<b class='flag-5'>模态</b>大<b class='flag-5'>语言</b><b class='flag-5'>模型</b>的可行性

北大&华为提出：多模态基础大模型的高效微调

深度学习的大模型时代已经来临,越来越多的大规模预训练模型在文本、视觉和多模态领域展示出杰出的生成和推理能力。然而大

发表于 11-08 16:20 •312次阅读

北大&华为提出：多<b class='flag-5'>模态</b>基础大<b class='flag-5'>模型</b>的高效微调

训练大语言模型带来的硬件挑战

生成式AI和大语言模型（LLM）正在以难以置信的方式吸引全世界的目光，本文简要介绍了大语言模型，训练这些

发表于 09-01 17:14 •1091次阅读

中科大&字节提出UniDoc：统一的面向文字场景的多模态大模型

如上图所示，UniDoc基于预训练的视觉大模型及大语言模型，将文字的检测、识别、spotting(图中未画出)、多

发表于 08-31 15:29 •1057次阅读

更强更通用：智源「悟道3.0」Emu多模态大模型开源，在多模态序列中「补全一切」

热度。Flamingo 具备强大的多模态上下文少样本学习能力。 Flamingo 走的技术路线是将大语言模型与一个预训练视觉编码器结合，并插

发表于 07-16 20:45 •397次阅读

单张消费级显卡微调多模态大模型

把大模型的训练门槛打下来！我们在单张消费级显卡上实现了多模态大模型（LaVIN-7B, LaVIN-13B）的适配和训练

发表于 06-30 10:43 •1319次阅读

「悟道·视界」视觉大模型系列，6项领先成果技术详解

日前，智源「悟道·视界」通用视觉大模型系列，带来计算机视觉多任务处理能力方面的6项国际领先技术，迎接通用视觉智能曙光降临，包括：在多模态序

发表于 06-27 16:40 •459次阅读

基于多任务预训练模块化提示

Prompt Tuning 可以让预训练的语言模型快速适应下游任务。虽然有研究证明：当训练数据足

发表于 06-20 11:04 •384次阅读

基于预训练模型和语言增强的零样本视觉学习

在一些非自然图像中要比传统模型表现更好 CoOp 增加一些 prompt 会让模型能力进一步提升怎么让能力更好？可以引入其他知识，即其他的预训练模

发表于 06-15 16:36 •317次阅读

多模态GPT：国内发布一款可以在线使用的多模态聊天机器人！

基于开源多模态模型 OpenFlamingo，作者使用公开数据集创建了各种视觉指令数据，包括视觉问答、图像字幕、视觉推理、文本 OCR 和

发表于 05-12 09:55 •871次阅读