0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

用于学习对象级、语言感知和语义丰富视觉表征的GLIP模型

深度学习自然语言处理 来源:深度学习自然语言处理 作者:金克丝 2022-10-26 11:19 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

简介

问题

Visual recognition 模型通常只能预测一组固定的预先确定的目标类别,这限制了在现实世界的可扩展能力,因为对于新的视觉概念类别和新的任务领域需要新的标注数据。

CLIP可以在大量图像文本对上有效地学习 image-level 的视觉表征,因为大规模匹配的图像文本对包含的视觉概念比任何预定义的概念都更广泛,预训练的CLIP模型语义丰富,可以在 zero-shot 下轻松地迁移到下游的图像分类和文本图像检索任务中。

为了获得对图像的细粒度理解(如目标检测、分割、人体姿态估计、场景理解、动作识别、视觉语言理解),这些任务都非常需要 object-level 的视觉表征。

方案

这篇论文提出了 grounded language-image pretraining (GLIP) 模型,用于学习对象级、语言感知和语义丰富的视觉表征。GLIP将 object detection 和 phrase grounding 结合起来进行预训练。这有两个好处:

GLIP可以同时从 detection 和 grounding 数据中训练学习,以改进两种任务,训练一个优秀的 grounding 模型;

GLIP可以通过 self-training 的方式生成 grounding boxes(即伪标签)来利用大量的图像文本对数据,使学习到的视觉表征具有丰富的语义。

实验上,作者对27M grounding data 进行预训练(包括3M人工注释和24M网络爬取的图像文本对)。训练学习到的视觉表征在各种目标级别的识别任务中都具有较强的zero/few shot迁移能力。

当直接在COCO和LVIS上评估(预训练期间没有训练COCO中的图像)时,GLIP分别达到 49.8 AP和 26.9 AP;

当在COCO上进行微调后,在val上达到 60.8 AP,在test-dev上达到 61.5 AP,超过了之前的SoTA模型。

主要贡献

「1、Unifying detection and grounding by reformulating object detection as phrase grounding」

改变了检测模型的输入:不仅输入图像,还输入 text prompt(包含检测任务的所有候选类别)。例如,COCO目标检测任务的 text prompt 是由80个COCO对象类别名组成的文本字符串,如图2(左)所示。通过将 object classification logits 替换为 word-region alignment 分数(例如视觉region和文本token的点积),任何 object detection 模型都可以转换为 grounding 模型,如图2(右)所示。与仅在最后点积操作融合视觉和语言的CLIP不同,GLIP利用跨模态融合操作,具有了深度的跨模态融合的能力。

「2、Scaling up visual concepts with massive image-text data」

给定 grounding 模型(teacher),可以自动生成大量图像-文本对数据的 grounding boxes 来扩充GLIP预训练数据,其中 noun phrases 由NLP解析器检测,图3为两个 boxes 的示例,teacher模型可以定位到困难的概念,如注射器、疫苗、美丽的加勒比海绿松石,甚至抽象的单词(视图)。在这种语义丰富的数据上训练可以生成语义丰富的student模型。

「3、Transfer learning with GLIP: one model for all」

GLIP可以有效的迁移到各种任务中,而只需要很少甚至不需要额外的人工标注。此外,当特定于任务的标注数据可用时,也不必微调整个模型,只需微调特定于任务的 prompt embedding,同时冻结模型参数。

相关工作

标准的 object detection 模型只能推理固定的对象类别,如COCO,而这种人工标注的数据扩展成本很高。GLIP将 object detection 定义为 phrase grounding,可以推广到任何目标检测任务。

CLIP和ALIGN在大规模图像-文本对上进行跨模态对比学习,可以直接进行开放类别的图像分类。GLIP继承了这一研究领域的语义丰富和语言感知的特性,实现了SoTA对象检测性能,并显著提高了对下游检测任务的可迁移能力。

方法

Grounded Language Image Pre-training

在概念上,object detection 与 phrase grounding 具有很大的相似性,它们都寻求对对象进行本地化(即学习到并能检测这种对象的类别),并将其与语义概念对齐。

767c251a-4850-11ed-a3b6-dac502259ad0.png

a、Unified Formulation

「Background: object detection」

标准的检测模型将一张图像输入 visual encoder(CNN或Transformer),提取 region/box 特征(图2底部),每个 region/box 特征输入两个 prediction heads,即分类器(分类损失)和回归器(定位损失)。在两阶段检测器中,还有一个分离的RPN层用以区分前景、背景和改善anchors,因为RPN层没有用到目标类别的语义信息,我们将其损失合并到定位损失。

「Object detection as phrase grounding」

作者不是将每个 region/box 分类为c类,而是将检测任务重新定义为一个 grounding 任务,通过将每个 region 与文本 prompt(Prompt = "Detect: person, bicycle, car, ... , toothbrush") 中的c个phrases 进行 grounding/aligning(图2)。在 grounding 模型中,计算图像区域和prompt中的word之间的对齐分数:

76bf664a-4850-11ed-a3b6-dac502259ad0.png

其中 为图像编码器, 为文本编码器,通过 和上一小节提到的分类损失、定位损失,共三个损失端到端进行训练。到这里,会有一个问题,如图2中间所示,子词的数量 是要大于文本 prompt 的 phrases 数量 的,这是因为:

有一些phrase包含多个word,例如‘traffic light’;

一些单词会切分为多个子词,例如‘toothbrush’会切分为‘tooth#’和‘#brush’;

一些token为added token或special token,不属于要识别的类别;

在token词表中会添加一个[NoObj] token。

因此,如果一个phrase是正匹配某个visual region,便将所有子词正匹配,而将所有的added token负匹配所有的visual region,这样将原始的分类损失扩展为。

「Equivalence between detection and grounding」

通过上述方法,将任意detection 模型转化为grounding模型,且理论上训练和推理都是等价的。由于语言编码器的自由形式的输入,预训练的phrase grounding模型可以直接应用于任何目标检测任务。

b、Language-Aware Deep Fusion

在公式3中,图像和文本由单独的编码器编码,只在最后融合以计算对齐分数,这种模型为晚期融合模型,而在视觉语言任务中,视觉和语言特征的深度融合是必要的。

因此,作者在图像和语言编码器之间引入了深度融合,融合最后几个编码层中的图像和文本信息,如图2(中)所示。具体来说,当使用DyHead作为图像编码器,BERT作为文本编码器时,深度融合编码器为:

76f05ae8-4850-11ed-a3b6-dac502259ad0.png

跨模态交互由跨模态多头注意力(X-MHA)(4)实现,然后是单模态融合,并在(5)和(6)中更新。在没有添加上下文向量(视觉模态和语言模态)的情况下,模型即为后期融合模型。

在跨模态多头注意力(XMHA)(4)中,每个head通过关注另一个模态来计算一个模态的上下文向量:

77209226-4850-11ed-a3b6-dac502259ad0.png

深度融合(4)-(6)有两个好处:

提高了 phrase grounding 性能;

使学习到的视觉表征是语言感知的。

因此模型的预测是以文本prompt为条件的。

c、Pre-training with Scalable Semantic-Rich Data

GLIP模型可以在检测和更重要的grounding数据上进行训练,作者表明,grounding数据可以提供丰富的语义,以促进本地化,可以以self-training的方式扩展。

Grounding 数据涵盖了更多的视觉概念词汇,因此作者扩展了词汇表,几乎涵盖了 grounded captions 中出现的任何概念,例如,Flickr30K包含44,518个惟一的phrase,而VG Caption包含110,689个惟一phrase。

实验

GLIP variants

776bc124-4850-11ed-a3b6-dac502259ad0.png

经过预训练,GLIP可以轻松地应用于 grounding 和 detection 任务,在三个基准上显示了强大的域迁移性能:

COCO,包含80个类别;

LVIS包含1000个类别;

Flickr30K用以 phrase grounding任务。

作者训练了5个GLIP变种模型(表1)用以消融,其中GoldG是指0.8M人类标注的grounding数据,包括Flickr30K, VG Caption和GQA,并且已经从数据集中删除了COCO图像,Cap4M和Cap24M是指网络收集的图文对。

a、Zero-Shot and Supervised Transfer on COCO

77a9f87c-4850-11ed-a3b6-dac502259ad0.png

表2可以看到,GLIP模型实现了强大的zero-shot和有监督(即Fine-Tune)性能。GLIP-T(C)达到46.7 AP,超过了Faster RCNN,GLIP-L达到49.8 AP,超过DyHead-T。

在有监督下,GLIP-T比标准DyHead提高5.5 AP (55.2 vs 49.7)。通过swin-large作为主干,GLIP-L超越了COCO上当前的SoTA,在2017val上达到了60.8 AP,在test-dev上达到了61.5 AP。

b、Zero-Shot Transfer on LVIS

77eb8d6e-4850-11ed-a3b6-dac502259ad0.png

表3可以看到,GLIP在所有类别上都展示了强大的zero-shot性能。

c、Phrase Grounding on Flickr30K Entities

782897cc-4850-11ed-a3b6-dac502259ad0.png

带有GoldG(第3行)的GLIP-T实现了与带有GoldG+的MDETR相似的性能,这是因为引入了Swin Transformer、DyHead模块和深度融合模块。扩展训练数据的(GLIP-L)可以达到87.1 Recall@1,比之前的SoTA高出2.8点。

总结

GLIP将 object detection 和 phrase grounding 任务统一起来,以学习对象级的、语言感知的和语义丰富的视觉表征。在预训练之后,GLIP在完善的基准测试和13个下游任务的zero-shot和fine-tune设置方面显示了有竞争力的结果。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • Clip
    +关注

    关注

    0

    文章

    35

    浏览量

    7288
  • cnn
    cnn
    +关注

    关注

    3

    文章

    356

    浏览量

    23529
  • nlp
    nlp
    +关注

    关注

    1

    文章

    491

    浏览量

    23341

原文标题:全新的多模态预训练范式:微软提出GLIP统一了对象检测和短语定位任务

文章出处:【微信号:zenRRan,微信公众号:深度学习自然语言处理】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    人工智能多模态与视觉模型开发实战 - 2026必会

    和训练,模型可以逐渐提升对图像的理解能力,实现对各种视觉任务的精准处理。 此外,视觉模型的发展还得益于大规模数据集和强大计算资源的支持。海量标注数据为
    发表于 04-15 16:06

    商汤科技NEO-unify如何打造原生视觉语言理解与生成

    当前,多模态模型普遍采用“视觉编码器(VE)用于理解,变分自编码器(VAE)用于生成”的组合式设计。这套范式虽行之有效,却也内在割裂了感知
    的头像 发表于 03-10 14:37 402次阅读
    商汤科技NEO-unify如何打造原生<b class='flag-5'>视觉</b><b class='flag-5'>语言</b>理解与生成

    面向视觉语言导航的任务驱动式地图学习框架MapDream介绍

    视觉语言导航(VLN)中,地图长期作为独立模块构建,并通过固定接口交由导航策略使用。无论是BEV网格、拓扑图还是语义记忆模块,这些表示大多脱离策略学习而设计。结果是,机器人即使掌握场
    的头像 发表于 03-02 10:40 597次阅读
    面向<b class='flag-5'>视觉</b><b class='flag-5'>语言</b>导航的任务驱动式地图<b class='flag-5'>学习</b>框架MapDream介绍

    VLA与世界模型有什么不同?

    Language Action,VLA),另一些则致力于构建并应用世界模型(World Model)。这两种路径有什么不同? 什么是VLA,什么是世界模型 先说说VLA。VLA是英文Vision-Language-Action的缩写,即
    的头像 发表于 12-17 09:13 864次阅读
    VLA与世界<b class='flag-5'>模型</b>有什么不同?

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课(11大系列课程,共5000+分钟)

    训练的完整解决方案,已在电子元件检测项目中验证可降低数据准备成本90%。 算法轻量化部署 随着边缘计算需求增长,工业视觉系统正从服务器向嵌入式演进。课程重点覆盖8.6M超轻量PaddleOCR
    发表于 12-04 09:28

    【团购】独家全套珍藏!龙哥LabVIEW视觉深度学习实战课程(11大系列课程,共5000+分钟)

    训练的完整解决方案,已在电子元件检测项目中验证可降低数据准备成本90%。 算法轻量化部署 随着边缘计算需求增长,工业视觉系统正从服务器向嵌入式演进。课程重点覆盖8.6M超轻量PaddleOCR
    发表于 12-03 13:50

    Progress-Think框架赋能机器人首次实现语义进展推理

    视觉语言导航(VLN)中,机器人长期缺乏一种关键能力:它能持续前进,却无法判断自己的任务推进到了哪一步。导航在空间中不断展开,画面节节推进,但模型并不知道自己在自然语言指令里处于什么
    的头像 发表于 12-03 09:27 450次阅读
    Progress-Think框架赋能机器人首次实现<b class='flag-5'>语义</b>进展推理

    自动驾驶上常提的VLA与世界模型有什么区别?

    的动作输出连到一起。这样一套模型既能把路面情况转成语义信息(比如识别行人、车道、交通标志),又能在内部用类语言的方式做推理(比如判断行人的意图是否会横穿),最后直接输出控制量或轨迹建议,从而完成从
    的头像 发表于 10-18 10:15 1395次阅读

    机器人视觉企业环视智能完成千万天使轮融资,推动通用智能机器人感知技术的产业化落地

    ,是一家专注于机器人视觉与AI感知技术的高科技企业。致力于为机器人及无人系统提供创新的视觉感知解决方案。 信息显示,环视智能创始团队由天津大学校友师生组成,核心成员均来自
    的头像 发表于 08-05 18:12 1986次阅读
    机器人<b class='flag-5'>视觉</b>企业环视智能完成千万<b class='flag-5'>级</b>天使轮融资,推动通用智能机器人<b class='flag-5'>感知</b>技术的产业化落地

    【HZ-T536开发板免费体验】3 - Cangjie Magic调用视觉语言模型(VLM)真香,是不是可以没有YOLO和OCR了?

    和管理 Agent 的专用语言。它允许开发人员通过结构化的系统提示词、工具和各类协作策略来增强 Agent 的功能。 今天我们就尝试在开发板上利用质谱AI的视觉语言模型(VLM)
    发表于 08-01 22:15

    NVIDIA助力图灵新讯美推出企业多模态视觉模型融合解决方案

    中国推出企业多模态视觉模型融合解决方案,推动先进 AI 模型在交通治理、工业质检、金融风控等领域实现高效识别、精准预警和稳定交付。
    的头像 发表于 06-26 09:17 1505次阅读

    明晚开播 |数据智能系列讲座第7期:面向高泛化能力的视觉感知系统空间建模与微调学习

    鹭岛论坛数据智能系列讲座第7期「面向高泛化能力的视觉感知系统空间建模与微调学习」明晚8点精彩开播期待与您云相聚,共襄学术盛宴!|直播信息报告题目面向高泛化能力的视觉
    的头像 发表于 06-24 08:01 1209次阅读
    明晚开播 |数据智能系列讲座第7期:面向高泛化能力的<b class='flag-5'>视觉</b><b class='flag-5'>感知</b>系统空间建模与微调<b class='flag-5'>学习</b>

    从FA模型切换到Stage模型时:module的切换说明

    。 supportedModes标识应用支持的运行模式,当前只定义了驾驶模式(drive)。/Stage模型已废弃。 distro对象中的moduleName标识当前HAP的名称。 distro对象
    发表于 06-05 08:16

    直播预约 |数据智能系列讲座第7期:面向高泛化能力的视觉感知系统空间建模与微调学习

    鹭岛论坛数据智能系列讲座第7期「面向高泛化能力的视觉感知系统空间建模与微调学习」6月25日(周三)20:00精彩开播期待与您云相聚,共襄学术盛宴!|直播信息报告题目面向高泛化能力的视觉
    的头像 发表于 05-29 10:04 744次阅读
    直播预约 |数据智能系列讲座第7期:面向高泛化能力的<b class='flag-5'>视觉</b><b class='flag-5'>感知</b>系统空间建模与微调<b class='flag-5'>学习</b>

    【「# ROS 2智能机器人开发实践」阅读体验】视觉实现的基础算法的应用

    阅读心得体会:ROS2机器人视觉与地图构建技术 通过对本书第7章(ROS2视觉应用)和第8章(ROS2地图构建)的学习,我对机器人视觉感知
    发表于 05-03 19:41