0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

智能感知与物联网技术研究所 来源:未知 2023-07-10 10:05 次阅读

本文提出了 SAN 框架,用于开放词汇语义分割。该框架成功地利用了冻结的 CLIP 模型的特征以及端到端的流程,并最大化地采用冻结的 CLIP 模型。

cbf42182-1ec4-11ee-962d-dac502259ad0.png

简介本文介绍了一种名为Side Adapter Network (SAN)的新框架,用于基于预训练的视觉语言模型进行开放式语义分割。该方法将语义分割任务建模为区域识别问题,并通过附加一个侧面的可学习网络来实现。该网络可以重用CLIP(Contrastive Language-Image Pre-Training)模型的特征,从而使其非常轻便。整个网络可以进行端到端的训练,使侧面网络适应冻结的CLIP模型,从而使预测的掩码提案具有CLIP感知能力。作者在多个语义分割基准测试上评估了该方法,并表明其速度快、准确度高,只增加了少量可训练参数,在一系列数据集上相较于之前的SOTA模型取得了大幅的性能提升(如下表所示)最后,作者希望该方法能够成为一个baseline,并帮助未来的开放式语义分割研究。cc0bd192-1ec4-11ee-962d-dac502259ad0.png

论文链接:

https://arxiv.org/abs/2211.08073

cc305382-1ec4-11ee-962d-dac502259ad0.png  cc5b99ca-1ec4-11ee-962d-dac502259ad0.png  

Introduction

作者首先讨论了语义分割的概念和现代语义分割方法的限制,以及如何将大规模视觉语言模型应用于开放式语义分割。现代语义分割方法通常依赖于大量标记数据,但数据集通常只包含数十到数百个类别,昂贵的数据收集和注释限制了我们进一步扩展类别的可能性。最近,大规模视觉语言模型(如CLIP)的出现促进了零样本学习的发展,这也鼓励我们探索其在语义分割中的应用。然而,将CLIP模型应用于开放式语义分割十分困难,因为CLIP模型是通过图像级对比学习训练的,其学习到的表示缺乏像素级别的识别能力,而这种能力在语义分割中是必需的。解决这个问题的一个方法是在分割数据集上微调模型,但是分割数据集的数据规模远远小于视觉语言预训练数据集,因此微调模型在开放式识别方面的能力通常会受到影响。

wKgZomTYhN-ARx87AAHEyX5Sx1Q173.png

为了充分发挥视觉-语言预训练模型在开放词汇语义分割中的能力。作者提出了一种名为Side Adapter Network(SAN)的新框架。由于端到端训练,SAN的掩膜预测和分类是基于CLIP辅助的。整个模型十分轻量化。SAN有两个分支:一个用于预测掩膜,另一个用于预测应用于CLIP的注意力偏好,以进行掩膜类别识别。作者表明,这种分离的设计可以提高分割性能。此外,作者还提出了一种单向前设计,以最小化CLIP的成本:将浅层CLIP块的特征融合到SAN中,将其他更深层次的块与注意偏置结合以进行掩膜识别。由于训练是端到端的,SAN可以最大程度地适应冻结的CLIP模型。作者的研究基于官方发布的ViT CLIP模型,采用Visual Transformer实现。准确的语义分割需要高分辨率图像,但发布的ViT CLIP模型设计用于低分辨率图像(如),直接应用于高分辨率图像会导致性能下降。为了缓解输入分辨率的冲突,作者在CLIP模型中使用低分辨率图像,在SAN中使用高分辨率图像。作者表明,这种不对称的输入分辨率非常有效。此外,作者还探讨了仅微调ViT模型的位置嵌入,并取得了改进。作者在各种基准测试中评估了他们的方法。与之前的方法相比,作者的方法在所有基准测试中都取得了最好的性能。作者的方法只有8.4M可训练参数和64.3 GFLOPs。 cc96d86e-1ec4-11ee-962d-dac502259ad0.png  Method

3.1 基础架构

SAN的详细架构如下图所示。输入图像被分成个patch。首先通过一个线性层将图片转化为Visual Tokens。这些Visual Tokens会与个可学习的Query Tokens拼接起来,并送到后续的Transformer Layer中。每个Transformer Layer的Visual Tokens和Query Tokens都添加了position embedding。wKgaomTYhPKAEsx0AAFImjH-3XM036.png示例图片SAN的输出由两部分构成:掩膜提议(Mask Proposals)和注意力偏好(Attention Biases)。在掩膜提议中,Query Tokens和Visual Tokens首先通过两个单独的3层MLP,投影成256维,我们将投影的Query Tokens表示其中是Query Tokens的数量,投影的Visual Tokens表示为,其中和是输入图像的高度和宽度。然后,通过和的内积生成掩膜: 生成注意力偏好的过程类似于掩膜提议。Query Tokens和Visual Tokens也通过3层MLP进行投影,表示,其中是CLIP模型的注意头数。通过对和进行内积,我们得到注意力偏好: 此外,如果需要,注意力偏好还将进一步调整其中和是CLIP中注意力映射的高度和宽度。在实践中,和可以共享,并且注意力偏好将应用于CLIP的多个自注意层,即偏好将在不同的自注意层中使用。这样的双输出设计的动机很直观:作者认为用于在CLIP中识别掩模的感兴趣区域可能与掩模区域本身不同。作者在后文的对比实验中也证实了这个想法。

3.2掩膜预测

原始的CLIP模型只能通过标记进行图像级别的识别。作者工作在不改变CLIP模型参数的情况下,尝试通过指导标记的注意力图在感兴趣区域上实现精确的掩膜识别。为了实现这个目标,作者创建了一组名为标记(仿照Maskclip,如下图)。ccc87f04-1ec4-11ee-962d-dac502259ad0.png这些标记单向地通过Visual Tokens进行更新,但是Visual Tokens和标记都不受的影响。在更新标记时,预测的注意力偏差被添加到注意力矩阵中: 其中表示层编号,表示第个注意力头的Query 和Key,Visual Tokens 的Key。,和分别是Query、Key和Value的编码权重。通过注意力偏好,标记的特征逐渐演变以适应掩膜预测,并且可以通过比较标记和类名CLIP文本编码之间的距离/相似性来轻松获得掩膜的类别预测,表示为,其中是类别数。

3.3分割结果生成

使用上文提到的掩膜和类别预测,我们可以计算语义分割图: 其中。这是标准的语义分割输出,因此与主流的语义分割评估兼容。在训练,我们通过Dice Loss 和binary cross-entropy loss 来监督掩膜生成,通过cross-entropy loss 来监督掩膜识别。总损失为: 其中作者使用的损失权重,,分别为5.0,5.0和2.0。通过端到端的训练,SAN可以最大程度地适应冻结的CLIP模型,并得到很好的结果。 cce0c208-1ec4-11ee-962d-dac502259ad0.png  

讨论

具体来说,作者提出了一种全新的端到端架构,以极小的参数量在多个数据集上取得了SOTA效果。SAN的主要特点如下:

  • SAN中沿用了MaskCLIP得出的结论:在下游数据集上微调会破坏CLIP优秀的特征空间。因此在SAN的设计中,无需微调(fine-tune)CLIP模型,以便最大程度的保持CLIP模型的开放词汇能力。

  • 在冻结CLIP模型的同时,引入了额外的可编码网络,能够根据下游任务数据集学习分割所需要的特征,弥补了CLIP模型对于位置信息的缺失。

  • 将语义分割任务分解为掩膜预测与类别预测两个子任务。CLIP模型的开放识别能力不仅仅依赖于物体区域本身,也依赖于物体的上下文信息(Context Information)。这促使作者提出掩膜预测与类别预测解耦的双输出设计,下表显示该设计可以进一步提升模型的预测精度。
ccf5775c-1ec4-11ee-962d-dac502259ad0.png  
  • 充分复用了CLIP模型的特征,大幅度降低所需的额外参数量的同时获得最佳性能。下表展示了复用CLIP特征带来的性能增益。

cd05cab2-1ec4-11ee-962d-dac502259ad0.png    cd1f5ed2-1ec4-11ee-962d-dac502259ad0.png  结论作者在这项工作中提出了SAN框架,用于开放词汇语义分割。该框架成功地利用了冻结的CLIP模型的特征以及端到端的流程,并最大化地采用冻结的CLIP模型。所提出的框架在五个语义分割基准测试中显著优于以往的最先进方法,而且具有更少的可训练参数和更少的计算成本。 ·


原文标题:CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2870

    文章

    41648

    浏览量

    358418

原文标题:CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    三项SOTA!MasQCLIP:开放词汇通用图像分割新网络

    MasQCLIP在开放词汇实例分割语义分割和全景分割三项任务上均实现了SOTA,涨点非常明显。
    的头像 发表于 12-12 11:23 282次阅读
    三项SOTA!MasQCLIP:<b class='flag-5'>开放</b><b class='flag-5'>词汇</b>通用图像<b class='flag-5'>分割</b>新网络

    森木磊石CPEEC&amp;amp;amp;CPSSC 2023 展会圆满收官!

    2023中国电力电子与能量转换大会暨中国电源学会第二十六届学术年会及展览会(CPEEC&amp;CPSSC2023)是中国电源学会成立40周年纪念活动的重要环节。会议旨在促进电源、电力电子与能量转换
    的头像 发表于 11-16 08:22 257次阅读
    森木磊石CPEEC&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;CPSSC <b class='flag-5'>2023</b> 展会圆满收官!

    NeurlPS&amp;apos;23开源 | 首个!开放词汇3D实例分割

    我们介绍了开放词汇3D实例分割的任务。当前的3D实例分割方法通常只能从训练数据集中标注的预定义的封闭类集中识别对象类别。这给现实世界的应用程序带来了很大的限制,在现实世界的应用程序中,
    的头像 发表于 11-14 15:53 294次阅读
    NeurlPS&<b class='flag-5'>amp</b>;apos;23开源 | 首个!<b class='flag-5'>开放</b><b class='flag-5'>词汇</b>3D实例<b class='flag-5'>分割</b>!

    英威腾光伏亮相英国Solar &amp;amp; Storage Live 2023

    10月17日—19日,英国最大的可再生能源与储能行业展会Solar &amp; Storage Live 2023在伯明翰国际展览中心盛大召开。英威腾光伏携最新光储产品和光储充解决方案精彩亮相5号馆M8展位。
    的头像 发表于 10-20 17:17 437次阅读

    轻量级数据库有哪些

    轻量级数据库有哪些 随着互联网和物联网等新一代信息技术的广泛应用,数据库系统也变得越来越重要。人们对于数据库数据库的可靠性、安全性和性能等要求也越来越高。与传统的关系型数据库系统相比,轻量级
    的头像 发表于 08-28 16:41 4311次阅读

    介绍一种自动驾驶汽车中可行驶区域和车道分割的高效轻量级模型

    本文介绍了TwinLiteNet:一种自动驾驶汽车中可行驶区域和车道分割的高效轻量级模型。语义分割是自动驾驶中理解周围环境的一项常见任务。
    发表于 08-03 14:20 870次阅读
    介绍一种自动驾驶汽车中可行驶区域和车道<b class='flag-5'>分割</b>的高效<b class='flag-5'>轻量级</b>模型

    你使用shell脚本中的2&amp;gt;&amp;amp;1了吗?

    run_cmax > ./starrc_cmax.logs 2>&amp;1中的 2>&amp;1是啥意思?
    的头像 发表于 07-30 14:44 1071次阅读

    CVPR 2023 | 完全无监督的视频物体分割 RCF

    TLDR: 视频分割一直是重标注的一个 task,这篇 CVPR 2023 文章研究了完全不需要标注的视频物体分割。仅使用 ResNet,RCF模型在 DAVIS16/STv2/FBM
    的头像 发表于 07-16 20:45 324次阅读
    <b class='flag-5'>CVPR</b> <b class='flag-5'>2023</b> | 完全无监督的视频物体<b class='flag-5'>分割</b> RCF

    CVPR 2023 中的领域适应: 一种免反向传播的TTA语义分割方法

    TTA 在语义分割中的应用,效率和性能都至关重要。现有方法要么效率低(例如,需要反向传播的优化),要么忽略语义适应(例如,分布对齐)。此外,还会受到不稳定优化和异常分布引起的误差积累的困扰。
    的头像 发表于 06-30 15:13 622次阅读
    <b class='flag-5'>CVPR</b> <b class='flag-5'>2023</b> 中的领域适应: 一种免反向传播的TTA<b class='flag-5'>语义</b><b class='flag-5'>分割</b>方法

    芯和半导体即将亮相SFF&amp;amp;SAFE Forum2023美国站

    作为三星SAFE生态系统的重要合作伙伴之一,芯和半导体将于2023年6月27日-28日参加三星Foundry 论坛及SAFE论坛2023美国站(SFF &amp; SAFE™ Forum 20
    的头像 发表于 06-21 16:34 593次阅读

    PyTorch教程-14.9. 语义分割和数据集

    14.9. 语义分割和数据集¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab [jax
    的头像 发表于 06-05 15:44 418次阅读
    PyTorch教程-14.9. <b class='flag-5'>语义</b><b class='flag-5'>分割</b>和数据集

    PyTorch教程14.9之语义分割和数据集

    电子发烧友网站提供《PyTorch教程14.9之语义分割和数据集.pdf》资料免费下载
    发表于 06-05 11:10 0次下载
    PyTorch教程14.9之<b class='flag-5'>语义</b><b class='flag-5'>分割</b>和数据集

    使用LabVIEW实现 DeepLabv3+ 语义分割含源码

    使用LabVIEW实现 DeepLabv3+ 语义分割含源码
    的头像 发表于 05-26 10:23 589次阅读
    使用LabVIEW实现 DeepLabv3+ <b class='flag-5'>语义</b><b class='flag-5'>分割</b>含源码

    if(a==1 &amp;amp;&amp;amp; a==2 &amp;amp;&amp;amp; a==3),为true,你敢信?

    接下来咱们来尝试解决这个问题。假设 if(a==1&amp;&amp;a==12)是等于 true的,那么a肯定不可能是一个“普通的变量”。它势必要有能力在执行的时候能够动态改动值。
    的头像 发表于 05-08 11:01 755次阅读
    if(a==1 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==2 &<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>; a==3),为true,你敢信?

    语义分割标注:从认知到实践

    随着人工智能技术的不断发展,语义分割标注已经成为计算机视觉领域的一个热门话题。语义分割是指将图像中的每个像素分配给一个预定义的语义类别,以便
    的头像 发表于 04-30 21:20 777次阅读