0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

智能感知与物联网技术研究所 来源:未知 2023-07-10 10:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文提出了 SAN 框架,用于开放词汇语义分割。该框架成功地利用了冻结的 CLIP 模型的特征以及端到端的流程,并最大化地采用冻结的 CLIP 模型。

cbf42182-1ec4-11ee-962d-dac502259ad0.png

简介本文介绍了一种名为Side Adapter Network (SAN)的新框架,用于基于预训练的视觉语言模型进行开放式语义分割。该方法将语义分割任务建模为区域识别问题,并通过附加一个侧面的可学习网络来实现。该网络可以重用CLIP(Contrastive Language-Image Pre-Training)模型的特征,从而使其非常轻便。整个网络可以进行端到端的训练,使侧面网络适应冻结的CLIP模型,从而使预测的掩码提案具有CLIP感知能力。作者在多个语义分割基准测试上评估了该方法,并表明其速度快、准确度高,只增加了少量可训练参数,在一系列数据集上相较于之前的SOTA模型取得了大幅的性能提升(如下表所示)最后,作者希望该方法能够成为一个baseline,并帮助未来的开放式语义分割研究。cc0bd192-1ec4-11ee-962d-dac502259ad0.png

论文链接:

https://arxiv.org/abs/2211.08073

cc305382-1ec4-11ee-962d-dac502259ad0.png  cc5b99ca-1ec4-11ee-962d-dac502259ad0.png  

Introduction

作者首先讨论了语义分割的概念和现代语义分割方法的限制,以及如何将大规模视觉语言模型应用于开放式语义分割。现代语义分割方法通常依赖于大量标记数据,但数据集通常只包含数十到数百个类别,昂贵的数据收集和注释限制了我们进一步扩展类别的可能性。最近,大规模视觉语言模型(如CLIP)的出现促进了零样本学习的发展,这也鼓励我们探索其在语义分割中的应用。然而,将CLIP模型应用于开放式语义分割十分困难,因为CLIP模型是通过图像级对比学习训练的,其学习到的表示缺乏像素级别的识别能力,而这种能力在语义分割中是必需的。解决这个问题的一个方法是在分割数据集上微调模型,但是分割数据集的数据规模远远小于视觉语言预训练数据集,因此微调模型在开放式识别方面的能力通常会受到影响。

wKgZomTYhN-ARx87AAHEyX5Sx1Q173.png

为了充分发挥视觉-语言预训练模型在开放词汇语义分割中的能力。作者提出了一种名为Side Adapter Network(SAN)的新框架。由于端到端训练,SAN的掩膜预测和分类是基于CLIP辅助的。整个模型十分轻量化。SAN有两个分支:一个用于预测掩膜,另一个用于预测应用于CLIP的注意力偏好,以进行掩膜类别识别。作者表明,这种分离的设计可以提高分割性能。此外,作者还提出了一种单向前设计,以最小化CLIP的成本:将浅层CLIP块的特征融合到SAN中,将其他更深层次的块与注意偏置结合以进行掩膜识别。由于训练是端到端的,SAN可以最大程度地适应冻结的CLIP模型。作者的研究基于官方发布的ViT CLIP模型,采用Visual Transformer实现。准确的语义分割需要高分辨率图像,但发布的ViT CLIP模型设计用于低分辨率图像(如),直接应用于高分辨率图像会导致性能下降。为了缓解输入分辨率的冲突,作者在CLIP模型中使用低分辨率图像,在SAN中使用高分辨率图像。作者表明,这种不对称的输入分辨率非常有效。此外,作者还探讨了仅微调ViT模型的位置嵌入,并取得了改进。作者在各种基准测试中评估了他们的方法。与之前的方法相比,作者的方法在所有基准测试中都取得了最好的性能。作者的方法只有8.4M可训练参数和64.3 GFLOPs。 cc96d86e-1ec4-11ee-962d-dac502259ad0.png  Method

3.1 基础架构

SAN的详细架构如下图所示。输入图像被分成个patch。首先通过一个线性层将图片转化为Visual Tokens。这些Visual Tokens会与个可学习的Query Tokens拼接起来,并送到后续的Transformer Layer中。每个Transformer Layer的Visual Tokens和Query Tokens都添加了position embedding。wKgaomTYhPKAEsx0AAFImjH-3XM036.png示例图片SAN的输出由两部分构成:掩膜提议(Mask Proposals)和注意力偏好(Attention Biases)。在掩膜提议中,Query Tokens和Visual Tokens首先通过两个单独的3层MLP,投影成256维,我们将投影的Query Tokens表示其中是Query Tokens的数量,投影的Visual Tokens表示为,其中和是输入图像的高度和宽度。然后,通过和的内积生成掩膜: 生成注意力偏好的过程类似于掩膜提议。Query Tokens和Visual Tokens也通过3层MLP进行投影,表示,其中是CLIP模型的注意头数。通过对和进行内积,我们得到注意力偏好: 此外,如果需要,注意力偏好还将进一步调整其中和是CLIP中注意力映射的高度和宽度。在实践中,和可以共享,并且注意力偏好将应用于CLIP的多个自注意层,即偏好将在不同的自注意层中使用。这样的双输出设计的动机很直观:作者认为用于在CLIP中识别掩模的感兴趣区域可能与掩模区域本身不同。作者在后文的对比实验中也证实了这个想法。

3.2掩膜预测

原始的CLIP模型只能通过标记进行图像级别的识别。作者工作在不改变CLIP模型参数的情况下,尝试通过指导标记的注意力图在感兴趣区域上实现精确的掩膜识别。为了实现这个目标,作者创建了一组名为标记(仿照Maskclip,如下图)。ccc87f04-1ec4-11ee-962d-dac502259ad0.png这些标记单向地通过Visual Tokens进行更新,但是Visual Tokens和标记都不受的影响。在更新标记时,预测的注意力偏差被添加到注意力矩阵中: 其中表示层编号,表示第个注意力头的Query 和Key,Visual Tokens 的Key。,和分别是Query、Key和Value的编码权重。通过注意力偏好,标记的特征逐渐演变以适应掩膜预测,并且可以通过比较标记和类名CLIP文本编码之间的距离/相似性来轻松获得掩膜的类别预测,表示为,其中是类别数。

3.3分割结果生成

使用上文提到的掩膜和类别预测,我们可以计算语义分割图: 其中。这是标准的语义分割输出,因此与主流的语义分割评估兼容。在训练,我们通过Dice Loss 和binary cross-entropy loss 来监督掩膜生成,通过cross-entropy loss 来监督掩膜识别。总损失为: 其中作者使用的损失权重,,分别为5.0,5.0和2.0。通过端到端的训练,SAN可以最大程度地适应冻结的CLIP模型,并得到很好的结果。 cce0c208-1ec4-11ee-962d-dac502259ad0.png  

讨论

具体来说,作者提出了一种全新的端到端架构,以极小的参数量在多个数据集上取得了SOTA效果。SAN的主要特点如下:

  • SAN中沿用了MaskCLIP得出的结论:在下游数据集上微调会破坏CLIP优秀的特征空间。因此在SAN的设计中,无需微调(fine-tune)CLIP模型,以便最大程度的保持CLIP模型的开放词汇能力。

  • 在冻结CLIP模型的同时,引入了额外的可编码网络,能够根据下游任务数据集学习分割所需要的特征,弥补了CLIP模型对于位置信息的缺失。

  • 将语义分割任务分解为掩膜预测与类别预测两个子任务。CLIP模型的开放识别能力不仅仅依赖于物体区域本身,也依赖于物体的上下文信息(Context Information)。这促使作者提出掩膜预测与类别预测解耦的双输出设计,下表显示该设计可以进一步提升模型的预测精度。
ccf5775c-1ec4-11ee-962d-dac502259ad0.png  
  • 充分复用了CLIP模型的特征,大幅度降低所需的额外参数量的同时获得最佳性能。下表展示了复用CLIP特征带来的性能增益。

cd05cab2-1ec4-11ee-962d-dac502259ad0.png    cd1f5ed2-1ec4-11ee-962d-dac502259ad0.png  结论作者在这项工作中提出了SAN框架,用于开放词汇语义分割。该框架成功地利用了冻结的CLIP模型的特征以及端到端的流程,并最大化地采用冻结的CLIP模型。所提出的框架在五个语义分割基准测试中显著优于以往的最先进方法,而且具有更少的可训练参数和更少的计算成本。 ·


原文标题:CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2939

    文章

    47330

    浏览量

    408046

原文标题:CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    罗德与施瓦茨宣布推出新频段 R&S ZNB3000 矢量网络分析仪,频率高达 54 GHz

    R&SZNB3000以业界领先的测量速度、出色的扩展能力及一流射频性能,为中端矢量网络分析仪市场树立了新标杆。随着高频型号的加入,R&SZNB3000将覆盖更广泛的应用场景。罗德与施
    的头像 发表于 12-04 17:04 216次阅读
    罗德与施瓦茨宣布推出新频段 R&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;S ZNB3000 矢量网络分析仪,频率高达 54 GHz

    基于米尔瑞芯微RK3576开发板部署运行TinyMaix:超轻量级推理框架

    本文将介绍基于米尔电子MYD-LR3576开发平台部署超轻量级推理框架方案:TinyMaix 摘自优秀创作者-短笛君 TinyMaix 是面向单片机的超轻量级的神经网络推理库,即 TinyML
    发表于 07-25 16:35

    如何在RK3576开发板上运行TinyMaix :超轻量级推理框架--基于米尔MYD-LR3576开发板

    本文将介绍基于米尔电子MYD-LR3576开发平台部署超轻量级推理框架方案:TinyMaix摘自优秀创作者-短笛君TinyMaix是面向单片机的超轻量级的神经网络推理库,即TinyML推理库,可以
    的头像 发表于 07-25 08:03 4009次阅读
    如何在RK3576开发板上运行TinyMaix :超<b class='flag-5'>轻量级</b>推理框架--基于米尔MYD-LR3576开发板

    北京迅为itop-3588开发板NPU例程测试deeplabv3 语义分割

    北京迅为itop-3588开发板NPU例程测试deeplabv3 语义分割
    的头像 发表于 07-22 15:51 819次阅读
    北京迅为itop-3588开发板NPU例程测试deeplabv3 <b class='flag-5'>语义</b><b class='flag-5'>分割</b>

    新知|Verizon与AT&amp;amp;amp;T也可以手机直接连接卫星了

    与Starlink星链合作的反击。早些时候,T-Mobile宣布其手机直连卫星服务开放测试,任何用户都可以申请测试,并在第一阶段提供卫星消息服务。AT&amp;T通过手机直连卫星视频通话早前,星链
    的头像 发表于 06-19 07:07 900次阅读
    新知|Verizon与AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T也可以手机直接连接卫星了

    轻量级≠低效能:RK3506J核心板如何用性价比感动用户?

    瑞芯微 RK3506J凭借多核异构架构设计与国产化供应链整合,以轻量级硬件资源实现工业级性能输出,重新定义了控制芯片的性价比边界,为工业控制芯片领域带来了全新的解决方案与发展方向。
    的头像 发表于 06-17 09:20 2569次阅读
    <b class='flag-5'>轻量级</b>≠低效能:RK3506J核心板如何用性价比感动用户?

    【重磅】企业版秋DFM&amp;amp;秋CAM正式发布!离线审查+定制开发+专属护航

    ,打造的轻量级国产CAM利器 1、操作极简 ◆ 自动识别层名/层序,智能调整钻孔格式 2、功能精专 ◆ 支持Gerber/ODB++查看/分析/编辑,裸板参数(线路/钻孔/阻焊/丝印)分析 3
    发表于 06-11 16:02

    瑞芯微RK3568正式开放RISC-V核心啦,也支持非对称AMP双系统!

    在嵌入式系统的发展进程中,多核异构架构的出现为满足复杂应用场景的需求提供了新的可能。其中,瑞芯微RK3568J国产平台的非对称AMP(Asymmetric Multi-Processing)架构
    的头像 发表于 02-27 10:36 1025次阅读
    瑞芯微RK3568正式<b class='flag-5'>开放</b>RISC-V核心啦,也支持非对称<b class='flag-5'>AMP</b>双系统!

    双模载波芯片CN8513&amp;amp;amp;CN8514在智能家居中的创新应用

    双模载波芯片CN8513&amp;CN8514在智能家居中的创新应用
    的头像 发表于 02-10 09:43 975次阅读
    双模载波芯片CN8513&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;CN8514在智能家居中的创新应用

    “国产双系统”出炉!复旦微FMQL20SM非对称AMP:Linux + 裸机

    “非对称AMP”双系统是什么 AMP(Asymmetric Multi-Processing),即非对称多处理架构。“非对称AMP”双系统是指多个核心相对独立运行不同的操作系统或裸机应
    的头像 发表于 01-24 13:46 1182次阅读
    “国产双系统”出炉!复旦微FMQL20SM非对称<b class='flag-5'>AMP</b>:Linux + 裸机

    HPLC+HRF双模载波芯片CN8513&amp;amp;amp;CN8514应用于智能楼宇

    HPLC+HRF双模载波芯片CN8513&amp;CN8514应用于智能楼宇
    的头像 发表于 01-09 10:01 1188次阅读
    HPLC+HRF双模载波芯片CN8513&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;CN8514应用于智能楼宇

    HPLC+HRF双模载波芯片CN8513&amp;amp;amp;CN8514用于智能抄表系统

    HPLC+HRF双模载波芯片CN8513&amp;CN8514用于智能抄表系统
    的头像 发表于 01-03 10:04 2409次阅读
    HPLC+HRF双模载波芯片CN8513&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;CN8514用于智能抄表系统

    如何判断产品需不需要做AT&amp;amp;amp;T认证?AT&amp;amp;amp;T测试内容和要求分享

    随着经济全球化的发展,国内越来越多产品厂商选择将自家产品出口到北美市场,而这时候各位厂商都会面临产品需不需要做AT&amp;T的问题。今天英利检测针对这一问题整理了一些关于AT&amp;T认证中
    的头像 发表于 12-23 17:46 1028次阅读
    如何判断产品需不需要做AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T认证?AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T测试内容和要求分享

    电气YU系列工业级连接器登场,解锁USB&amp;amp;Type-C多模块新体验!

    近日,凌全新推出YU系列USB&amp;amp;Type-C多模块工业级连接器,在功能上实现了全面升级。
    的头像 发表于 12-18 09:46 797次阅读

    上新 | 超全模块超乎想象,YU系列USB&amp;amp;amp;Type-C多模块工业级连接器新品惊喜上市

    最近,凌推出了又一新品——YU系列USB&amp;Type-C多模块工业级连接器。这款产品在功能上进行了全面升级,不止单一的USB连接功能,而且还涵盖USB带排针、Type-C、USB转
    的头像 发表于 12-17 18:25 961次阅读
    上新 | 超全模块超乎想象,YU系列USB&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;Type-C多模块工业级连接器新品惊喜上市