0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

智能感知与物联网技术研究所 来源:未知 2023-07-10 10:05 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

本文提出了 SAN 框架,用于开放词汇语义分割。该框架成功地利用了冻结的 CLIP 模型的特征以及端到端的流程,并最大化地采用冻结的 CLIP 模型。

cbf42182-1ec4-11ee-962d-dac502259ad0.png

简介本文介绍了一种名为Side Adapter Network (SAN)的新框架,用于基于预训练的视觉语言模型进行开放式语义分割。该方法将语义分割任务建模为区域识别问题,并通过附加一个侧面的可学习网络来实现。该网络可以重用CLIP(Contrastive Language-Image Pre-Training)模型的特征,从而使其非常轻便。整个网络可以进行端到端的训练,使侧面网络适应冻结的CLIP模型,从而使预测的掩码提案具有CLIP感知能力。作者在多个语义分割基准测试上评估了该方法,并表明其速度快、准确度高,只增加了少量可训练参数,在一系列数据集上相较于之前的SOTA模型取得了大幅的性能提升(如下表所示)最后,作者希望该方法能够成为一个baseline,并帮助未来的开放式语义分割研究。cc0bd192-1ec4-11ee-962d-dac502259ad0.png

论文链接:

https://arxiv.org/abs/2211.08073

cc305382-1ec4-11ee-962d-dac502259ad0.png  cc5b99ca-1ec4-11ee-962d-dac502259ad0.png  

Introduction

作者首先讨论了语义分割的概念和现代语义分割方法的限制,以及如何将大规模视觉语言模型应用于开放式语义分割。现代语义分割方法通常依赖于大量标记数据,但数据集通常只包含数十到数百个类别,昂贵的数据收集和注释限制了我们进一步扩展类别的可能性。最近,大规模视觉语言模型(如CLIP)的出现促进了零样本学习的发展,这也鼓励我们探索其在语义分割中的应用。然而,将CLIP模型应用于开放式语义分割十分困难,因为CLIP模型是通过图像级对比学习训练的,其学习到的表示缺乏像素级别的识别能力,而这种能力在语义分割中是必需的。解决这个问题的一个方法是在分割数据集上微调模型,但是分割数据集的数据规模远远小于视觉语言预训练数据集,因此微调模型在开放式识别方面的能力通常会受到影响。

wKgZomTYhN-ARx87AAHEyX5Sx1Q173.png

为了充分发挥视觉-语言预训练模型在开放词汇语义分割中的能力。作者提出了一种名为Side Adapter Network(SAN)的新框架。由于端到端训练,SAN的掩膜预测和分类是基于CLIP辅助的。整个模型十分轻量化。SAN有两个分支:一个用于预测掩膜,另一个用于预测应用于CLIP的注意力偏好,以进行掩膜类别识别。作者表明,这种分离的设计可以提高分割性能。此外,作者还提出了一种单向前设计,以最小化CLIP的成本:将浅层CLIP块的特征融合到SAN中,将其他更深层次的块与注意偏置结合以进行掩膜识别。由于训练是端到端的,SAN可以最大程度地适应冻结的CLIP模型。作者的研究基于官方发布的ViT CLIP模型,采用Visual Transformer实现。准确的语义分割需要高分辨率图像,但发布的ViT CLIP模型设计用于低分辨率图像(如),直接应用于高分辨率图像会导致性能下降。为了缓解输入分辨率的冲突,作者在CLIP模型中使用低分辨率图像,在SAN中使用高分辨率图像。作者表明,这种不对称的输入分辨率非常有效。此外,作者还探讨了仅微调ViT模型的位置嵌入,并取得了改进。作者在各种基准测试中评估了他们的方法。与之前的方法相比,作者的方法在所有基准测试中都取得了最好的性能。作者的方法只有8.4M可训练参数和64.3 GFLOPs。 cc96d86e-1ec4-11ee-962d-dac502259ad0.png  Method

3.1 基础架构

SAN的详细架构如下图所示。输入图像被分成个patch。首先通过一个线性层将图片转化为Visual Tokens。这些Visual Tokens会与个可学习的Query Tokens拼接起来,并送到后续的Transformer Layer中。每个Transformer Layer的Visual Tokens和Query Tokens都添加了position embedding。wKgaomTYhPKAEsx0AAFImjH-3XM036.png示例图片SAN的输出由两部分构成:掩膜提议(Mask Proposals)和注意力偏好(Attention Biases)。在掩膜提议中,Query Tokens和Visual Tokens首先通过两个单独的3层MLP,投影成256维,我们将投影的Query Tokens表示其中是Query Tokens的数量,投影的Visual Tokens表示为,其中和是输入图像的高度和宽度。然后,通过和的内积生成掩膜: 生成注意力偏好的过程类似于掩膜提议。Query Tokens和Visual Tokens也通过3层MLP进行投影,表示,其中是CLIP模型的注意头数。通过对和进行内积,我们得到注意力偏好: 此外,如果需要,注意力偏好还将进一步调整其中和是CLIP中注意力映射的高度和宽度。在实践中,和可以共享,并且注意力偏好将应用于CLIP的多个自注意层,即偏好将在不同的自注意层中使用。这样的双输出设计的动机很直观:作者认为用于在CLIP中识别掩模的感兴趣区域可能与掩模区域本身不同。作者在后文的对比实验中也证实了这个想法。

3.2掩膜预测

原始的CLIP模型只能通过标记进行图像级别的识别。作者工作在不改变CLIP模型参数的情况下,尝试通过指导标记的注意力图在感兴趣区域上实现精确的掩膜识别。为了实现这个目标,作者创建了一组名为标记(仿照Maskclip,如下图)。ccc87f04-1ec4-11ee-962d-dac502259ad0.png这些标记单向地通过Visual Tokens进行更新,但是Visual Tokens和标记都不受的影响。在更新标记时,预测的注意力偏差被添加到注意力矩阵中: 其中表示层编号,表示第个注意力头的Query 和Key,Visual Tokens 的Key。,和分别是Query、Key和Value的编码权重。通过注意力偏好,标记的特征逐渐演变以适应掩膜预测,并且可以通过比较标记和类名CLIP文本编码之间的距离/相似性来轻松获得掩膜的类别预测,表示为,其中是类别数。

3.3分割结果生成

使用上文提到的掩膜和类别预测,我们可以计算语义分割图: 其中。这是标准的语义分割输出,因此与主流的语义分割评估兼容。在训练,我们通过Dice Loss 和binary cross-entropy loss 来监督掩膜生成,通过cross-entropy loss 来监督掩膜识别。总损失为: 其中作者使用的损失权重,,分别为5.0,5.0和2.0。通过端到端的训练,SAN可以最大程度地适应冻结的CLIP模型,并得到很好的结果。 cce0c208-1ec4-11ee-962d-dac502259ad0.png  

讨论

具体来说,作者提出了一种全新的端到端架构,以极小的参数量在多个数据集上取得了SOTA效果。SAN的主要特点如下:

  • SAN中沿用了MaskCLIP得出的结论:在下游数据集上微调会破坏CLIP优秀的特征空间。因此在SAN的设计中,无需微调(fine-tune)CLIP模型,以便最大程度的保持CLIP模型的开放词汇能力。

  • 在冻结CLIP模型的同时,引入了额外的可编码网络,能够根据下游任务数据集学习分割所需要的特征,弥补了CLIP模型对于位置信息的缺失。

  • 将语义分割任务分解为掩膜预测与类别预测两个子任务。CLIP模型的开放识别能力不仅仅依赖于物体区域本身,也依赖于物体的上下文信息(Context Information)。这促使作者提出掩膜预测与类别预测解耦的双输出设计,下表显示该设计可以进一步提升模型的预测精度。
ccf5775c-1ec4-11ee-962d-dac502259ad0.png  
  • 充分复用了CLIP模型的特征,大幅度降低所需的额外参数量的同时获得最佳性能。下表展示了复用CLIP特征带来的性能增益。

cd05cab2-1ec4-11ee-962d-dac502259ad0.png    cd1f5ed2-1ec4-11ee-962d-dac502259ad0.png  结论作者在这项工作中提出了SAN框架,用于开放词汇语义分割。该框架成功地利用了冻结的CLIP模型的特征以及端到端的流程,并最大化地采用冻结的CLIP模型。所提出的框架在五个语义分割基准测试中显著优于以往的最先进方法,而且具有更少的可训练参数和更少的计算成本。 ·


原文标题:CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

文章出处:【微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。


声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 物联网
    +关注

    关注

    2950

    文章

    48099

    浏览量

    418098

原文标题:CVPR 2023 | 华科&MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

文章出处:【微信号:tyutcsplab,微信公众号:智能感知与物联网技术研究所】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    NXP 产品包装革新:轻量级卷轴的引入

    NXP 产品包装革新:轻量级卷轴的引入 一、通知概述 NXP 在 2014 年 3 月 30 日发布了编号为 201403006I 的客户信息通知,该通知于 2014 年 4 月 30 日生效
    的头像 发表于 03-25 14:10 201次阅读

    LoRa1121 FCC&CE认证 多频段LoRa无线通讯模块规格书

    LoRa1121 FCC&CE认证 多频段LoRa无线通讯模块规格书
    发表于 02-26 14:36 0次下载

    工业场景下 TE AMP 线束线缆组件选型全攻略

    TE Connectivity(简称 TE / 泰电子)是全球领先的电子互连解决方案供应商,其 AMP Connectors 系列产品覆盖各种工业及汽车应用场景。AMP 系列包含从基础连接器、端子到整线电缆组件、电源线束解决方
    的头像 发表于 12-16 14:18 657次阅读
    工业场景下 TE <b class='flag-5'>AMP</b> 线束线缆组件选型全攻略

    【NPU实战】在迅为RK3588上玩转YOLOv8:目标检测与语义分割一站式部署指南

    【NPU实战】在迅为RK3588上玩转YOLOv8:目标检测与语义分割一站式部署指南
    的头像 发表于 12-12 14:30 6365次阅读
    【NPU实战】在迅为RK3588上玩转YOLOv8:目标检测与<b class='flag-5'>语义</b><b class='flag-5'>分割</b>一站式部署指南

    【深度实战】MYD-LR3576 AMP非对称多核开发指南:从配置到实战

    一、什么是AMP?为什么重要?AMP(AsymmetricMulti-Processing)非对称多处理架构,允许单个芯片的不同核心运行不同的操作系统或裸机程序。相比传统的SMP(对称
    的头像 发表于 12-05 08:07 7333次阅读
    【深度实战】MYD-LR3576 <b class='flag-5'>AMP</b>非对称多核开发指南:从配置到实战

    罗德与施瓦茨宣布推出新频段 R&amp;amp;amp;S ZNB3000 矢量网络分析仪,频率高达 54 GHz

    R&amp;SZNB3000以业界领先的测量速度、出色的扩展能力及一流射频性能,为中端矢量网络分析仪市场树立了新标杆。随着高频型号的加入,R&amp;SZNB3000将覆盖更广泛的应用场景。罗德与施
    的头像 发表于 12-04 17:04 734次阅读
    罗德与施瓦茨宣布推出新频段 R&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;S ZNB3000 矢量网络分析仪,频率高达 54 GHz

    Crypto核心库:颠覆传统的数据安全轻量级加密方案

    传统加密方案常陷入“安全与性能”的二元悖论。Crypto核心库打破这一僵局,通过轻量级架构与算法优化,实现加密解密的双向突破:在保障银行级安全的同时,将资源消耗压缩至极致,让数据安全“轻”装上
    的头像 发表于 08-04 14:44 845次阅读
    Crypto核心库:颠覆传统的数据安全<b class='flag-5'>轻量级</b>加密方案

    基于米尔瑞芯微RK3576开发板部署运行TinyMaix:超轻量级推理框架

    本文将介绍基于米尔电子MYD-LR3576开发平台部署超轻量级推理框架方案:TinyMaix 摘自优秀创作者-短笛君 TinyMaix 是面向单片机的超轻量级的神经网络推理库,即 TinyML
    发表于 07-25 16:35

    如何在RK3576开发板上运行TinyMaix :超轻量级推理框架--基于米尔MYD-LR3576开发板

    本文将介绍基于米尔电子MYD-LR3576开发平台部署超轻量级推理框架方案:TinyMaix摘自优秀创作者-短笛君TinyMaix是面向单片机的超轻量级的神经网络推理库,即TinyML推理库,可以
    的头像 发表于 07-25 08:03 4395次阅读
    如何在RK3576开发板上运行TinyMaix :超<b class='flag-5'>轻量级</b>推理框架--基于米尔MYD-LR3576开发板

    北京迅为itop-3588开发板NPU例程测试deeplabv3 语义分割

    北京迅为itop-3588开发板NPU例程测试deeplabv3 语义分割
    的头像 发表于 07-22 15:51 1121次阅读
    北京迅为itop-3588开发板NPU例程测试deeplabv3 <b class='flag-5'>语义</b><b class='flag-5'>分割</b>

    CS86706适用1~3节锂电应用,内置升压模块,2×30W立体声&amp;amp;amp;50W单声道R类音频功率放大器

    CS86706适用1~3节锂电应用,内置升压模块,2×30W立体声&amp;amp;50W单声道R类音频功率放大器
    的头像 发表于 07-16 20:42 835次阅读
    CS86706适用1~3节锂电应用,内置升压模块,2×30W立体声&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;50W单声道R类音频功率放大器

    新知|Verizon与AT&amp;amp;amp;T也可以手机直接连接卫星了

    与Starlink星链合作的反击。早些时候,T-Mobile宣布其手机直连卫星服务开放测试,任何用户都可以申请测试,并在第一阶段提供卫星消息服务。AT&amp;T通过手机直连卫星视频通话早前,星链
    的头像 发表于 06-19 07:07 1323次阅读
    新知|Verizon与AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T也可以手机直接连接卫星了

    轻量级≠低效能:RK3506J核心板如何用性价比感动用户?

    瑞芯微 RK3506J凭借多核异构架构设计与国产化供应链整合,以轻量级硬件资源实现工业级性能输出,重新定义了控制芯片的性价比边界,为工业控制芯片领域带来了全新的解决方案与发展方向。
    的头像 发表于 06-17 09:20 2961次阅读
    <b class='flag-5'>轻量级</b>≠低效能:RK3506J核心板如何用性价比感动用户?

    【重磅】企业版秋DFM&amp;amp;秋CAM正式发布!离线审查+定制开发+专属护航

    ,打造的轻量级国产CAM利器 1、操作极简 ◆ 自动识别层名/层序,智能调整钻孔格式 2、功能精专 ◆ 支持Gerber/ODB++查看/分析/编辑,裸板参数(线路/钻孔/阻焊/丝印)分析 3
    发表于 06-11 16:02

    多模块配置!YU系列USB、Type-C连接器为工控机打造&amp;amp;quot;全能型&amp;amp;quot;数据传输方案

    背景介绍工控机是一类用于工业、野外等复杂恶劣环境的专用计算机设备,如何实现稳如磐石的数据传输是关键?凌电气YU-USB&amp;Type-C工业连接器,以严苛环境适配性及长期稳定的性能表现,成为
    的头像 发表于 05-07 18:27 828次阅读
    多模块配置!YU系列USB、Type-C连接器为工控机打造&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;全能型&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;数据传输方案