三项SOTA！MasQCLIP：开放词汇通用图像分割新网络-电子发烧友网

1. 效果展示

MasQCLIP在开放词汇实例分割、语义分割和全景分割三项任务上均实现了SOTA，涨点非常明显。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM：VINS-Fusion原理精讲与源码剖析》。

再来看看开放词汇全景分割的定性效果，图片来源于ADE20k，可以发现MasQCLIP分割出的Mask和类别精度更高。

2. 具体原理是什么？

先介绍一下基础的CLIP模型：ICML-2021的工作，多模态视觉-语言模型代表。主要用来提取zero-shot目标的特征。核心思想是，很多模型需要预定义图像类别，但是文本实际上就已经提供了未见类别的信息，融合文本就可以极大增强模型的泛化性。

而MasQCLIP的思想是，利用稠密特征与预训练的CLIP模型无缝集成，从而避免训练大规模参数。MasQCLIP在使用CLIP模型构建图像分割时侧重两方面：

（1）学生-教师模块，通过从基础（已见）类中提取信息来处理新（未见）类的Mask；

（2）更新CLIP模型中查询的模型参数的微调过程。

具体Pipeline是，MasQCLIP由类无关Mask提议网络和基于CLIP的Mask分类模块组成。在Mask提议网络中，应用渐进蒸馏来分割基类之外的Mask。之后将预测的Mask送入分类模块以获得标签。为了有效利用密集CLIP特征，还提出了MasQ-Tuning策略。

再来看看这个渐进蒸馏，就是从教师模型的分割图中提取和基础类别没有重叠的Mask，用来做辅助训练，将这些额外的标注蒸馏到学生模型中，然后不停的迭代循环来提高泛化性。

3. 再来看看效果如何

开放词汇通用图像分割的定量结果，直接对比了实例分割、语义分割、全景分割三个任务。三大任务涨点都非常明显！

开放词汇实例分割结果，分别对比基类和新类别的定量精度，展示了模型的泛化性。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM：VINS-Fusion原理精讲与源码剖析》。

开放词汇实例分割定性对比，可以发现MasQCLIP分割精度更高！

审核编辑：刘清

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉

原文标题：北大&清华最新开源 | 三项SOTA！MasQCLIP：开放词汇通用图像分割新网络

文章出处：【微信号：3D视觉工坊，微信公众号：3D视觉工坊】欢迎添加关注！文章转载请注明出处。

三项SOTA！MasQCLIP：开放词汇通用图像分割新网络