1. 效果展示
MasQCLIP在开放词汇实例分割、语义分割和全景分割三项任务上均实现了SOTA,涨点非常明显。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。

再来看看开放词汇全景分割的定性效果,图片来源于ADE20k,可以发现MasQCLIP分割出的Mask和类别精度更高。

2. 具体原理是什么?
先介绍一下基础的CLIP模型:ICML-2021的工作,多模态视觉-语言模型代表。主要用来提取zero-shot目标的特征。核心思想是,很多模型需要预定义图像类别,但是文本实际上就已经提供了未见类别的信息,融合文本就可以极大增强模型的泛化性。
而MasQCLIP的思想是,利用稠密特征与预训练的CLIP模型无缝集成,从而避免训练大规模参数。MasQCLIP在使用CLIP模型构建图像分割时侧重两方面:
(1)学生-教师模块,通过从基础(已见)类中提取信息来处理新(未见)类的Mask;
(2)更新CLIP模型中查询的模型参数的微调过程。
具体Pipeline是,MasQCLIP由类无关Mask提议网络和基于CLIP的Mask分类模块组成。在Mask提议网络中,应用渐进蒸馏来分割基类之外的Mask。之后将预测的Mask送入分类模块以获得标签。为了有效利用密集CLIP特征,还提出了MasQ-Tuning策略。

再来看看这个渐进蒸馏,就是从教师模型的分割图中提取和基础类别没有重叠的Mask,用来做辅助训练,将这些额外的标注蒸馏到学生模型中,然后不停的迭代循环来提高泛化性。

3. 再来看看效果如何
开放词汇通用图像分割的定量结果,直接对比了实例分割、语义分割、全景分割三个任务。三大任务涨点都非常明显!

开放词汇实例分割结果,分别对比基类和新类别的定量精度,展示了模型的泛化性。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。

开放词汇实例分割定性对比,可以发现MasQCLIP分割精度更高!

审核编辑:刘清
-
图像分割
+关注
关注
4文章
182浏览量
18680 -
Clip
+关注
关注
0文章
34浏览量
7207
原文标题:北大&清华最新开源 | 三项SOTA!MasQCLIP:开放词汇通用图像分割新网络
文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。
发布评论请先 登录
共达电声牵头起草的三项团体标准获批发布
格科微电子荣膺三项权威认可
国星光电斩获2025行家极光奖三项行业荣誉
广汽集团荣膺三项权威大奖
惠州亿纬动力连续获得三项资质认证
东风汽车斩获第二届湖北专利奖三项大奖
华宝新能斩获三项2025德国iF设计奖
安富利荣获Bourns三项大奖
Future AIHER公司提交三项AI混增系统专利申请
长城汽车荣获三项重量级大奖
华为MWC2025斩获三项GLOMO大奖
科技为用户而生!海尔智家大脑HomeGPT连获三项大奖
松下电气荣获SGS三项服务认证
Mamba入局图像复原,达成新SOTA

三项SOTA!MasQCLIP:开放词汇通用图像分割新网络
评论