0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

三项SOTA!MasQCLIP:开放词汇通用图像分割新网络

3D视觉工坊 来源:3D视觉工坊 2023-12-12 11:23 次阅读

1. 效果展示

MasQCLIP在开放词汇实例分割、语义分割和全景分割三项任务上均实现了SOTA,涨点非常明显。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。

2c36400a-987a-11ee-8b88-92fbcf53809c.png

再来看看开放词汇全景分割的定性效果,图片来源于ADE20k,可以发现MasQCLIP分割出的Mask和类别精度更高。

2c7bd53e-987a-11ee-8b88-92fbcf53809c.png

2. 具体原理是什么?

先介绍一下基础的CLIP模型:ICML-2021的工作,多模态视觉-语言模型代表。主要用来提取zero-shot目标的特征。核心思想是,很多模型需要预定义图像类别,但是文本实际上就已经提供了未见类别的信息,融合文本就可以极大增强模型的泛化性。

MasQCLIP的思想是,利用稠密特征与预训练的CLIP模型无缝集成,从而避免训练大规模参数。MasQCLIP在使用CLIP模型构建图像分割时侧重两方面:

(1)学生-教师模块,通过从基础(已见)类中提取信息来处理新(未见)类的Mask;

(2)更新CLIP模型中查询的模型参数的微调过程。

具体Pipeline是,MasQCLIP由类无关Mask提议网络和基于CLIP的Mask分类模块组成。在Mask提议网络中,应用渐进蒸馏来分割基类之外的Mask。之后将预测的Mask送入分类模块以获得标签。为了有效利用密集CLIP特征,还提出了MasQ-Tuning策略。

2cfae536-987a-11ee-8b88-92fbcf53809c.png

再来看看这个渐进蒸馏,就是从教师模型的分割图中提取和基础类别没有重叠的Mask,用来做辅助训练,将这些额外的标注蒸馏到学生模型中,然后不停的迭代循环来提高泛化性。

2d2090f6-987a-11ee-8b88-92fbcf53809c.png

3. 再来看看效果如何

开放词汇通用图像分割的定量结果,直接对比了实例分割、语义分割、全景分割三个任务。三大任务涨点都非常明显!

2d438bce-987a-11ee-8b88-92fbcf53809c.png

开放词汇实例分割结果,分别对比基类和新类别的定量精度,展示了模型的泛化性。这里也推荐工坊推出的新课程《彻底搞懂视觉-惯性SLAM:VINS-Fusion原理精讲与源码剖析》。

2d6efc00-987a-11ee-8b88-92fbcf53809c.png

开放词汇实例分割定性对比,可以发现MasQCLIP分割精度更高!

2d87cc80-987a-11ee-8b88-92fbcf53809c.jpg








审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 图像分割
    +关注

    关注

    4

    文章

    173

    浏览量

    17863
  • Clip
    +关注

    关注

    0

    文章

    29

    浏览量

    6570

原文标题:北大&清华最新开源 | 三项SOTA!MasQCLIP:开放词汇通用图像分割新网络

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    三项交流电主轴电机启动后转子无法转动却左右剧烈摆动是什么原因呀?

    一台数控齿轮磨床三项交流电主轴砂轮主轴电机主轴带编码器,启动后转子无法转动却左右剧烈摆动。什么原因呀?编码器和主轴电机驱动器均已更换,电机绕组已检查无短路断路三项绕阻平衡。请版主帮帮忙呀!
    发表于 12-12 06:07

    NeurlPS'23开源 | 首个!开放词汇3D实例分割

    我们介绍了开放词汇3D实例分割的任务。当前的3D实例分割方法通常只能从训练数据集中标注的预定义的封闭类集中识别对象类别。这给现实世界的应用程序带来了很大的限制,在现实世界的应用程序中,
    的头像 发表于 11-14 15:53 294次阅读
    NeurlPS&apos;23开源 | 首个!<b class='flag-5'>开放</b><b class='flag-5'>词汇</b>3D实例<b class='flag-5'>分割</b>!

    机器视觉图像分割的方法有哪些?

    现有的图像分割方法主要分以下几类:基于阈值(threshold)的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的
    发表于 11-02 10:26 380次阅读
    机器视觉<b class='flag-5'>图像</b><b class='flag-5'>分割</b>的方法有哪些?

    机器视觉(六):图像分割

    基于阈值的分割方法是一种应用十分广泛的图像分割技术,其实质是利用图像的灰度直方图信息获取用于分割的阈值,一个或几个阈值将
    的头像 发表于 10-22 11:34 530次阅读
    机器视觉(六):<b class='flag-5'>图像</b><b class='flag-5'>分割</b>

    基于K-means聚类算法的图像分割

    图像分割:利用图像的灰度、颜色、纹理、形状等特征,把图像分成若干个互不重叠的区域,并使这些特征在同一区域内呈现相似性,在不同的区域之间存在明显的差异性。然后就可以将
    的头像 发表于 09-07 16:59 636次阅读
    基于K-means聚类算法的<b class='flag-5'>图像</b><b class='flag-5'>分割</b>

    使用PyTorch加速图像分割

    使用PyTorch加速图像分割
    的头像 发表于 08-31 14:27 495次阅读
    使用PyTorch加速<b class='flag-5'>图像</b><b class='flag-5'>分割</b>

    图像分割算法原理及工作流程

    基于深度学习的图像分割算法属于图像处理领域最高层次的图像理解范畴。所谓图像分割就是把
    的头像 发表于 08-18 15:48 988次阅读
    <b class='flag-5'>图像</b><b class='flag-5'>分割</b>算法原理及工作流程

    印刷电路板的图像分割

     阈值分割图像预处理中关键的步骤,实质是对每一个象素点确定一个阈值,根据阈值决定当前象素是前景还是背景点,目前,已有大量的阈值处理方法,比如全局阈值和局域阈值,是简单的分割方法,而后者则是把整幅图分成许多子
    发表于 08-18 14:27 418次阅读

    什么是图像分割图像分割的体系结构和方法

    图像分割(Image Segmentation)是计算机视觉领域中的一项重要基础技术,是图像理解中的重要一环。前端时间,数据科学家Derrick Mwiti在一篇文章中,就什么是图像
    的头像 发表于 08-18 10:34 2613次阅读
    什么是<b class='flag-5'>图像</b><b class='flag-5'>分割</b>?<b class='flag-5'>图像</b><b class='flag-5'>分割</b>的体系结构和方法

    CVPR 2023 | 华科&amp;MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

    本文提出了 SAN 框架,用于开放词汇语义分割。该框架成功地利用了冻结的 CLIP 模型的特征以及端到端的流程,并最大化地采用冻结的 CLIP 模型。 简介 本文介绍了一种名为Side
    的头像 发表于 07-10 10:05 593次阅读
    CVPR 2023 | 华科&amp;MSRA新作:基于CLIP的轻量级<b class='flag-5'>开放</b><b class='flag-5'>词汇</b>语义<b class='flag-5'>分割</b>架构

    人体分割识别图像技术的原理及应用

    人体分割识别图像技术是一种将人体从图像分割出来,并对人体进行识别和特征提取的技术。该技术主要利用计算机视觉和图像处理算法对人体
    的头像 发表于 06-15 17:44 693次阅读

    自动驾驶场景图像分割(Unet)

    本文使用matlab环境,测试了自动驾驶场景的图像分割任务。分割网络使用Unet。 一千张标注图像,最终训练精度达到 90%。    数据准
    发表于 06-07 11:58 0次下载
    自动驾驶场景<b class='flag-5'>图像</b><b class='flag-5'>分割</b>(Unet)

    SAM分割模型是什么?

    SAM是一类处理图像分割任务的通用模型。与以往只能处理某种特定类型图片的图像分割模型不同,SAM可以处理所有类型的
    的头像 发表于 05-20 09:30 1572次阅读

    AI算法说-图像分割

    语义分割是区分同类物体的分割任务,实例分割是区分不同实例的分割任务,而全景分割则同时达到这两个目标。全景
    的头像 发表于 05-17 14:44 889次阅读
    AI算法说-<b class='flag-5'>图像</b><b class='flag-5'>分割</b>

    没你想的那么难 | 一文读懂图像分割

    来源:图灵Topia(ID:turingtopia)图像分割(ImageSegmentation)是计算机视觉领域中的一项重要基础技术,是图像理解中的重要一环。近日,数据科学家
    的头像 发表于 05-16 09:21 615次阅读
    没你想的那么难 | 一文读懂<b class='flag-5'>图像</b><b class='flag-5'>分割</b>