0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

形状感知零样本语义分割

3D视觉工坊 来源:计算机视觉工坊 2023-04-28 11:26 次阅读

一、简介

由于大规模视觉语言预训练取得了令人瞩目的进展,最近的识别模型可以以惊人的高准确度对任意对象进行零样本和开放式分类。然而,将这种成功转化为语义分割并不容易,因为这种密集的预测任务不仅需要准确的语义理解,还需要良好的形状描绘,而现有的视觉语言模型是通过图像级别的语言描述进行训练的。为了弥合这一差距,我们在本研究中追求具有形状感知能力的零样本语义分割。受图像分割文献中经典的谱方法的启发,我们提出利用自监督像素级特征构建的拉普拉斯矩阵的特征向量来提升形状感知分割性能。

尽管这种简单而有效的算法完全不使用已知类别的掩模,但我们证明它的表现优于一种最先进的形状感知范式,在训练期间对齐地面实况和预测边缘。我们还深入研究了在不同数据集上使用不同的骨干网络所实现的性能提升,并得出了一些有趣且有结论性的观察:形状感知分割性能的提升与目标掩模的形状紧密性和对应语言嵌入的分布都密切相关。

二、网络架构

08fb6300-e573-11ed-ab56-dac502259ad0.png

图1 SAZS的总体框架

零样本语义分割的目标是将语义分割任务扩展到训练数据集中未出现的类别。引入额外的先验信息的一种潜在方法是利用预训练的视觉-语言模型,但是大多数这些模型都集中于图像级别的预测,无法转移到密集预测任务。为此,我们提出了一种名为“形状感知零样本语义分割(SAZS)”的新方法。

该方法利用了预训练的CLIP[1]模型中包含的丰富的语言先验信息,在训练期间对齐地面实况和预测边缘。同时,利用自监督像素级特征构建的拉普拉斯矩阵的特征向量来提升形状感知分割性能,并将其与像素级别的预测相结合。 我们的方法的模型框架如图1所示。

输入图像首先通过图像编码器转换为像素级嵌入,然后与预训练的CLIP[1]模型的文本编码器获得的预先计算的文本嵌入对齐(图1中的A部分)。同时,图像编码器中的额外头部用于在补丁中预测边界,并针对分割地面真值中获得的地面真值边缘进行优化(图1中的B部分)。此外,在推断过程中,我们通过谱分析分解图像并将输出的特征向量与类别不可知的分割结果相结合(图1中的C部分)。

我们将训练集表示为09044916-e573-11ed-ab56-dac502259ad0.png,测试集表示为0914c430-e573-11ed-ab56-dac502259ad0.png091a3ae6-e573-11ed-ab56-dac502259ad0.png,其中0923ce80-e573-11ed-ab56-dac502259ad0.png092bc22a-e573-11ed-ab56-dac502259ad0.png分别表示输入图像和相应的真实语义掩码。S表示 I中的K个潜在标签,而表示测试期间未见过的类别。

在我们的设置中,这两个集合严格互斥(即093474a6-e573-11ed-ab56-dac502259ad0.png)。 在针对的093e6f42-e573-11ed-ab56-dac502259ad0.png进行推断之前,模型使用来自S的真实标签在0946354c-e573-11ed-ab56-dac502259ad0.png上进行训练。 这意味着在训练过程中从未看到测试集中的类别,使得任务在零样本设置下进行。一旦模型训练得当,它应该能够泛化到未见过的类别,并在开放世界中实现高效的目标密集预测。

像素级别的视觉-语言对齐

我们采用扩张残差网络(DRN[2])和密集预测Transformer(DPT[3])来将图像编码为像素级嵌入向量。同时,我们采用预训练的CLIP文本编码器将来自S中K个类别的名称映射到CLIP特征空间作为文本特征094fbcb6-e573-11ed-ab56-dac502259ad0.png。其中,视觉特征09577e38-e573-11ed-ab56-dac502259ad0.png和文本特征具有相同的维度D。

为了实现视觉-语言对齐,此前的工作[5]通过最小化像素和对应语义类别之间的距离,同时最大化像素和其他类别之间的距离来实现。在像素级视觉和语言特征被嵌入同一特征空间的假设下,我们利用余弦相似度095f4d02-e573-11ed-ab56-dac502259ad0.png作为特征之间的量化距离度量,并提出对齐损失,它是所有像素上已见类别的交叉熵损失的总和:

0965630e-e573-11ed-ab56-dac502259ad0.png 其中,09743aa0-e573-11ed-ab56-dac502259ad0.png表示在位置0980996c-e573-11ed-ab56-dac502259ad0.png上的像素视觉特征,098719d6-e573-11ed-ab56-dac502259ad0.png表示第k个文本特征,098febe2-e573-11ed-ab56-dac502259ad0.png表示像素 0980996c-e573-11ed-ab56-dac502259ad0.png的类别的索引。

形状约束

由于CLIP是在图像级别任务上训练的,仅仅利用CLIP特征空间中的先验信息可能对密集预测任务不足够。为了解决这个问题,我们引入边界检测作为一个约束任务。受到之前工作[6]的启发,我们通过优化真实边缘和特征图中的边缘之间的仿射变换,使其趋近于单位矩阵。

具体来说,如图1所示,我们提取视觉编码器的中间特征,并将其划分成块。首先采用Sobel算子获得边缘对应的真实标签。之后将特征块输入边界头进行特征提取。我们利用训练好的形状网络(图 1中的MLP)计算第i个特征块的变换矩阵09a236c6-e573-11ed-ab56-dac502259ad0.png,该矩阵用于将处理后的特征块与边缘的真实注释之间进行仿射变换。我们使用形状损失来优化仿射变换矩阵与单位矩阵之间的差异: 09aac700-e573-11ed-ab56-dac502259ad0.png 其中T表示特征块数量,表示Frobenius范数。

此外,我们还计算了整张特征图的预测边缘掩码与相应的真实标注之间的二元交叉熵损失 09b58dfc-e573-11ed-ab56-dac502259ad0.png,以进一步优化边缘检测的性能。经过边缘检测任务的联合训练,视觉编码器能够利用输入图像中的形状先验信息。后面的实验结果表明,由09bbbd08-e573-11ed-ab56-dac502259ad0.png09b58dfc-e573-11ed-ab56-dac502259ad0.png引入的形状感知带来了显著的性能提升。

最终,在训练过程中需要优化的总损失为: 09c5f0de-e573-11ed-ab56-dac502259ad0.png 其中,和是损失权重。

自监督谱分解

由于此前谱分解工作[7]的启发,我们利用无监督谱分解的方式将输入图像的拉普拉斯矩阵分解为具有边界信息的特征段,并在图1中的融合模块中将这些特征段与神经网络的预测结果融合。 关联矩阵的推导是谱分解的关键。首先提取预训练的自监督Transformer(DINO[4])最后一层的注意力块中的特征。像素,的关联矩阵定义为: 09d6d4bc-e573-11ed-ab56-dac502259ad0.png 虽然从DINO特征中的关联矩阵富含语义信息,但缺少包括颜色相似性和空间距离在内的低层次近邻信息。

我们首先将输入图像转换为HSV颜色空间:09df8076-e573-11ed-ab56-dac502259ad0.png09e804c6-e573-11ed-ab56-dac502259ad0.png,其中09f70016-e573-11ed-ab56-dac502259ad0.png是各自的HSV坐标,0a007b32-e573-11ed-ab56-dac502259ad0.png是像素i的空间坐标。然后,像素关联矩阵被定义为: 0a085f1e-e573-11ed-ab56-dac502259ad0.png 这里的0a195a1c-e573-11ed-ab56-dac502259ad0.png表示二范数。整体的关联矩阵定义为这两者的加权和: 0a22c89a-e573-11ed-ab56-dac502259ad0.png

推理过程

在进行推理时,我们首先使用预训练的CLIP文本编码器对类别的进行编码,并获得包含C个类别的文本特征0a2bf4f6-e573-11ed-ab56-dac502259ad0.png,其中每个类别都用一个D维嵌入表示。然后我们利用训练好的视觉编码器获取视觉特征图0a365d42-e573-11ed-ab56-dac502259ad0.png。最终的逻辑回归值0a419748-e573-11ed-ab56-dac502259ad0.png是视觉特征和文本特征之间余弦相似性的计算结果。同时,我们使用预训练的DINO以无监督的方式提取语义特征,并计算出前K个谱特征区段0a49d764-e573-11ed-ab56-dac502259ad0.png(我们的实现中0a53f514-e573-11ed-ab56-dac502259ad0.png)。 最终的预测结果是由融合模块生成的,该模块根据0a49d764-e573-11ed-ab56-dac502259ad0.png0a66df80-e573-11ed-ab56-dac502259ad0.png之间的最大IoU(表示为0a6ff2d2-e573-11ed-ab56-dac502259ad0.png)从预测集中进行选择: 0a76a230-e573-11ed-ab56-dac502259ad0.png

三、实验结果

我们分别在语义分割数据集PASCAL-5i[8]和COCO-20i[9]上进行了定量和定性实验,分别如下图所示

0a7f4bc4-e573-11ed-ab56-dac502259ad0.png

表1:SAZS在PASCAL-5i和COCO-20i上的定量结果

0a8a5c3a-e573-11ed-ab56-dac502259ad0.png

表2:SAZS跨数据零样本分割的定量结果(在PASCAL-5i上测试)

SAZS在PASCAL-5i和COCO-20i上的定性结果分别如下图所示。第一列和最后一列是不同类别的输入图像和相应的地面真实语义掩码。第二列和第三列分别是 SAZS 没有和有形状感知的预测结果。*表示在训练阶段未曾出现的类别.

0a969edc-e573-11ed-ab56-dac502259ad0.png0aa48fb0-e573-11ed-ab56-dac502259ad0.png

形状感知分割验证指标IoU与目标掩模的形状紧密性和对应语言嵌入的分布关系如下图所示。

0ab03f86-e573-11ed-ab56-dac502259ad0.png

四、总结

本文提出了一种新颖的框架,用于实现形状感知的零样本语义分割(简称SAZS)。该框架利用大规模预训练视觉语言模型的特征空间中包含的丰富先验信息,同时通过在边界检测约束任务上进行联合训练。此外,采用自监督谱分解来获取图像的特征向量,将其与网络预测融合增强模型感知形状的能力。相关性分析进一步凸显了形状紧密度和语言嵌入分布对分割性能的影响。





审核编辑:刘清

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 编码器
    +关注

    关注

    41

    文章

    3363

    浏览量

    131560
  • DRNN
    +关注

    关注

    0

    文章

    2

    浏览量

    6076
  • Clip
    +关注

    关注

    0

    文章

    29

    浏览量

    6571
  • HSV
    HSV
    +关注

    关注

    0

    文章

    10

    浏览量

    2567

原文标题:CVPR2023 | 形状感知零样本语义分割

文章出处:【微信号:3D视觉工坊,微信公众号:3D视觉工坊】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    未来已来,多传感器融合感知是自动驾驶破局的关键

    限制,实时完成精准目标感知;3)支持目标的识别与样本采样同步完成,助力车厂建立数据优势,这也是未来车厂的核心竞争力之一。 特斯拉成功推出采用端到端方案的FSDV12版,很大一个助力因素是特斯拉的巨大
    发表于 04-11 10:26

    移动协作机器人的RGB-D感知的端到端处理方案

    本文提出了一种用于具有双目视觉的自主机器人的三维语义场景感知的端到端流程。该流程包括实例分割、特征匹配和点集配准。首先,利用RGB图像进行单视图三维语义场景
    发表于 02-21 15:55 213次阅读
    移动协作机器人的RGB-D<b class='flag-5'>感知</b>的端到端处理方案

    一种在线激光雷达语义分割框架MemorySeg

    本文提出了一种在线激光雷达语义分割框架MemorySeg,它利用三维潜在记忆来改进当前帧的预测。传统的方法通常只使用单次扫描的环境信息来完成语义分割任务,而忽略了观测的时间连续性所蕴含
    的头像 发表于 11-21 10:48 245次阅读
    一种在线激光雷达<b class='flag-5'>语义</b><b class='flag-5'>分割</b>框架MemorySeg

    深度学习图像语义分割指标介绍

    深度学习在图像语义分割上已经取得了重大进展与明显的效果,产生了很多专注于图像语义分割的模型与基准数据集,这些基准数据集提供了一套统一的批判模型的标准,多数时候我们评价一个模型的性能会从
    发表于 10-09 15:26 165次阅读
    深度学习图像<b class='flag-5'>语义</b><b class='flag-5'>分割</b>指标介绍

    一个用于周视语义占用网格感知的基准测试

    语义占用网格感知对于自动驾驶至关重要,因为自动驾驶车辆需要对3D城市场景进行细粒度感知
    的头像 发表于 08-14 09:37 703次阅读
    一个用于周视<b class='flag-5'>语义</b>占用网格<b class='flag-5'>感知</b>的基准测试

    实时语义建图与潜在先验网络和准平面分割

    论文在III-B部分描述了论文方法背后的SLAM管道。论文的2D潜在先验网络(LPN)在III-C中描述。LPN输出融合到论文在III-D中描述的论文新颖的准平面超分段(QPOS)方法分割的地图
    的头像 发表于 07-19 15:55 303次阅读
    实时<b class='flag-5'>语义</b>建图与潜在先验网络和准平面<b class='flag-5'>分割</b>

    CVPR 2023 | 华科&amp;MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

    本文提出了 SAN 框架,用于开放词汇语义分割。该框架成功地利用了冻结的 CLIP 模型的特征以及端到端的流程,并最大化地采用冻结的 CLIP 模型。 简介 本文介绍了一种名为Side
    的头像 发表于 07-10 10:05 596次阅读
    CVPR 2023 | 华科&amp;MSRA新作:基于CLIP的轻量级开放词汇<b class='flag-5'>语义</b><b class='flag-5'>分割</b>架构

    CVPR 2023 中的领域适应: 一种免反向传播的TTA语义分割方法

    TTA 在语义分割中的应用,效率和性能都至关重要。现有方法要么效率低(例如,需要反向传播的优化),要么忽略语义适应(例如,分布对齐)。此外,还会受到不稳定优化和异常分布引起的误差积累的困扰。
    的头像 发表于 06-30 15:13 623次阅读
    CVPR 2023 中的领域适应: 一种免反向传播的TTA<b class='flag-5'>语义</b><b class='flag-5'>分割</b>方法

    基于通用的模型PADing解决三大分割任务

    1. 研究动机 图像分割旨在将具有不同语义的像素进行分类进而分组,例如类别或实例,近年来取得飞速的发展。然而,由于深度学习方法是数据驱动的,对大规模标记训练样本的强烈需求导致了巨大的挑战,这些训练
    的头像 发表于 06-26 10:39 323次阅读
    基于通用的模型PADing解决三大<b class='flag-5'>分割</b>任务

    自动驾驶深度多模态目标检测和语义分割:数据集、方法和挑战

    了许多解决深度多模态感知问题的方法。 然而,对于网络架构的设计,并没有通用的指导方针,关于“融合什么”、“何时融合”和“如何融合”的问题仍然没有定论。本文系统地总结了自动驾驶 中深度多模态目标检测和语义分割的方法,
    发表于 06-06 10:37 0次下载
    自动驾驶深度多模态目标检测和<b class='flag-5'>语义</b><b class='flag-5'>分割</b>:数据集、方法和挑战

    PyTorch教程-14.9. 语义分割和数据集

    14.9. 语义分割和数据集¶ Colab [火炬]在 Colab 中打开笔记本 Colab [mxnet] Open the notebook in Colab Colab [jax
    的头像 发表于 06-05 15:44 418次阅读
    PyTorch教程-14.9. <b class='flag-5'>语义</b><b class='flag-5'>分割</b>和数据集

    PyTorch教程14.9之语义分割和数据集

    电子发烧友网站提供《PyTorch教程14.9之语义分割和数据集.pdf》资料免费下载
    发表于 06-05 11:10 0次下载
    PyTorch教程14.9之<b class='flag-5'>语义</b><b class='flag-5'>分割</b>和数据集

    使用LabVIEW实现 DeepLabv3+ 语义分割含源码

    使用LabVIEW实现 DeepLabv3+ 语义分割含源码
    的头像 发表于 05-26 10:23 590次阅读
    使用LabVIEW实现 DeepLabv3+ <b class='flag-5'>语义</b><b class='flag-5'>分割</b>含源码

    AI算法说-图像分割

    语义分割是区分同类物体的分割任务,实例分割是区分不同实例的分割任务,而全景分割则同时达到这两个目
    的头像 发表于 05-17 14:44 890次阅读
    AI算法说-图像<b class='flag-5'>分割</b>

    语义分割标注:从认知到实践

    随着人工智能技术的不断发展,语义分割标注已经成为计算机视觉领域的一个热门话题。语义分割是指将图像中的每个像素分配给一个预定义的语义类别,以便
    的头像 发表于 04-30 21:20 778次阅读