0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
会员中心
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

模型在学习可转移的语义分割表示方面的有效性

jf_pmFSk4VX 来源:GiantPandaCV 2023-05-18 11:35 次阅读
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

目录

前言

DPSS 方法概述

DeP 和 DDeP

基础网络结构

损失函数

diffusion 的扩展

实验

总结

参考

前言

当前语义分割任务存在一个特别常见的问题是收集 groundtruth 的成本和耗时很高,所以会使用预训练。例如监督分类或自监督特征提取,通常用于训练模型 backbone。基于该问题,这篇文章介绍的方法被叫做 decoder denoising pretraining (DDeP),如下图所示。

9bfdc3f4-f4b0-11ed-90ce-dac502259ad0.png请添加图片描述

与标准的去噪自编码器类似,网络被训练用于对带有噪声的输入图像进行去噪。然而,编码器是使用监督学习进行预训练并冻结的,只有解码器的参数使用去噪目标进行优化。此外,当给定一个带有噪声的输入时,解码器被训练用于预测噪声,而不是直接预测干净图像,这也是比较常见的方式。

DPSS 方法概述

这次介绍的这篇文章叫做 Denoising Pretraining for Semantic Segmentation,为了方便,后文统一简写为 DPSS。DPSS 将基于 Transformer 的 U-Net 作为去噪自编码器进行预训练,然后在语义分割上使用少量标记示例进行微调。与随机初始化的训练以及即使在标记图像数量较少时,对编码器进行监督式 ImageNet-21K 预训练相比,去噪预训练(DeP)的效果更好。解码器去噪预训练(DDeP)相对于主干网络的监督式预训练的一个关键优势是能够预训练解码器,否则解码器将被随机初始化。也就是说,DPSS 使用监督学习初始化编码器,并仅使用去噪目标预训练解码器。尽管方法简单,但是 DDeP 在 label-efficient 的语义分割上取得了最先进的结果。9c0a6a1e-f4b0-11ed-90ce-dac502259ad0.png

为了方便理解,上图是以可用的标记训练图像比例为横坐标的 Cityscapes 验证集上的平均 IOU 结果。从左到右四个直方图依次是不进行预训练,使用 ImageNet-21K 预训练 backbone,使用 DeP 预训练编码器和使用 DDeP 的方式。当可用的标记图像比例小于5%时,去噪预训练效果显著。当可用标记比例较大时,基于 ImageNet-21K 的监督式预训练 backbone 网络优于去噪预训练。值得注意的是,DDeP 在各个标记比例下都取得了最佳的结果。

DeP 和 DDeP

下图是 DPSS 的一个形象的图示,其中第二步代表 DDeP。最后的 Fine-tuning 过程是微调整个网络,而不是只做 last layer。

9c0f1384-f4b0-11ed-90ce-dac502259ad0.png请添加图片描述

基础网络结构

DPSS 使用了基于 Transfomer 的 U-Net 架构:TransUnet,如下图所示。它将 12 层 Transfomer 与标准的 U-Net 模型相结合。这种架构中的编码器是一种混合模型,包括卷积层和自注意力层。也就是说,patch embeddings 是从 CNN 特征图中提取的。这篇论文采用了和 Hybrid-vit 模型相同的编码器,以利用在 imagenet-21k 数据集中预先训练的监督模型 checkpoints。论文中强调,去噪预训练方法并不特定模型架构的选择,只是结果都在 TransUNet 架构上测试。

9c1a7f94-f4b0-11ed-90ce-dac502259ad0.png请添加图片描述

损失函数

为了预训练 U-Net,设计了去噪目标函数。该函数向未标记的图像添加高斯噪声以创建噪点图像。噪音水平由一个叫做 gamma 的标量值控制:

然后,噪声图像被输入到 U-Net,它试图通过消除噪点来重建原始图像。去噪目标函数用如下公式表示,它涉及对噪声水平和噪声分布的期望值:

还将去噪目标函数与另一种公式进行了比较,该公式对图像和噪声进行衰减以确保随机变量的方差为 1。发现具有固定噪声水平的更简单的去噪目标函数非常适合表示学习:

DeP 经过训练,可以从噪声损坏的版本中重建图像,并且可以使用未标记的数据。降噪预训练目标表示为 DDPM 扩散过程的单次迭代。sigma 的选择对表示学习质量有很大影响,预训练后,最终的 projection layer 会被丢弃,然后再对语义分割任务进行微调。此外,上面设计 DDPM 的内容,这里就不赘述了,在 GiantPandaCV 之前的语义分割和 diffusion 系列里可以找到。

diffusion 的扩展

在最简单的形式下,当在上一节的最后一个方程中使用单个固定的 σ 值时,相当于扩散过程中的一步。DPSS 还研究了使该方法更接近于 DDPM 中使用的完整扩散过程的方法,包括:

Variable noise schedule:在 DDPM 中,模拟从干净图像到纯噪声(以及其反向)的完整扩散过程时,σ 被随机均匀地从 [0, 1] 中抽样,针对每个训练样本。尽管发现固定的 σ 通常表现最佳,但 DPSS 也尝试随机采样 σ。在这种情况下,将 σ 限制在接近 1 的范围内对于表示质量是必要的。

Conditioning on noise level:在扩散形式化方法中,模型表示从一个噪声水平过渡到下一个的(反向)转换函数,因此受当前噪声水平的条件约束。在实践中,这是通过将为每个训练样本抽样的 σ 作为额外的模型输入(例如,用于标准化层)来实现的。由于我们通常使用固定的噪声水平,对于 DPSS 来说,不需要进行条件设置。

Weighting of noise levels:在 DDPM 中,损失函数中不同噪声水平的相对权重对样本质量有很大影响。论文中的实验表明,学习可转移表示不需要使用多个噪声水平。因此,DPSS 并未对不同噪声水平的加权进行实验。

实验

实验在 Cityscapes,Pascal Context 和 ADE20K 数据集上。下面两个表是在 Cityscapes 的验证集上进行测试,其中还测试了可用带标签训练数据为原始训练数据量 1/30 的情况,表明即使有标签的样本数量很少,DPSS 在 mIoU 上的表现也优于以前的方法。

9c218f1e-f4b0-11ed-90ce-dac502259ad0.png请添加图片描述 9c2a2426-f4b0-11ed-90ce-dac502259ad0.png请添加图片描述

下面比较了在 DeP 模型中调整 sigma 参数的两种不同方法的性能。第二种方法使用固定的 sigma 值,而第一种方法从间隔 [0.2,0.3] 对西格玛进行均匀采样。此外,折线图表示固定 sigma 在值为 0.2 左右的区间效果更好。这部分实验基于 Pascal Context 和 ADE20K 数据集。

9c3204c0-f4b0-11ed-90ce-dac502259ad0.png请添加图片描述

总结

这篇文章受到 diffusion 的启发,探索了这些模型在学习可转移的语义分割表示方面的有效性。发现将语义分割模型预训练为去噪自编码器可以显著提高语义分割性能,尤其是在带标记样本数量有限的情况下。基于这一发现,提出了一个两阶段的预训练方法,其中包括监督预训练的编码器和去噪预训练的解码器的组合。在不同大小的数据集上都表现出了性能提升,是一种很实用的预训练方法。

审核编辑:彭静
声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 解码器
    +关注

    关注

    9

    文章

    1203

    浏览量

    42872
  • 函数
    +关注

    关注

    3

    文章

    4406

    浏览量

    66843
  • 模型
    +关注

    关注

    1

    文章

    3649

    浏览量

    51715

原文标题:用于语义分割的解码器 diffusion 预训练方法

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏
加入交流群
微信小助手二维码

扫码添加小助手

加入工程师交流群

    评论

    相关推荐
    热点推荐

    神奇的数据有效性的使用

    数据有效性的使用
    发表于 06-24 16:59

    特征选择在减少预测推理时间方面的有效性展示

    。特征选择是大多数机器学习管道中的一个重要步骤,主要用于提高性能。当减少特征时,就是降低了模型的复杂,从而降低了训练和验证的时间。在这篇文章中,我们展示了特征选择在减少预测推理时间方面的
    发表于 09-07 14:46

    高斯混合模型对乳腺癌诊断的有效性初探

    计算机辅助医疗诊断是计算机应用的一个热门方向。本文旨在探讨基于EM 算法的高斯混合模型在乳腺癌诊断方面的有效性。通过与现在流行的BP 神经网络辅助医疗诊断方法的比较
    发表于 01-09 11:54 24次下载

    基于网络本体语言OWL表示模型语义的相似计算方法

    念属性特征为基础语义对象的结构化表示模型;然后,从OWL表示模型中提取用于评价两个模型相似
    发表于 12-17 10:33 0次下载
    基于网络本体语言OWL<b class='flag-5'>表示</b><b class='flag-5'>模型</b><b class='flag-5'>语义</b>的相似<b class='flag-5'>性</b>计算方法

    利用深度学习模型实现监督式语义分割

    最近进行语义分割的结构大多用的是卷积神经网络(CNN),它首先会给每个像素分配最初的类别标签。卷积层可以有效地捕捉图像的局部特征,同时将这样的图层分层嵌入,CNN尝试提取更宽广的结构。随着越来越多的卷积层捕捉到越来越复杂的图像特
    的头像 发表于 05-25 10:09 6710次阅读

    分析总结基于深度神经网络的图像语义分割方法

    语义分割和弱监督学习图像语义分割,对每种方法中代表算法的效果以及优缺点进行对比与分析,并阐述深
    发表于 03-19 14:14 21次下载
    分析总结基于深度神经网络的图像<b class='flag-5'>语义</b><b class='flag-5'>分割</b>方法

    基于语义耦合相关的判别式跨模态哈希特征表示学习算法

    特征表示语义判别,从而导致哈希码表示的类别区分不强,降低了最近邻搜索的准确和鲁棒
    发表于 03-31 11:28 12次下载
    基于<b class='flag-5'>语义</b>耦合相关的判别式跨模态哈希特征<b class='flag-5'>表示</b><b class='flag-5'>学习</b>算法

    基于深度神经网络的图像语义分割方法

    对应用于图像语义分割的几种深度神经网络模型进行简单介绍,接着详细阐述了现有主流的基于深度神经网络的图像语义分割方法,依据实现技术的区别对图像
    发表于 04-02 13:59 11次下载
    基于深度神经网络的图像<b class='flag-5'>语义</b><b class='flag-5'>分割</b>方法

    基于SEGNET模型的图像语义分割方法

    的多尺度语义信息更加丰富,从而提升对每个像素点的类别预测精度,在模型中加入生成对抗网络以充分考虑空间中相邻像素点间关系。实验结果表明,该模型语义
    发表于 05-27 14:54 15次下载

    语义分割模型 SegNeXt方法概述

    语义分割是对图像中的每个像素进行识别的一种算法,可以对图像进行像素级别的理解。作为计算机视觉中的基础任务之一,其不仅仅在学术界广受关注,也在无人驾驶、工业检测、辅助诊断等领域有着广泛的应用。
    的头像 发表于 09-27 15:27 4387次阅读

    普通视觉Transformer(ViT)用于语义分割的能力

    本文探讨了普通视觉Transformer(ViT)用于语义分割的能力,并提出了SegViT。以前基于ViT的分割网络通常从ViT的输出中学习像素级
    的头像 发表于 10-31 09:57 6158次阅读

    图像语义分割的概念与原理以及常用的方法

    (Graph partitioning segmentation methods),在深度学习(Deep learning, DL)“一统江湖”之前,图像语义分割方面的工作可谓“百花齐
    的头像 发表于 04-20 10:01 6722次阅读

    深度学习图像语义分割指标介绍

    深度学习在图像语义分割上已经取得了重大进展与明显的效果,产生了很多专注于图像语义分割模型与基准
    发表于 10-09 15:26 817次阅读
    深度<b class='flag-5'>学习</b>图像<b class='flag-5'>语义</b><b class='flag-5'>分割</b>指标介绍

    图像分割语义分割中的CNN模型综述

    图像分割语义分割是计算机视觉领域的重要任务,旨在将图像划分为多个具有特定语义含义的区域或对象。卷积神经网络(CNN)作为深度学习的一种核心
    的头像 发表于 07-09 11:51 2675次阅读

    图像语义分割的实用是什么

    图像语义分割是一种重要的计算机视觉任务,它旨在将图像中的每个像素分配到相应的语义类别中。这项技术在许多领域都有广泛的应用,如自动驾驶、医学图像分析、机器人导航等。 一、图像语义
    的头像 发表于 07-17 09:56 1248次阅读