0
  • 聊天消息
  • 系统消息
  • 评论与回复
登录后你可以
  • 下载海量资料
  • 学习在线课程
  • 观看技术视频
  • 写文章/发帖/加入社区
创作中心

完善资料让更多小伙伴认识你,还能领取20积分哦,立即完善>

3天内不再提示

CVPR 2023 中的领域适应: 一种免反向传播的TTA语义分割方法

jf_pmFSk4VX 来源:GiantPandaCV 2023-06-30 15:13 次阅读

前言

我们已经介绍过两篇关于 TTA 的工作,可以在 GiantPandaCV 公众号中找到,分别是:

Continual Test-Time 的领域适应

CVPR 2023 中的领域适应: 通过自蒸馏正则化实现内存高效的 CoTTA

推荐对领域适应不了解的同学先阅读前置文章。目前的 TTA 方法针对反向传播的方式可以大致划分为:

7a9f5ae0-16ef-11ee-962d-dac502259ad0.png

请添加图片描述

之前介绍过的 CoTTA 可以属于 Fully Backward,EcoTTA 划分为 Partial Backward 中的 Meta Network 类别,这次要介绍的方法属于 Backward-Free 中的 BN-Based 和 Prototype-Based 的混合。

下图是一些 TTA 语义分割方式的比较,在(a)中是最朴素的重新做反向传播优化目标域模型梯度的方法,效率低,存在误差积累,且会导致长期遗忘。

(b)是直接用每个实例的统计数据替代源统计数据(通过修改 Instance Normalization),但由于丢弃了基本的源知识,因此对目标变化非常敏感,导致不稳定。

(c)研究了通过实例统计数据以固定动量或动态波动动量更新历史统计数据的影响(相当于(b)的集群),然而,这种方法也容易受到误差积累的影响。

(d)表示这篇工作提出的方法,主要思想是以非参数化的方式利用每个实例来动态地进行自适应,这种方法既高效又能在很大程度上避免误差积累问题。


具体来说,计算 BN 层中源统计数据和当前统计数据的加权和,以适应目标分布,从而使模型获得更健壮的表示,还通过将历史原型与实例级原型混合构建动态非参数分类头。

7acd720e-16ef-11ee-962d-dac502259ad0.png

下面看下具体实现。

DIGA 概述

TTA 在语义分割中的应用,效率和性能都至关重要。现有方法要么效率低(例如,需要反向传播的优化),要么忽略语义适应(例如,分布对齐)。此外,还会受到不稳定优化和异常分布引起的误差积累的困扰。为了解决这些问题,这篇工作提出了不需反向传播优化的 TTA 语义分割方法,被叫做称为动态实例引导自适应(DynamicallyInstance-Guided Adaptation, DIGA)。DIGA 的原则是以非参数化的方式利用每个实例动态引导其自身的适应,从而避免了误差累积问题和昂贵的优化成本(内存)。具体而言,DIGA 由分布适应模块(DAM)和语义适应模块(SAM)组成。DAM 将实例和源 BN 层统计信息混合在一起,以鼓励模型捕获不变的表示。SAM 将历史原型与实例级原型结合起来调整语义预测,这可以与参数化分类头相关联。具体细节在后文介绍。

DAM 和 SAM 两者都由实例感知信息引导。如下图所示,给定一个测试样本,首先将其输入到源预训练模型中,并通过 DAM 在每个 BN 层进行分布对齐。分布对齐是通过加权求和源统计和实例统计来实现的。之后,通过 SAM 在最后的特征层级上进行语义适应,通过加权混合历史原型和实例感知原型来构建一个动态非参数化分类头。这使我们能够调整语义预测。最后,我们利用原始参数化分类头和动态非参数化分类头之间的相互优势获得最终的预测结果。

7b549f68-16ef-11ee-962d-dac502259ad0.png

请添加图片描述

Distribution Adaptation Module (DAM)

调整分布可以提高跨域测试性能,由于训练数据有限和反向传播成本高,最常见的方法是对抗训练和分布差距最小化,但是不适合 TTA 任务。通常 BN 层中各域之间的静态不匹配是跨域测试性能下降的主要原因。BN 层是使用可训练参数 gamma 和 beta 进行缩放和移动。对于每个 BN 层,给定输入特征表示 F,相应的输出由以下公式给出:

E[F] 和 Var[F] 分别代表输入特征 F 的期望值和方差。在实践中,由于批次训练过程,它们的值通过 running mean 在训练期间计算:

所以,有一种方法源域的 running mean 的最后一个值被冻结,用作测试阶段测试数据的预期值和方差的估计。但是,源统计信息仍会严重影响性能。还有一种方法提出了一种动态学习模块,将 BN 层的统计信息 γ、β 调整为目标域(更新 γ、β)。尽管该方法具有高效性,但其性能仍然不理想。可能的原因之一是模型更新速率通常较小,并且在每个实例评估过程中没有充分考虑实例级别的信息。

所以 DAM 考虑到了利用实例级别的信息。DAM 不是直接更新 γ、β,而是通过动态地合并(加权求和)源统计信息和实例级别的 BN 统计信息来计算 E[F] 和 Var[F] 的估计值。

其中, 和 是在测试期间使用第 t 个实例计算的均值和方差。

Semantic Adaptation Module (SAM)

DAM 是与类别无关的,如上所述,因为它仅在全局上对特征图的分布进行调整。然而,对于分割自适应任务来说,类别特定性也很重要,因为即使在同一张图像中,每个类别的分布也会有很大变化。为了解决这一点,之前的工作提出了两种直观的方法,熵最大化和伪标签。然而,它们都需要基于梯度的反向传播,因此限制了测试效率,和我们的思路背道而驰。受少样本学习和域自适应中基于原型的方法(Prototype-Based)的启发,引入了用于类别特定自适应的 SAM。具体做法,总结有如下几步,我们用通俗的话解释下,至于论文中的公式,也会贴上。

计算 Instance-aware prototypes:

根据输入图像中每个类别的像素,计算其在特征空间中的中心点(prototypes),称为实例感知原型。这些原型表示了每个类别的特征分布。

通过对不同实例的原型进行平均计算,得到历史原型。历史原型是在大量目标实例上计算得到的,具有较高的稳定性。

Ensemble historical prototypes:

将历史原型与实例感知原型进行集成,以进一步提高分类的准确性和稳定性。

Cal prototype-based classification result:

使用计算得到的实例感知原型和历史原型,通过比较输入像素与原型之间的相似度,进行分类预测。这种基于原型的分类方法可以更好地适应不同类别的变化。

Classifier Association

SAM 本质上是 prototype-based classification。在最后的部分,可以得到两种类型的预测:一种来自原始的参数化分类器(pˆ),另一种来自引入的非参数原型分类器(p ̃)。为了利用它们之间的互补性,DIGA 还是通过加权求和来获得最终的预测结果,表示为:

实验

在实验的部分,我们更关心的是这些组合的有效性。下表是对 DAM 和 SAM 的消融实验,最后一行表示分类器关联。对于 BN 分支和语义分支,都分别比较出最佳和次佳。

7b87a53e-16ef-11ee-962d-dac502259ad0.png

和直接使用源域模型、其他的 SOTA TTA 方法的可视化比较如下,可以发现在 cityscapes 上的优化效果是最明显的。

7ba0fe08-16ef-11ee-962d-dac502259ad0.png

在这里插入图片描述

总结

这篇工作提出了一种名为动态实例引导适应(DIGA)的方法来解决 TTA 语义分割问题,该方法兼备高效性和有效性。DIGA 包括两个适应性模块,即分布适应模块(DAM)和语义适应模块(SAM),两者均以非参数方式受实例感知信息引导。此外,这是第三篇关于 TTA 的论文解读了,后面出现有趣的工作还会继续这个系列的。

声明:本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人,不代表电子发烧友网立场。文章及其配图仅供工程师学习之用,如有内容侵权或者其他违规问题,请联系本站处理。 举报投诉
  • 模块
    +关注

    关注

    7

    文章

    2484

    浏览量

    46530
  • DAM
    DAM
    +关注

    关注

    0

    文章

    8

    浏览量

    9458

原文标题:CVPR 2023 中的领域适应: 一种免反向传播的 TTA 语义分割方法

文章出处:【微信号:GiantPandaCV,微信公众号:GiantPandaCV】欢迎添加关注!文章转载请注明出处。

收藏 人收藏

    评论

    相关推荐

    一种新的粘连字符图像分割方法

    一种新的粘连字符图像分割方法针对监控画面采样图像数字的自动识别问题,提出一种新的粘连字符图像分割
    发表于 09-19 09:19

    一种基于路测数据的传播模型校正方法

    准确性等问题,提出了一种利用现网路测数据进行传播模型校正的方法.从理论上证明了路测信号可以替代连续波测试信号用于传播模型校正,通过增加路测次数和利用历史数据、邻区数据等
    发表于 04-23 11:52

    目标检测和图像语义分割领域性能评价指标

    目标检测和图像语义分割领域的性能评价指标
    发表于 05-13 09:57

    一种分割后分类的两阶段同步端到端缺陷检测方法

    作者:SFXiang首发:AI算法修炼营本文是一种端到端的先分割后分类的表面缺陷检测方法。主要的创新点在于如何将两类任务更好地进行同步学习,本文首先平衡分割损失和分类损失,然后对负样本
    发表于 07-24 11:01

    一种基于机器学习的建筑物分割掩模自动正则化和多边形化方法

    摘要我们提出了一种基于机器学习的建筑物分割掩模自动正则化和多边形化方法。以图像为输入,首先使用通用完全卷积网络( FCN )预测建筑物分割图,然后使用生成对抗网络( GAN )对建筑物
    发表于 09-01 07:19

    一种带验证的自适应镜头分割算法

    :文中针对镜头分割在基于内容的视频检索中的重要性,首先介绍了普通的镜头分割方法,进而针对这些方法的不足,提出了一种带检测的自
    发表于 12-16 12:25 21次下载

    一种自动生成反向传播方程的方法

    为此,我们提出一种领域特定语言(domain specific language),以将这些数学公式描述为原始函数列表,并使用一种基于进化(evolution-based)的方法来发现
    的头像 发表于 08-14 09:55 3588次阅读
    <b class='flag-5'>一种</b>自动生成<b class='flag-5'>反向</b><b class='flag-5'>传播</b>方程的<b class='flag-5'>方法</b>

    分析总结基于深度神经网络的图像语义分割方法

    随着深度学习技术的快速发展及其在语义分割领域的广泛应用,语义分割效果得到显著提升。对基于深度神经网络的图像
    发表于 03-19 14:14 21次下载
    分析总结基于深度神经网络的图像<b class='flag-5'>语义</b><b class='flag-5'>分割</b><b class='flag-5'>方法</b>

    基于深度学习的三维点云语义分割研究分析

    近年来,深度传感器和三维激光扫描仪的普及推动了三维点云处理方法的快速发展。点云语义分割作为理解三维场景的关键步骤,受到了研究者的广泛关注。随着深度学习的迅速发展并广泛应用到三维语义
    发表于 04-01 14:48 16次下载
    基于深度学习的三维点云<b class='flag-5'>语义</b><b class='flag-5'>分割</b>研究分析

    基于深度神经网络的图像语义分割方法

    对应用于图像语义分割的几种深度神经网络模型进行简单介绍,接着详细阐述了现有主流的基于深度神经网络的图像语义分割方法,依据实现技术的区别对图像
    发表于 04-02 13:59 11次下载
    基于深度神经网络的图像<b class='flag-5'>语义</b><b class='flag-5'>分割</b><b class='flag-5'>方法</b>

    基于密集层和注意力机制的快速场景语义分割方法

    针对传统语义分割网络速度慢、精度低的问题,提出一种基于密集层和注意力机制的快速场景语义分割方法
    发表于 05-24 15:48 6次下载

    图像语义分割的概念与原理以及常用的方法

    从最简单的像素级别“阈值法”(Thresholding methods)、基于像素聚类的分割方法(Clustering-based segmentation methods)到“图划分”的分割
    的头像 发表于 04-20 10:01 2369次阅读

    语义分割数据集:从理论到实践

    语义分割是计算机视觉领域中的一个重要问题,它的目标是将图像或视频中的语义信息(如人、物、场景等)从背景中分离出来,以便于进行目标检测、识别和分类等任务。
    的头像 发表于 04-23 16:45 530次阅读

    一种反向传播TTA 语义分割方法

    自蒸馏正则化实现内存高效的 CoTTA 推荐对领域适应不了解的同学先阅读前置文章。目前的 TTA 方法针对反向
    的头像 发表于 06-30 15:10 344次阅读
    <b class='flag-5'>一种</b>免<b class='flag-5'>反向</b><b class='flag-5'>传播</b>的 <b class='flag-5'>TTA</b> <b class='flag-5'>语义</b><b class='flag-5'>分割</b><b class='flag-5'>方法</b>

    CVPR 2023 | 华科&amp;MSRA新作:基于CLIP的轻量级开放词汇语义分割架构

    本文提出了 SAN 框架,用于开放词汇语义分割。该框架成功地利用了冻结的 CLIP 模型的特征以及端到端的流程,并最大化地采用冻结的 CLIP 模型。 简介 本文介绍了一种名为Side
    的头像 发表于 07-10 10:05 590次阅读
    <b class='flag-5'>CVPR</b> <b class='flag-5'>2023</b> | 华科&amp;MSRA新作:基于CLIP的轻量级开放词汇<b class='flag-5'>语义</b><b class='flag-5'>分割</b>架构