顶刊TIP 2023！浙大提出：基于全频域通道选择的的无监督异常检测-电子发烧友网

1.导语

近年来，无监督异常检测任务逐渐受到大家关注，其中基于密度和分类的方法在无监督异常检测中占据主导地位，而基于重构的方法由于重构能力差、性能不高而很少被提及，但后者不需要额外花费大量的训练样本进行无监督训练，具有更大的实用价值。本文着重改进基于重构的方法，从频率的角度处理感知异常检测任务（sensory anomaly detection），提出了一种新的全频率通道选择重构网络（Omni-frequency Channel-selection Reconstruction，OCR-GAN）。实验结果证明了提出方法的有效性和优越性，例如，在没有额外训练数据的情况下（不使用预训练模型或者其他数据集，即模型train from scratch），在MVTec AD数据集上实现了新的最先进的98.3检测AUC，显著地比基于重建的基线高+38.1↑，比SOTA高 +0.3↑。

2.背景介绍

异常检测是视觉图像理解中的一项重要的二分类任务，用于区分给定图像是否偏离预定义的正常分布，在现实世界中有各种应用，例如新颖性检测、工业产品质量监控、缺陷修复等。现实应用中，异常检测任务可以分为感知异常检测（Sensory Anomaly Detection，见图1左图）和语义异常检测（Semantic Anomaly Detection，见图1右图）两大类，前者只存在协变量偏差而不存在语义偏差（常用MVTec AD[1]、DAGM[2]、KolektorSDD[3]等数据集），而后者则相反（常用CIFAR-10[4]数据集）。

图1感知AD和语义AD任务图解

异常检测任务中获取异常样本耗时且成本较高，这驱动我们开展更实用的无监督AD方法研究。目前的无监督异常检测方法主要分为三类，如图2所示。

1）Density-based方法：基于密度的方法通常采用预训练的模型来提取输入图像的有意义嵌入向量，测试图像时通过计算嵌入表示与参考表示分布之间的相似度以得到异常分数。这种方法在MVTec AD等数据集上取得了较高的指标分数，但需要预训练模型加持且可解释性不足。

2）Classification-based方法：基于分类的方法试图找到正常/异常数据的分类边界，一般使用代理任务训练的模型来检测异常，因此该类方法依赖于代理任务与测试数据的匹配程度，且需要预训练模型和额外的训练数据。

3）Reconstruction-based方法：基于重构的方法包含一个用于重构输入图像的生成器结构，异常分数可解释为重构误差。这类方法不需要预训练的模型和额外的训练数据，但目前该类方法相较于其他方法表达能力略有差距。

本文重点研究基于重构的方法，期望增强生成器的重构能力以提升模型的异常检测能力。

图2无监督异常检测方法pipeline对比对于一幅图像，不同的频段包含不同类型的信息，例如低频代表更多的语义信息，高频代表更详细的纹理信息。在此思想的推动下，我们发现异常检测任务中正常和异常图像的频率分布存在明显差异，如图3所示。

图3 MVTec AD数据集中正常和异常样本的能量随频率的分布，阴影表示标准差

基于此，我们认为仅使用一个生成器来学习RGB图像的全频率重建是困难且不合适的，因此提出了一种利用多频分支分别重构不同频带信息的异常检测框架，并设计了合适的结构以提升模型的异常检测效果，相较于对比方法取得了最SOTA结果，如图4所示。

图4不同方法AUROC检测结果对比图

具体地，本文有如下几点贡献：

1）从频域的角度重新思考了正常和异常图像的区别，提出了一种全频率通道选择重构网络（Omni-frequency Channel-selection Reconstruction，OCR-GAN）。

2）提出了频率解耦（Frequency Decoupling，FD）模块来获取图像的不同频带信息，实现多分支的全频重建。

3）提出了通道选择（Channel Selection，CS）模块来实现多支路之间的全频率交互和不同信道特征的自适应选择。

4）大量的实验证明了提出方法的优越性，例如，我们在没有额外训练数据的MVTec AD数据集上实现了新的SOTA 98.3检测AUROC，相较于没有额外训练数据的基于重构方法获得了+18.3↑提升，同时相较于SOTA方法获得了+0.3↑提升。

3.方法介绍

3.1 总览我们的方法包含多个生成器对不同频率图像进行重建，同时与鉴别器D交替训练以进一步提高模型性能。具体来说，我们提出了一个有效的频率解耦模块（FD）来解耦输入图像到全频图像，以及一个通道选择模块（CS）在多个频率编码器之间通过自适应通道选择的方式进行特征交互。模型完成训练后的推理阶段，重构图像与原图像的重构误差作为图像的异常得分。

图5OCR-GAN方法示意图

3.2 频率解耦模块

图像中不同的频段包含不同类型的信息，例如低频代表更多的语义信息，高频代表更详细的纹理信息。该模块用来将原始图像分解为多个频段图像，以获得信息更丰富的全频段显性表达，具体包含如下3个过程：

1）将原始图像与5x5高斯核进行卷积，获得下采样图像

2）通过多次上下采样操作得到一组模糊图像

3）模糊图像按照处理深度不同程度地丢失了一些高频信息，进一步计算相邻图像之间的差值得到全频域图像。图5显示了多个不同频域分量的定性表示结果。

3.3 通道选择模块

在只有FD模块的异常检测框架中，多频率分支相对独立，这违背了不同频率相辅相成的客观事实。为此，我们设计了一种新颖的通道选择模块，实现了多支路间的频域交互和不同通道特征的自适应选择。图6（a）展示了双频率下CS模块的微观详细结构，即只包含低频和高频特征，但其可以很容易地扩展到多分支。图6（b）展示了CS模块与频率编码器之间的宏观交互方式。

图6 （a）CS模块示意图；（b）CS模块与多频编码器交互方式

4.实验结果

4.1 定量对比

本文与主流的异常检测方法（AGAN[5]、AE[6]、Skip-GANomaly[7]、GradCon[8]、Puzzle-AE[9]、DGAD[10]、DRAEM[11]、DifferNet[12]、CutPaste[13]、InTra[14]）在多个数据集上进行定量对比实验。如表1/2/3/4所示，提出的OCR-GAN在MVTec AD上获得了98.3 AUROC结果，且在全部数据集上都获取了SOTA结果，相较于对比方法取得了明显优势。

表1MVTecAD结果对比表

表2 DAGM结果对比表

表3KolektorSDD结果对比表

表4 CIFAR-10结果对比表

4.2 定性对比

图7展示了不同重建方法的定性对比，可以看到本文提出的方法对输入图像的正常区域具有很好的重建结果，对于异常区域具有明显的区分性，证明了OCR-GAN的有效性。

图7 不同方法的重建结果对比

4.3 解释性实验及剥离实验

1）图8展示了不同模块对异常得分分布影响，可以看到，在基线直方图中，正常样本和异常样本无法通过异常得分进行有效区分。逐步增加FD和CS模块后，模型的区分能力得到了提高，表明每个模块对方法结果都有贡献。

图8不同模块组合下的异常得分分布图

2）我们将每个测试样本的潜在空间特征从D的最后一个卷积层映射到一个二维子空间。如图9显示，正常和异常样本在潜在空间中具有较强的聚类效应，且具有明显的区分性。

图9 正常/异常样本t-SNE分布图

3）表5展示了频率分支对于模型结果影响。结果表明，仅使用高频信息比使用低频信息效果更好，这意味着异常区域包含更多的高频信息。然而，由于缺乏不同频率支路之间的信息交互，单独使用双频支路效果有限，而设计的CS模块可以很好地处理该问题，进一步提高了模型的性能。

表5 频率分支数量剥离实验结果

5.总结与展望

本文从频域的角度提出了一种基于重构的OCR-GAN异常检测方法。具体来说，我们提出了FD模块将输入图像解耦到不同的频率空间，并将图像重建过程建模为并行的全频率图像恢复的组合。为了更好地实现不同编码器之间的频率交互，我们提出了一种定制的CS模块，其可以自适应地在多个支路之间选择不同的信道以增强每一个频域的特征。我们的方法在没有额外训练数据的情况下，在Sensory AD和Semantic AD任务上相较于同时代方法具有明显的优势。未来，我们将进一步探索AD任务中轻量化模型的设计，同时构建更具有挑战性的实际应用数据集。

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉