一种基于毒性样本敏感性的有效后门防御！-电子发烧友网

香港中文大学（深圳）和清华大学联合完成的后门防御工作被NeurIPS 2022接收为Spotlight论文。基于投毒的后门攻击对由不可信来源数据所训练的模型构成了严重威胁。给定一个后门模型，我们观察到，相较于干净样本，毒性样本的特征表示对数据变换更加敏感。这启发我们设计了一个简单的敏感性度量——“针对数据变换的特征一致性(FCT)”，并基于FCT设计了一个样本区分模块，用以区分不可信训练集中的毒性样本和干净样本。此外，基于上述模块，我们提出了两种有效的后门防御方法，分别适用于不同的防御场景。第一种方法用于从头训练出一个安全模型(in-training defense)，涉及一个两阶段的安全训练模块。第二种方法用于移除后门模型中的后门(post-training defense)，包含一个交替遗忘毒性样本和重新学习干净样本的后门移除模块。在3个基准数据集和8种后门攻击上的实验结果表明了我们方法相较于SOTA防御方法的优越性能。

论文标题: Effective Backdoor Defense by Exploiting Sensitivity of Poisoned Samples

收录会议: NeurIPS 2022 (Spotlight)

论文链接: https://openreview.net/pdf?id=AsH-Tx2U0Ug

代码链接: https://github.com/SCLBD/Effective_backdoor_defense

1 问题背景

训练深度神经网络(DNNs)往往需要大量的训练数据，这些数据有时可能由不可信的第三方来源所提供。这些不可信的数据可能会对模型的训练带来严重的安全威胁。典型的威胁之一就是基于投毒的后门攻击，它可以通过投毒一小部分训练样本（即：给这部分样本的图像加上指定的触发器，并把它们的标签改为某个目标类别），来向模型中注入后门(即：在训练过程中，模型能够学到触发器和目标类别之间的映射)。一般地，一个后门模型可以很好地预测干净样本，并且能将任何带有触发器的毒性样本预测为目标类别。为了解决上述威胁，本文提出2个有效的后门防御方法，即使使用不可信来源的数据训练，我们仍能得到安全、干净的模型。

2 方法介绍

方法的总体框架如图所示：

2.1 样本区分模块

我们观察到，在后门模型的特征空间中，带有触发器的毒性样本总是会汇聚到一起，如下图的红色实心点所示。这表示，即使毒性样本包含着不同的物体，这些物体所代表的信息都被后门模型所忽略了。换句话说，毒性样本的特征表示由触发器所主导，而不是物体。因此，我们猜测：这样的主导作用来源于后门模型对触发器的过拟合，这是因为在不同的毒性样本中，触发器比物体具备更少多样性。

为了验证这一猜测，我们尝试对干净和毒性样本分别进行相同的数据变换，如旋转。我们观察到，毒性样本的特征表示不再汇聚到一起，而是移动到各自的ground-truth类别中，如下图的红+所示。这表示，触发器的主导作用消失了，我们也证实了上述的猜测。此外，我们发现，虽然干净样本的特征表示也受到数据变换的影响，但是相较于毒性样本，这些影响小得多。这些观察给了我们启发：我们可以利用特征表示对数据变换的敏感性来区分干净和毒性样本。

接下来，我们设计了一个度量——针对图像变换的特征一致性(FCT)，来描述这种敏感性。

如下图所示，我们发现，依据这个度量，干净与毒性样本的分布具有显著差异。其中，左图/右图对应被BadNets attack/Blend attack攻击后的数据集。

因此，基于FCT，我们可以建立一个样本区分模块(Sample-distinguishment module)。基本规则是选取FCT最大的一部分作为毒性样本，FCT最小的一部分作为干净样本。

2.2 安全训练模块

结合样本区分模块，我们设计了一个两阶段的安全训练模块two-stage secure training (ST) module，这2个模块共同组成防御方法D-ST，它适用于in-training defense的防御场景，即：给定一个毒性数据集，此方法可以从头训练出一个安全的（准确率高且不包含后门）的模型，且在整个训练过程中模型都不会被注入后门。

2.2.1 阶段一：用半监督对比学习(SS-CTL)来学习特征提取器

现有防御方法DBD使用对比学习(CTL)来学习特征提取器，在这一过程中，干净样本的标签所包含的有价值信息会流失。另一方面，研究表明，相较于CTL，有监督对比学习(S-CTL)可以学到表现更好的特征提取器。因此，考虑到样本区分模块可以鉴别干净样本，我们提出半监督对比学习(SS-CTL)来学习一个不包含后门的安全的特征提取器。SS-CTL的损失函数如下：

对于每个毒性样本和不确定样本，SS-CTL将促使它的2个数据增强版本靠近；对于每个干净样本，SS-CTL将促使所有同类干净样本的数据增强版本靠近。

2.2.1 阶段二：用混合交叉熵损失来学习分类器

给定训练好的安全特征提取器，我们设计了一个混合交叉熵函数来学习分类器，表示如下：

它能够从干净样本学习到正确映射的同时，防止后门注入分类器。

2.3 后门移除模块

结合样本区分模块，我们设计了一个后门移除模块backdoor removal (BR) module，这2个模块共同组成防御方法D-BR，它适用于post-training defense的防御场景，即给定一个毒性数据集，我们先使用标准监督训练得到一个准确率高且包含后门的模型，再利用此方法移除模型中的后门，从而得到一个安全的（准确率高且不包含后门）模型。特别地，后门移除模块本质上是一个交替学习算法，包含了2个交替的步骤，分别是遗忘与重新学习。

2.3.1 遗忘

这一步旨在通过遗忘从毒性样本中学到的知识来移除后门，损失函数如下：

2.3.3 重新学习

这一步旨在通过从干净样本中重新学习知识来维持模型的识别准确率，损失函数如下：

3 实验结果

3.1 D-ST的有效性

我们选取适用于安全训练防御范式的方法DBD来作为baseline。此外，我们设计2个baseline方法。Baseline1和baseline2分别用CTL和S-CTL来训练特征提取器，且都用标准交叉熵来训练分类器。表1表示我们的方法D-ST不仅能够得到较高的ACC，还能将平均ASR抑制为1.21%（在CIFAR-10数据集上，在CIFAR-100上则是0.05%）。

3.2 D-BR的有效性

我们选取5个适用于后门移除防御范式的SOTA方法来作为baselines。表2表示我们的方法D-BR不仅能够维持高ACC，还能将平均ASR由97.29%减小至0.31%(在CIFAR-10数据集上，在CIFAR-100上则是由99.77%减小至0.07%)。

3.3 其它实验

除了上述的主体实验以外，我们做了大量的实验来说明：（1）单个SD模块的有效性，（2）单个BR模块的有效性，（3）单个ST模块的有效性，（4）在不同数据变换类型下方法的表现，（5）在不同干净/毒性样本选择比例下方法的表现，（6）在不同投毒比例下方法的表现，（7）在不同模型结构及特征维度下方法的表现。更多的结果与分析请见原论文。

4 总结

在本文中，我们揭示了毒性样本对数据变换的敏感性，并提出了一个敏感性度量(FCT)。此外，我们提出了样本区分模块(SD module)，安全训练模块(ST module)和后门移除模块(BR module)3个模块，它们构成了2种适用于不同防御范式的后门防御方法(D-ST, D-BR)。大量的实验分别证明了每个模块与整体方法的有效性。

审核编辑：李倩

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉