Title: Backdoor Defense via Deconfounded Representation Learning
导读
本文为大家介绍中国科学技术大学刘淇教授团队发表于CVPR'23
上的一篇工作,作者通过另辟蹊径,从因果的角度出发,提出一种新颖的可以直接从污染数据集中学习到backdoor-free
模型的方法CBD
, 在降低攻击成功率和提升计算效率等方面优于已有的相关防御方法。此外,通过在多个基准数据集上进行的广泛实验,针对6种最先进的攻击方式验证了我们提出的CBD
在减少后门威胁的同时,仍能在预测良性样本时保持高准确性。进一步的分析表明,CBD
还可以抵抗潜在的自适应攻击。
动机
深度神经网络(DNNs
)最近被发现容易受到后门攻击的影响。攻击者通过向训练数据集中注入一些有毒样本,嵌入隐藏的后门(backdoor
)于DNN模型中。尽管研究者们已经做了大量的努力来检测和清除后门,但仍不清楚是否可以直接从污染数据集中直接训练得到一个无后门(backdoor-free
)的干净模型。
在本文中,我们首先构建一个因果图来模拟污染数据的生成过程,并发现后门攻击作为混淆因子(Confounder
),会在输入图像和目标标签(target label
)之间带来虚假的关联,使模型的预测变得不可靠。在因果推理的启发下,我们提出了基于因果的后门防御(Causality-inspired Backdoor Defense
),学习去除混淆因子的表征(Deconfounded representation
),以实现可靠的分类。具体来说,我们故意训练一个后门模型来捕获混淆效应,另一个干净模型则致力于通过最小化与后门模型的混淆表征之间的互信息和采用逐个样本加权方案来学习因果关系。
方法
受因果推断的启发,我们首先构建因果图来分析基于污染的后门攻击。上图中(a)是后门攻击的示意图,(b)是构建的因果图。在因果图中,我们用节点表示抽象的数据变量( 表示输入图像, 表示标签, 表示后门攻击),有向边表示它们之间的关系。如图 (b) 所示,除了 对 的因果作用 () 外,后门攻击者还可以在图像上附加触发图案trigger () 并将标签更改为目标标签 ()。因此,作为 和 之间的一个混淆因素,后门攻击 打开了虚假路径 (令 表示图像被污染, 表示图像是干净的)。我们所谓的“虚假”指的是这条路径在从 到 的直接因果路径之外,使 和 出现虚假的相关性,并在触发模式被激活时产生错误的影响。深度神经网络很难区分虚假相关性和因果关系。因此,直接在可能被污染的数据集上训练深度神经网络存在被后门攻击的风险。
根据后门攻击更容易被学习到的特点,我们设计了两阶段的防御方法:我们故意训练一个后门模型来捕获后门攻击的虚假相关性,另一个干净模型则致力于学习因果关系。CBD的模型图如下所示:
首先,我们把 的训练目标通过互信息的形式表达出来:
其中前两项构成了信息瓶颈information bottleneck,使得可以尽量学习到简洁的表示。最后一项则是使得 和在嵌入空间中的表示区分开来(最小化互信息), 使得学习因果的关系。我们通过WGAN来近似计算最后一项。经过一些列化简和推导,我们得到最终的损失函数:
值得注意的是,我们使用加权的交叉熵损失函数来提升训练效果,权重是:
下面是CBD训练的伪代码,T1一般设置为5个epoch, 以区分backdoor和正常的因果关系:
实验
如上图所示,可以明显看出本文方法在多个数据集和6种常用的backdoor攻击下,都可以取得优越的防御效果。
总结
受因果推断视角的启发,本文提出了Causality-inspired Backdoor Defense, CBD
来学习去混淆表示以进行可靠的分类。针对6种最先进的后门攻击进行的广泛实验,充分展示了CBD
的有效性和鲁棒性。此外,该工作开辟了一个有趣的研究方向,即利用因果推断来分析和抵御机器学习中的后门攻击。未来可能的工作包括将CBD扩展到其他领域,包括图学习、联邦学习和自监督学习,欢迎大家follow
。