中科大刘淇教授团队CVPR'2023作品 | 基于因果启发的后门攻击防御

简介: 中科大刘淇教授团队CVPR'2023作品 | 基于因果启发的后门攻击防御

640.png

Title: Backdoor Defense via Deconfounded Representation Learning

Paper: https://arxiv.org/pdf/2303.06818v1.pdf

Code: https://github.com/zaixizhang/CBD

导读

本文为大家介绍中国科学技术大学刘淇教授团队发表于CVPR'23上的一篇工作,作者通过另辟蹊径,从因果的角度出发,提出一种新颖的可以直接从污染数据集中学习到backdoor-free模型的方法CBD, 在降低攻击成功率和提升计算效率等方面优于已有的相关防御方法。此外,通过在多个基准数据集上进行的广泛实验,针对6种最先进的攻击方式验证了我们提出的CBD在减少后门威胁的同时,仍能在预测良性样本时保持高准确性。进一步的分析表明,CBD还可以抵抗潜在的自适应攻击。

动机

深度神经网络(DNNs)最近被发现容易受到后门攻击的影响。攻击者通过向训练数据集中注入一些有毒样本,嵌入隐藏的后门(backdoor)于DNN模型中。尽管研究者们已经做了大量的努力来检测和清除后门,但仍不清楚是否可以直接从污染数据集中直接训练得到一个无后门(backdoor-free)的干净模型。

在本文中,我们首先构建一个因果图来模拟污染数据的生成过程,并发现后门攻击作为混淆因子(Confounder),会在输入图像和目标标签(target label)之间带来虚假的关联,使模型的预测变得不可靠。在因果推理的启发下,我们提出了基于因果的后门防御(Causality-inspired Backdoor Defense),学习去除混淆因子的表征(Deconfounded representation),以实现可靠的分类。具体来说,我们故意训练一个后门模型来捕获混淆效应,另一个干净模型则致力于通过最小化与后门模型的混淆表征之间的互信息和采用逐个样本加权方案来学习因果关系。

方法

受因果推断的启发,我们首先构建因果图来分析基于污染的后门攻击。上图中(a)是后门攻击的示意图,(b)是构建的因果图。在因果图中,我们用节点表示抽象的数据变量( 表示输入图像, 表示标签, 表示后门攻击),有向边表示它们之间的关系。如图 (b) 所示,除了  对  的因果作用 () 外,后门攻击者还可以在图像上附加触发图案trigger () 并将标签更改为目标标签 ()。因此,作为  和  之间的一个混淆因素,后门攻击  打开了虚假路径  (令  表示图像被污染, 表示图像是干净的)。我们所谓的“虚假”指的是这条路径在从  到  的直接因果路径之外,使  和  出现虚假的相关性,并在触发模式被激活时产生错误的影响。深度神经网络很难区分虚假相关性和因果关系。因此,直接在可能被污染的数据集上训练深度神经网络存在被后门攻击的风险。

根据后门攻击更容易被学习到的特点,我们设计了两阶段的防御方法:我们故意训练一个后门模型来捕获后门攻击的虚假相关性,另一个干净模型则致力于学习因果关系。CBD的模型图如下所示:

首先,我们把 的训练目标通过互信息的形式表达出来:

其中前两项构成了信息瓶颈information bottleneck,使得可以尽量学习到简洁的表示。最后一项则是使得 和在嵌入空间中的表示区分开来(最小化互信息), 使得学习因果的关系。我们通过WGAN来近似计算最后一项。经过一些列化简和推导,我们得到最终的损失函数:

值得注意的是,我们使用加权的交叉熵损失函数来提升训练效果,权重是:

下面是CBD训练的伪代码,T1一般设置为5个epoch, 以区分backdoor和正常的因果关系:

实验

如上图所示,可以明显看出本文方法在多个数据集和6种常用的backdoor攻击下,都可以取得优越的防御效果。

总结

受因果推断视角的启发,本文提出了Causality-inspired Backdoor Defense, CBD来学习去混淆表示以进行可靠的分类。针对6种最先进的后门攻击进行的广泛实验,充分展示了CBD的有效性和鲁棒性。此外,该工作开辟了一个有趣的研究方向,即利用因果推断来分析和抵御机器学习中的后门攻击。未来可能的工作包括将CBD扩展到其他领域,包括图学习、联邦学习和自监督学习,欢迎大家follow

目录
相关文章
|
6月前
|
安全 网络安全 数据安全/隐私保护
CTF竞赛:一场网络安全技术的盛宴
CTF竞赛:一场网络安全技术的盛宴
194 0
|
7月前
|
人工智能
【SCI论文】“学术丑闻揭露:当AI写作遭遇学术审稿,ChatGPT意外成为论文共作者!“
最近,一篇发表在《Surfaces and Interfaces》的论文引起了广泛关注,因为其中意外包含了ChatGPT的提示语,暴露出学术审稿过程中的疏忽。这篇论文讨论了铜基金属-有机框架-芳香族纤维素分隔器对锂金属阳极电池的影响,但却出现了不该出现的ChatGPT对话内容。这一事件不仅令人哭笑不得,还引发了对学术审核严谨性的质疑。它反映了当前学术界可能过度依赖AI写作工具,忽略了基本的检查和编辑步骤。这一事件提醒学术界必须加强审查机制和自律,确保论文质量,防止类似尴尬情况的再次发生。
232 4
【SCI论文】“学术丑闻揭露:当AI写作遭遇学术审稿,ChatGPT意外成为论文共作者!“
|
监控 安全 中间件
CTF/AWD竞赛标准参考书+实战指南:《AWD特训营》
CTF/AWD竞赛标准参考书+实战指南:《AWD特训营》
|
定位技术
技术人修炼之道阅读笔记(六)解决对抗性思维方法
技术人修炼之道阅读笔记(六)解决对抗性思维方法
|
机器学习/深度学习 人工智能 算法
研究遭质疑,Jeff Dean回应:我们本就不是为得到新SOTA,成本计算也搞错了
研究遭质疑,Jeff Dean回应:我们本就不是为得到新SOTA,成本计算也搞错了
|
人工智能 自然语言处理 算法
prompt攻防战!哥伦比亚大学提出BPE造词法,可绕过审核机制,DALL-E 2已中招
prompt攻防战!哥伦比亚大学提出BPE造词法,可绕过审核机制,DALL-E 2已中招
164 0
|
机器学习/深度学习 自然语言处理 固态存储
抵御「目标检测」的对抗攻击!中山大学HCP实验室提出RobustDet,性能直升17%|ECCV2022 Oral
抵御「目标检测」的对抗攻击!中山大学HCP实验室提出RobustDet,性能直升17%|ECCV2022 Oral
368 0
|
安全 数据处理 数据库
Paper:2020.02.09钟南山团队首篇新冠病毒论文《Clinical characteristics of 2019 novel coronavirus infection in China》
Paper:2020.02.09钟南山团队首篇新冠病毒论文《Clinical characteristics of 2019 novel coronavirus infection in China》
Paper:2020.02.09钟南山团队首篇新冠病毒论文《Clinical characteristics of 2019 novel coronavirus infection in China》
|
传感器 安全 智能硬件
黑客能入侵你的梦境了!MIT梦境实验室开发出现实版“盗梦空间”
人的一生中有三分之一的时间都在睡觉和做梦,如果梦可以被入侵、被改变,你愿不愿意尝试?MIT的梦境实验室就在破解梦,他们已经开发出新设备,可以通过声音和气味改变梦境。
274 0
黑客能入侵你的梦境了!MIT梦境实验室开发出现实版“盗梦空间”