ODS：输出多样化采样，有效增强白盒和黑盒攻击的性能

ODS：输出多样化采样，有效增强白盒和黑盒攻击的性能 | NeurIPS 2020

2021-12-22 418

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： ODS：输出多样化采样，有效增强白盒和黑盒攻击的性能 | NeurIPS 2020

【简介】

本文提出了一种新的采样策略——输出多样化采样，替代对抗攻击方法中常用的随机采样，使得目标模型的输出尽可能多样化，以此提高白盒攻击和黑盒攻击的有效性。实验表明，该种采样策略可以显著提升对抗攻击方法的性能。

论文地址：

https://arxiv.org/abs/2003.06878

论文代码：

https://github.com/ermongroup/ODS

【引言】

神经网络在图像分类任务上取得了很大的成功，但是它们却很容易被对抗样本攻击——人眼不可察的微小扰动就能让其分类错误。因此，设计强有力的攻击方法对评估模型的鲁棒性和防御能力至关重要。目前大部分攻击方法都要依赖于随机采样，也就是给输入图片加入随机噪声。在白盒攻击中，随机采样被用于寻找对抗样本的初始化过程；在黑盒攻击中，随机采样被用来探索生成对抗样本的更新方向。在这些攻击中，都是在模型的输入空间（像素空间）进行随机采样以实现尽可能大的多样性，从而提高对抗的成功率。但是对于复杂的非线性深度神经网络模型，输入空间样本的多样性并不能代表输出空间样本结果的多样性，如下图左侧所示，黑色实心点表示原始输入样本，黑色空心圆圈表示采样得到的扰动，蓝色虚线箭头表示随机采样，我们可以看到，当把随机扰动添加到原始样本上，在输出空间，其对应的输出值距离原始样本的输出值非常接近，也就是说输入空间随机采样的多样性并不能直接导致输出空间结果的多样性。因此，本文作者提出一种新的采样策略——输出多样化采样（ODS），目的在于让样本的输出尽可能多样化。如下图左侧红色实线箭头所示，输入空间的采样结果，映射到输出空间，也能具有很大的多样性。而下图右侧类似，只不过是应用到黑盒攻击中，通过让代理模型的输出尽可能多样化来实现目标模型（被攻击的模型）输出的多样化。

【模型介绍】

1、输出多样化采样（ODS）

2、利用ODS增强白盒攻击

在白盒攻击中，我们利用ODS来初始化寻找对抗样本的优化过程（被称为ODI）的起始点，具体公式为：

3、利用ODS增强黑盒攻击

具体算法流程如下表所示：

对于原始输入图片，在黑盒攻击生成对抗样本的优化过程中，每次迭代都朝着的方向，从而让模型的输出尽可能多样化。

【实验结果】

1、白盒攻击实验

在这里，针对两种经典的白盒攻击方法PGD攻击和 C&W攻击，作者比较了利用ODI初始化和普通的随机初始化（naive）的对抗攻击性能，如下表所示。

我们可以看到，在两种攻击方法PGD和C&W中，采用ODI策略的方法比普通的随机采样在多个模型上都能取得更低的准确率，也就是具有更强的攻击效力。此外，相比于基于MNIST数据集训练的模型，ODI方法在基于CIFAR-10和ImageNet数据集训练的模型上显示出了更大的优势（ODI的结果和naïve的结果差距更大）。作者猜测这可能是受到模型非线性程度的影响。由于基于CIFAR-10和ImageNet的模型具有更强的非线性，因此输入空间和输出空间两者的多样性之间的差距更大，而ODI由于使得样本输出足够多样化，故而有效增强了对抗攻击的性能。

作者进一步比较了结合ODI策略的PGD攻击方法（ODI-PGD）与其他对抗攻击方法的性能，如下表所示：