本文结合三篇最新的论文具体讨论计算机视觉领域中的物理攻击及检测方法,包括视觉领域和音频领域。
0、引言
对抗性攻击的概念首先由 Goodfellow 等人提出 [6],近年来,这一问题引起了越来越多研究人员的关注,对抗性攻击的方法也逐渐从算法领域进入到物理世界,出现了物理对抗性攻击。文献[1] 中首次提出了利用掩模方法将对抗性扰动集中到一个小区域,并对带有涂鸦的真实交通标志实施物理攻击。与基于噪声的对抗性攻击相比,物理攻击降低了攻击难度,进一步损害了深度学习技术的实用性和可靠性。
我们都知道,深度学习系统在计算机视觉、语音等多媒体任务上都取得了非常好的效果,在一些应用场景中甚至获得了可以与人类相媲美的性能。基于这些成功的研究基础,越来越多的深度学习系统被应用于汽车、无人机和机器人等物理系统的控制。但是,随着物理攻击方法的出现,这些对视觉、语音等多媒体信息输入进行的篡改会导致系统出现错误行为,进而造成严重的后果。本文重点关注的就是针对多媒体领域的深度学习系统的物理攻击问题。
以 [1] 中给出的针对视觉领域的攻击为例,通过向输入数据注入特定的扰动,对抗性攻击可以误导深度学习系统的识别结果。通过物理攻击性方法,对抗性扰动可以集中到一个小区域并附着在真实物体上,这很容易威胁到物理世界中的深度学习识别系统。图 1 给出一个应对物理攻击的实际案例。图 1 中左图显示了一个关于交通标志检测的物理对抗样本。当在原始停车标志上附加一个对抗补丁时,交通标志检测系统将被误导输出限速标志的错误识别结果。图 1 右图展示了交通标志对抗性攻击的自我验证过程。对于每张输入图像,经过一次 CNN 推理后,验证阶段将定位重要的激活源(绿圈),并根据预测结果计算出输入语义与预期语义模式的不一致性(右圈)。一旦不一致性超过预定的阈值,CNN 将进行数据恢复过程以恢复输入图像。关于这一过程,我们会在后面详细解释。
图 1. 交通标志的物理对抗性攻击[2]
图 2 给出一个典型的音频识别过程和相应的物理对抗性攻击。首先,提取音频波形的梅尔倒谱系数 MeI-Freguency CeptraI Coefficients (MFCC) 特征。然后利用 CNN 来实现声学特征识别,从而获得候选音素。最后,应用词库和语言模型得到识别结果 "open"。将对抗性噪声注入到原始输入波形中时,最终的识别结果会被误导为 "close"。
图 2. 音频识别和物理对抗性攻击过程
我们在这篇文章中结合三篇最新的论文具体讨论计算机视觉领域中的物理攻击及检测方法,包括视觉领域和音频领域。首先,我们介绍 Kevin Eykholt 等在 CVPR 2018 上发表的关于生成鲁棒物理攻击的工作,其主要目的是生成对观察摄像机的距离和角度的巨大变化具有很强的适应性的物理扰动攻击。然后,第二篇论文提出了一个针对图像和音频识别应用的物理对抗性攻击的 CNN 防御方法。最后,第三篇文章聚焦于图像的局部物理攻击问题,即将对手区域限制在图像的一小部分,例如 “对手补丁” 攻击:
- Robust Physical-World Attacks on Deep Learning Visual Classification,CVPR 2018
- LanCe: A Comprehensive and Lightweight CNN Defense Methodology against Physical Adversarial Attacks on Embedded Multimedia Applications,ASP-DAC 2020
- Chou E , F Tramèr, Pellegrino G . SentiNet: Detecting Physical Attacks Against Deep Learning Systems. PrePrint 2020. https://arxiv.org/abs/1812.00292
1、针对深度学习视觉分类任务的鲁棒物理攻击[1]
这篇文章重点关注的是如何对计算机视觉任务的深度学习方法进行鲁棒的物理攻击,是从攻击角度进行的分析。作者具体选择了道路标志分类作为目标研究领域。
生成鲁棒的物理攻击所面临的的主要挑战是环境变异性。对于本文选择的应用领域,动态环境变化具体是指观察摄像机的距离和角度。此外,生成物理攻击还存在其他实用性的挑战:(1) 数字世界的扰动幅度可能非常小,由于传感器的不完善,相机很可能无法感知它们。(2)构建能够修改背景的鲁棒性攻击是非常困难的,因为真实的物体取决于视角的不同可以有不同的背景。(3)具体制造攻击的过程(如扰动的打印)是不完善的。在上述挑战的启发下,本文提出了 Robust Physical Perturbations(RP2)--- 一种可以产生对观察摄像机的广泛变化的距离和角度鲁棒的扰动方法。本文目标是从攻击角度进行研究,探讨是否能够针对现实世界中的物体创建强大的物理扰动,使得即使是在一系列不同的物理条件下拍摄的图像,也会误导分类器做出错误的预测。
1.1 物理世界的挑战
对物体的物理攻击必须能够在不断变化的条件下存在,并能有效地欺骗分类器。本文具体围绕所选择的道路标志分类的例子来讨论这些条件。本文的研究内容可以应用于自动驾驶汽车和其他安全敏感领域,而本文分析的这些条件的子集也可以适用于其他类型的物理学习系统,例如无人机和机器人。
为了成功地对深度学习分类器进行物理攻击,攻击者应该考虑到下述几类可能会降低扰动效果的物理世界变化。
- 环境条件。自主车辆上的摄像头与路标的距离和角度不断变化。获取到的被送入分类器的图像是在不同的距离和角度拍摄的。因此,攻击者在路标上添加的任何扰动都必须能够抵抗图像的这些转换。除角度和距离外,其他环境因素还包括照明 / 天气条件的变化以及相机上或路标上存在的碎片。
- 空间限制。目前专注于数字图像的算法会将对抗性扰动添加到图像的所有部分,包括背景图像。然而,对于实体路牌,攻击者并不能操纵背景图像。此外,攻击者也不能指望有一个固定的背景图像,因为背景图像会根据观看摄像机的距离和角度而变化。
- 不易察觉性的物理限制。目前对抗性深度学习算法的一个优点是,它们对数字图像的扰动往往非常小,以至于人类观察者几乎无法察觉。然而,当把这种微小的扰动迁移到现实世界时,我们必须确保摄像机能够感知这些扰动。因此,对不可察觉的扰动是有物理限制的,并且取决于传感硬件。
- 制造误差。为了实际制造出计算得到的扰动,所有的扰动值都必须是可以在现实世界中复制实现的。此外,即使一个制造设备,如打印机,确实能够产生某些颜色,但也会有一些复制误差。
1.2 生成鲁棒的物理扰动
作者首先分析不考虑其它物理条件的情况下生成单一图像扰动的优化方法,然后再考虑在出现上述物理世界挑战的情况下如何改进算法以生成鲁棒的物理扰动。
单一图像优化问题表述为:在输入 x 中加入扰动δ,使扰动后的实例 x’=x+δ能够被目标分类器 f_θ(·)错误分类:
其中,H 为选定的距离函数,y * 为目标类别。为了有效解决上述约束性优化问题,作者利用拉格朗日松弛形式重新表述上式:
其中,J(·,·)为损失函数,其作用是衡量模型的预测和目标类别标签 y * 之间的差异。λ为超参数,用于控制失真的正则化水平。作者将距离函数 H 表征为 ||δ||_p,即δ的 Lp 范数。
接下来,作者具体讨论如何修改目标函数以考虑物理环境条件的影响。首先,对包含目标对象 o 的图像在物理和数字变换下的分布进行建模 X^V 。我们从 X^V 中抽出不同的实例 x_i。一个物理扰动只能添加到 x_i 中的特定对象 o。具体到路标分类任务中,我们计划控制的对象 o 是停车标志。
为了更好地捕捉变化的物理条件的影响,作者通过生成包含实际物理条件变化的实验数据以及合成转换,从 X^V 中对实例 x_i 进行采样。图 3 中给出了以道路标识为例的鲁棒物理攻击(Robust Physical Perturbations ,RP2)过程示例。
图 3. RP2 示例。输入一个目标停止标志。RP2 从一个模拟物理动态的分布中取样(在本例中是不同的距离和角度),并使用一个掩模将计算出的扰动投射到一个类似于涂鸦的形状上。攻击者打印出所产生的扰动,并将其贴在目标停止标志上
本文所讨论的道路标志的物理条件涉及在各种条件下拍摄道路标志的图像,如改变距离、角度和光照等。而对于合成转换,作者随机裁剪图像中的物体,改变其亮度,并增加空间变换以模拟其他可能的条件。为了确保扰动只适用于目标对象的表面区域 o(考虑到空间限制和对不可知性的物理限制),作者引入了一个掩模。该掩模的作用是将计算出的扰动投射到物体表面的一个物理区域(如路标)。除了实现空间定位外,掩模还有助于生成对人类观察者来说可见但不明显的扰动。为了做到这一点,攻击者可以将掩模塑造得像一个涂鸦—- 一种在大街上很常见的破坏行为。从形式上看,将扰动掩模表征为一个矩阵 M_x,其尺寸与路标分类器的输入尺寸相同。M_x 在没有添加扰动的区域为“0”,在优化期间添加扰动的区域中为“1”。作者表示,在他们进行实验的过程中发现掩模的位置对攻击的有效性是有影响的。因此,作者假设,从分类的角度来看物体的物理特征有强有弱,因此,可以将掩模定位在攻击薄弱的地方。具体来说,作者使用下述方法来发现掩模位置。(1) 使用 L1 正则化计算扰动,并使用占据整个道路标志表面区域的掩模。L1 使优化器倾向于稀疏的扰动向量,因此将扰动集中在最脆弱的区域。对所产生的扰动进行可视化处理,为掩模的放置位置提供指导。(2) 使用 L2 重新计算扰动,并将掩模定位在先前步骤中确定的脆弱区域上。
考虑到在实际应用中会存在制造误差,作者在目标函数中增加了一个额外的项,该项用来模拟打印机的颜色复制误差。给定一组可打印的颜色(RGB 三元组)P 和一组在扰动中使用的、需要在物理世界中打印出来的(唯一的)RGB 三元组 R(δ),利用下式计算不可打印性得分 non-printability score (NPS):
基于上述讨论,本文最终的鲁棒空间约束扰动优化为:
这里我们用函数 T_i( )来表示对齐函数,它将物体上的变换映射到扰动的变换上。
最后,攻击者打印出优化结果,剪下扰动(M_x),并将其放到目标对象 o 上。
1.3 实验分析
实验构建了两个用于路标分类的分类器,执行的是标准的裁剪 - 重新确定大小 - 分类的任务流程。第一个分类器 LISA-CNN 对应的实验训练图像来自于 LISA,一个包含 47 个不同道路标志的美国交通标志数据集。不过,这个数据集并不平衡,导致不同标志的表述有很大差异。为了应对这个问题,作者根据训练实例的数量,选择了 17 个最常见的标志。实验中使用的深度学习 LISA-CNN 的架构由三个卷积层和一个 FC 层组成。它在测试集上的准确度为 91%。
第二个分类器是 GTSRB-CNN,它是在德国交通标志识别基准(GTSRB)上训练得到的。深度学习方法使用了一个公开的多尺度 CNN 架构,该架构在路标识别方面表现良好。由于作者在实际实验中无法获得德国的停车标志,因此使用 LISA 中的美国停车标志图像替换了 GTSRB 的训练、验证和测试集中的德国停车标志。GTSRB-CNN 在测试集上准确度为 95.7%。当在作者自己构建的 181 个停车标志图像上评估 GTSRB-CNN 时,它的准确度为 99.4%。
作者表示,据他所知,目前还没有评估物理对抗性扰动的标准化方法。在本实验中,作者主要考虑角度和距离因素,因为它们是本文所选的用例中变化最快的元素。靠近标志的车辆上的相机以固定的时间间隔拍摄一系列图像。这些图像的拍摄角度和距离不同,因此可以改变任何特定图像中的细节数量。任何成功的物理扰动必须能够在一定的距离和角度范围内引起有针对性的错误分类,因为车辆在发出控制器动作之前,可能会对视频中的一组帧(图像)进行投票确定。在该实验中没有明确控制环境光线,从实验数据可以看出,照明从室内照明到室外照明都有变化。本文实验设计借鉴物理科学的标准做法,将上述物理因素囊括在一个由受控的实验室测试和现场测试组成的两阶段评估中。
静态(实验室)测试。主要涉及从静止的、固定的位置对物体的图像进行分类。
1. 获得一组干净的图像 C 和一组在不同距离、不同角度的对抗性扰动图像。使用 c^(d,g)表示从距离 d 和角度 g 拍摄的图像。摄像机的垂直高度应保持大致不变。当汽车转弯、改变车道或沿着弯曲的道路行驶时,摄像机相对于标志的角度通常会发生变化。2. 用以下公式计算物理扰动的攻击成功率:
其中,d 和 g 表示图像的相机距离和角度,y 是地面真值,y 是目标攻击类别。
注意,只有当具有相同相机距离和角度的原始图像 c 能够正确分类时,引起错误分类的图像 A(c)才被认为是成功的攻击,这就确保了错误分类是由添加的扰动而不是其他因素引起的。
驾车(现场)测试。作者在一个移动的平台上放置一个摄像头,并在真实的驾驶速度下获取数据。在本文实验中,作者使用的是一个安装在汽车上的智能手机摄像头。
1. 在距离标志约 250 英尺处开始录制视频。实验中的驾驶轨道是直的,没有弯道。以正常的驾驶速度驶向标志,一旦车辆通过标志就停止记录。实验中,速度在 0 英里 / 小时和 20 英里 / 小时之间变化。这模拟了人类司机在大城市中接近标志的情况。2. 对 "Clean" 标志和施加了扰动的标志按上述方法进行录像,然后应用公式计算攻击成功率,这里的 C 代表采样的帧。
由于性能限制,自主车辆可能不会对每一帧进行分类,而是对每 j 个帧进行分类,然后进行简单的多数投票。因此,我们面临的问题是确定帧(j)的选择是否会影响攻击的准确性。在本文实验中使用 j = 10,此外,作者还尝试了 j=15。作者表示,这两种取值情况下没有观察到攻击成功率的任何明显变化。作者推断,如果这两种类型的测试都能产生较高的成功率,那么在汽车常见的物理条件下,该攻击很可能是成功的。
1.3.1 LISA-CNN 的实验结果
作者通过在 LISA-CNN 上生成三种类型的对抗性示例来评估算法的有效性(测试集上准确度为 91%)。表 1 给出了实验中用到的静止的攻击图像的样本示例。
表 1. 针对 LISA-CNN 和 GTSRB-CNN 的物理对抗性样本示例
对象受限的海报打印攻击(Object-Constrained Poster-Printing Attacks)。实验室使用的是 Kurakin 等人提出的攻击方法[4]。这两种攻击方法的关键区别在于,在本文攻击中,扰动被限制在标志的表面区域,不包括背景,并且对大角度和距离的变化具有鲁棒性。根据本文的评估方法,在实验 100% 的图像中停车标志都被错误地归类为攻击的目标类别(限速 45)。预测被操纵的标志为目标类别的平均置信度为 80.51%(表 2 的第二列)。
贴纸攻击(Sticker Attacks),作者还展示了通过将修改限制在类似涂鸦或艺术效果的区域中,以贴纸的形式产生物理扰动的有效性。表 1 的第四列和第五列给出了这类图像样本,表 2(第四列和第六列)给出了实验成功率与置信度。在静止状态下,涂鸦贴纸攻击达到了 66.67% 的定向攻击成功率,伪装艺术效果贴纸攻击则达到了 100% 的定向攻击成功率。
表 2. 在 LISA-CNN 上使用海报印刷的停车标志牌(微小攻击)和真正的停车标志牌(伪装的涂鸦攻击,伪装的艺术效果攻击)的有针对性的物理扰动实验结果。对于每幅图像,都显示了前两个标签和它们相关的置信度值。错误分类的目标是限速 45。图例:SL45 = 限速 45,STP = 停车,YLD = 让步,ADL = 增加车道,SA = 前方信号,LE = 车道尽头
作者还对停车标志的扰动进行了驾车测试。在基线测试中,从一辆行驶中的车辆上记录了两段清洁停车标志的连续视频,在 k = 10 时进行帧抓取,并裁剪标志。此时,所有帧中的停止标志都能够正确分类。同样用 k=10 来测试 LISA-CNN 的扰动。本文攻击对海报攻击实现了 100% 的目标攻击成功率,而对伪装抽象艺术效果攻击的目标攻击成功率为 84.8%。见表 3。
表 3. LISA-CNN 的驾车测试总结。在基线测试中,所有的帧都被正确地分类为停车标志。在所有的攻击案例中,扰动情况与表 2 相同。手动添加了黄色方框进行视觉提示
1.3.2 GTSRB-CNN 的实验结果
为了展示本文所提出的攻击算法的多功能性,作者为 GTSRB-CNN 创建并测试了攻击性能(测试集上准确度为 95.7%)。表 1 中最后一列为样本图像。表 4 给出了攻击结果—在 80% 的静止测试条件下,本文提出的攻击使分类器相信停止标志是限速 80 的标志。根据本文评估方法,作者还进行了驾车测试(k=10,两个连续的视频记录),最终攻击在 87.5% 的时间里成功欺骗了分类器。
表 4. 对 GTSRB-CNN 的伪装艺术效果攻击。有针对性的攻击成功率为 80%(真实类别标签:停止,目标:限速 80)
1.3.3 Inception v3 的实验结果
最后,为了证明 RP2 的通用性,作者使用两个不同的物体,一个微波炉和一个咖啡杯,计算了标准 Inception-v3 分类器的物理扰动情况。作者选择了贴纸攻击方法,因为使用海报攻击方法为物体打印一个全新的表面很容易引起人的怀疑。由于杯子和微波炉的尺寸比路标小,作者减少了使用的距离范围(例如,咖啡杯高度 - 11.2 厘米,微波炉高度 - 24 厘米,右转标志高度 - 45 厘米,停止标志 - 76 厘米)。表 5 给出了对微波炉的攻击结果,表 6 则给出了对咖啡杯的攻击结果。对于微波炉,目标攻击的成功率是 90%。对于咖啡杯,目标攻击成功率为 71.4%,非目标成功率为 100%。
表 5. 对 Inception-v3 分类器的贴纸扰动攻击。原始分类是微波,攻击目标是电话
表 6. 对 Inception-v3 分类器的贴纸扰动攻击。原始分类是咖啡杯,攻击目标是提款机
1.3.4 讨论
黑盒攻击。考虑到对目标分类器的网络结构和模型权重的访问,RP2 可以产生各种强大的物理扰动来欺骗分类器。通过研究像 RP2 这样的白盒攻击,我们可以分析使用最强攻击者模型的成功攻击的要求,并更好地指导未来的防御措施。在黑盒环境下评估 RP2 是一个开放的问题。
图像裁剪和攻击性检测器。在评估 RP2 时,作者每次在分类前都会手动控制每个图像的裁剪。这样做是为了使对抗性图像与提供给 RP2 的清洁标志图像相匹配。随后,作者评估了使用伪随机裁剪的伪装艺术效果攻击,以保证至少大部分标志在图像中。针对 LISA-CNN,我们观察到平均目标攻击率为 70%,非目标攻击率为 90%。针对 GTSRB-CNN,我们观察到平均目标攻击率为 60%,非目标攻击率为 100%。作者在实验中考虑非目标攻击的成功率,是因为导致分类器不输出正确的交通标志标签仍然是一种安全风险。虽然图像裁剪对目标攻击的成功率有一定的影响,但作者在其它工作中的研究结果表明,RP2 的改进版可以成功地攻击物体检测器,在这种情况下就不需要再进行裁剪处理了[5]。
2、LanCe: 针对嵌入式多媒体应用的物理对抗性攻击的全面和轻量级 CNN 防御方法[2]
与关注 “攻击” 的上一篇文章不同,这篇文章关注的是“防御”。本文提出了:LanCe—一种全面和轻量级的 CNN 防御方法,以应对不同的物理对抗性攻击。通过分析和论证 CNN 存在的漏洞,作者揭示了 CNN 的决策过程缺乏必要的定性语义辨别能力(qualitative semantics distinguishing ability):输入的非语义模式可以显著激活 CNN 并压倒输入中的其它语义模式,其中,语义模式是指表示语句成分之间的语义关系的抽象格式,而非语义模式是指不包含任何语义关系信息的抽象格式。利用对抗性攻击的特征不一致性,作者增加了一个自我验证阶段来改进 CNN 的识别过程。回顾图 1,对于每张输入图像,经过一次 CNN 推理后,验证阶段将定位重要的激活源(绿圈),并根据预测结果计算出输入语义与预期语义模式的不一致性(右圈)。一旦不一致性值超过预定的阈值,CNN 将进行数据恢复过程以恢复输入图像。我们的防御方法涉及最小的计算组件,可以扩展到基于 CNN 的图像和音频识别场景。
2.1 对抗性攻击分析和防御的解释
2.1.1 CNN 漏洞解读
解释和假设。在一个典型的图像或音频识别过程中,CNN 从原始输入数据中提取特征并得出预测结果。然而,当向原始数据注入物理对抗性扰动时,CNN 将被误导出一个错误的预测结果。为了更好地解释这个漏洞,作者以一个典型的图像物理对抗性攻击—对抗性补丁攻击为例进行分析。
在图 1 中,通过与原始输入的比较,我们发现一个对抗性补丁通常在颜色 / 形状等方面没有限制约束。这样的补丁通常会牺牲语义结构,从而导致明显的异常激活,并压倒其他输入模式的激活。因此,作者提出了一个假设:CNN 缺乏定性的语义辨别能力,在 CNN 推理过程中可以被非语义的对抗性补丁激活。
假设验证。根据上述假设,输入的非语义模式会导致异常的激活,而输入的语义模式会产生正常的激活。作者提出通过调查 CNN 中每个神经元的语义来评估这种差异,并引入一种可视化的 CNN 语义分析方法—激活最大化可视化(Activation Maximization Visualization,AM)。AM 可以生成一个 pattern,将每个神经元最活跃的语义输入可视化。图案 V((N_i)^l)的生成过程可以被看作是向 CNN 模型合成一个输入图像,使第 l 层中的第 i 个神经元(N_i)^l 的激活度最大化。该过程可以表征为:
其中,(A_i)^l(X)为输入图像 X 的(N_i)^l 的激活,(A_i)^l 表征第 l 层的第 i 个神经元对应的激活,(N_i)^l 为第 l 层的第 i 个神经元,η为梯度下降步长。
图 4 展示了使用 AM 的可视化输入的语义模式。由于原始的 AM 方法是为语义解释而设计的,在生成可解释的可视化模式时,涉及许多特征规定和手工设计的自然图像参考。因此,我们可以得到图 4(a)中平均激活幅度值为 3.5 的三个 AM 模式。这三种模式中的对象表明它们有明确的语义。然而,当我们在 AM 过程中去除这些语义规定时,我们得到了三种不同的可视化 patterns,如图 4(b)所示。我们可以发现,这三个 patterns 是非语义性的,但它们有明显的异常激活,平均幅值为 110。这一现象可以证明作者的假设,即 CNN 神经元缺乏语义辨别能力,可以被输入的非语义模式显著激活。
图 4. 通过激活最大化可视化神经元的输入模式
2.1.2 输入语义和预测激活的不一致性度量
不一致性识别。为了识别用于攻击检测的输入的非语义模式,我们通过比较自然图像识别和物理对抗性攻击,检查其在 CNN 推理过程中的影响。图 5 展示了一个典型的基于对抗性补丁的物理攻击。左边圆圈中的图案是来自输入图像的主要激活源,右边的条形图是最后一个卷积层中的神经元的激活。从输入模式中我们识别出原始图像中的对抗性补丁和主要激活源之间的显著差异,称为输入语义不一致(Input Semantic Inconsistency)。从预测激活量级方面,我们观察到对抗性输入和原始输入之间的另一个区别,即预测激活不一致(Prediction Activation Inconsistency)。
图 5. 图像对抗性补丁攻击
不一致性度量的表述。作者进一步定义两个指标来表述上述两个不一致的程度。
1)输入语义不一致度量:该度量用于衡量非语义对抗性补丁与自然图像的语义局部输入模式之间的输入语义不一致性。具体定义为:
其中,P_pra 和 P_ori 分别代表来自对抗性输入和原始输入的输入模式(input patterns)。Φ:(A_i)^l(p)和Φ:(A_i)^l(o)分别表征由对抗性补丁和原始输入产生的神经元激活的集合。R 将神经元的激活映射到主要的局部输入模式。S 代表相似性指标。
2)预测激活不一致度量:第二个不一致度量指标是在激活层面上,它用于衡量最后一个卷积层中对抗性输入和原始输入之间的激活幅度分布的不一致性。我们也使用一个类似的指标来衡量,具体如下:
其中,f_pra 和 I_ori 分别代表最后一个卷积层中由对抗性输入和原始输入数据产生的激活的幅度分布。
对于上述两个不一致度量中使用到的信息,我们可以很容易地得到 P_pra 和 f_pra,因为它们来自于输入数据。然而,由于自然输入数据的多样性,P_ori 和 f_ori 并不容易得到。因此,我们需要合成能够提供输入的语义模式和激活量级分布的标准输入数据。可以从标准数据集中获得每个预测类别的合成输入数据,以及,通过向 CNN 输入一定数量的标准数据集,我们可以记录最后一个卷积层的平均激活幅度分布。此外,我们可以定位每个预测类别的主要输入的语义模式。
2.1.3 基于 CNN 自我验证和数据恢复的物理对抗性攻击防御
上述两个不一致展示了物理对抗性攻击和自然图像识别之间的区别,即输入模式和预测激活。通过利用不一致性指标,作者提出了一种防御方法,其中包括 CNN 决策过程中的自我验证和数据恢复。具体来说,整个方法流程描述如下。
自我验证。(1)首先将输入项输入到 CNN 推理中,获得预测类别结果。(2) 接下来,CNN 可以从实际输入中定位主要激活源,并在最后一个卷积层中获得激活。(3)然后,CNN 利用所提出的指标来衡量实际输入与预测类别的合成数据之间的两个不一致指标。(4) 一旦任何一个不一致指标超过了给定的阈值,CNN 将认为该输入是一个对抗性输入。
数据恢复。(5) 在自我验证阶段检测到物理对抗性攻击后,进一步应用数据恢复方法来恢复被攻击的输入数据。具体来说,作者利用图像修复和激活去噪方法分别来恢复输入的图像和音频。