【简介】
本文将两种生物视觉机制,分别是视网膜的非均匀采样机制和多种不同大小的感受野存在机制,应用到神经网络中,提高了神经网络的对抗鲁棒性。
论文地址:
https://arxiv.org/abs/2006.16427
【引言】
尽管卷积神经网络在视觉识别任务上取得了卓越的表现,但它们在一些任务上仍然落后于人类的视觉系统。比如,神经网络对于微小的对抗扰动十分脆弱,而人眼对于视觉刺激上的微小扰动则非常鲁棒。近年来,有大量工作表明人工神经网络在建模大脑的腹侧视觉流上具有适用性。因此,本文提出将两种生物视觉机制应用到神经网络中,以提高神经网络的对抗鲁棒性。此外,作者通过消融实验,进一步分析了每种机制中影响神经网络鲁棒性的关键因素。
【模型介绍】
1. 生物视觉机制
- 第一种机制是视网膜对视觉刺激的非均匀空间采样机制。视网膜小凹中心的视锥细胞密度最大,从中心向四周视锥细胞密度递减。上图左侧显示了5种视网膜注视点下,视网膜空间采样的分布和效果。
- 第二种机制是视觉皮层V1细胞存在不同尺度的感受野机制。上图右侧显示了5种不同的视觉皮层注视点下,周围不同空间尺度的感受野区域(红色矩形框)。
2. 基于生物视觉机制设计模型
基于上述两种生物视觉机制,作者设计了下图所示的神经网络模型C和D。模型A是普通的卷积神经网络,模型B简单地截取图片上的不同区域来模拟不同注视点的作用,被称为“粗糙的注视点”模型。模型A和B是为了和模型C、D作对照。模型C是融入第一种生物启发机制的模型,被称为“视网膜注视点”模型(retinal fixations),该模型对图片在不同注视点下进行非均匀采样,之后再将其送入神经网络中。模型D是融入第二种生物启发机制的模型,被称为“视皮层注视点”模型(corticalfixations),该模型将标准的ResNet网络分成不同的分支,每个分支处理一种尺度的感受野,之后再将不同分支的结果拼接起来。
【实验结果】
1、正常样本上的准确率
上表展示了模型A(STANDARD RESNET)、B(COARSE FIXATIONS)、C(RETINAL FIXATIONS)、D(CORTICAL FIXATIONS)在不同的数据集上的测试准确率,可以看到模型B的性能普遍优于普通模型A,同时模型C的性能和模型B旗鼓相当,两者差距不大。
2、对抗鲁棒性
上图显示了在不同数据集上,随着对抗扰动大小的增加,不同模型的鲁棒性结果。我们可以发现,基于生物视觉机制的模型(retinal fixations和cortical fixations)比普通模型(ResNet)具有更好的对抗鲁棒性。此外,在CIFAR10数据集上,retinal fixations和cortical fixations模型的鲁棒性要低于对抗训练的模型。
3. 消融实验
作者通过消融实验来研究两种生物视觉机制中影响神经网络对抗鲁棒性的决定性因素。
如上图左侧所示,“uniformresampling”为均匀采样,而“retinal fixations”采用非均匀采样,可以看到,相比于最优的对照模型,均匀采样的准确率提升小于0,而非均匀采样的准确率提升大于0,说明均匀采样无法提升模型的鲁棒性,而非均匀采样可以。在上图右侧中,由于“cortical fixations”模型考虑图片不同尺度的感受野,同时采用多条神经网络分支处理不同尺度的感受野图片,最后对不同尺度的感受野图片进行高斯下采样再送入CNN中。因此“emsembling”消融模型仅采用一条神经网络分支,“gaussian blur”采用和“coarse fixations”模型一样的下采样方式,但是在图片上加了高斯模糊,“gaussian downsample”则是“cortical fixations”模型中对应最大感受野的分支。我们可以发现,“emsembling”模型无法提高神经网络的鲁棒性,“gaussian blur”能稍微提高模型的鲁棒性。“gaussian downsample”能大幅提高模型的鲁棒性,但是性能低于“corticalfixations”,说明在“cortical fixations”模型中增加对大尺度感受野图片特征的利用,有利于提高模型的对抗鲁棒性。