给图片打「马赛克」可骗过AI视觉系统,阿里安全新研究入选ICCV 2021

简介: 来自阿里安全人工智能治理与可持续发展实验室(AAIG)等机构的研究者提出了一个新的机制来生成对抗样本,即与增加对抗扰动相反,他们通过扔掉一些不可察觉的图像细节来生成对抗样本。这项研究成果已被 AI 顶会 ICCV 2021 收录。

人类拥有很强的抽象能力和联想力,例如一个有几块积木拼成的乐高玩具,小朋友也能轻易认出其中描述的场景 (人开着小车)。甚至几个像素,玩家也可以轻易认出这是一个戴着帽子的小人 (超级玛丽奥)。

微信图片_20211206105921.jpg

图 1. 乐高与像素马里奥


尽管我们期望模型能具有和人相当的能力,但是「抽象能力」对于模型来说,在当前显然还是一个相当具有挑战性的任务。但相反的,如果我们从对抗样本的角度来考虑:存不存在一种可能,如果我们去掉图片中一些对模型来说关键而微小的特征,模型就无法再正确识别这些图片?


一. 什么是对抗样本?


对抗样本一开始由 Szegedy 等人在 2013 年定义: 给定一张原始图片 x 及其标签 y,以及模型微信图片_20211206110116.jpg对抗样本是指在原图 x 上加一些刻意制造的微小扰动,从而让结果图像无法被正确识别(如下图所示)。通常来说,对抗扰动被限制在一定阈值内, 定义为微信图片_20211206110120.jpg,从而保证结果图对人来说与原图几乎不可区分。后续有很多相关工作在当前设定下进一步探索了更多生成对抗样本的攻击方式,以及其他性质,例如迁移性等。

微信图片_20211206105925.jpg

图 2. 对抗攻击


二. 对抗样本可能是特征


在对抗样本提出后,有各种各样的防御工作被提出,尤其是对抗训练最为有效的防御方式之一,但是对抗训练非常明显的问题是:在稳健性(robustness)和准确率(accuracy)之间始终有一个平衡,即对抗训练在提升模型稳健性的同时也会导致模型的准确率下降。为了解释这一现象,Ilyas 等人给对抗样本的存在提出了一个假设:对抗样本不是 bug,而是一组对人来说不可感知的特征。以人类感知为中心,人类所能察觉的特征就是 robust feature,其他的特征则是 non-robust。例如图 3 的狗狗,人类只会注意到其中的耳朵、鼻子等显著特征(robust feature)。

微信图片_20211206105928.jpg

图 3. 稳健特征与非稳健特征


Ilyas 等人通过一组巧妙的实验说明对抗样本其实是模型从数据中学习到一部分特征,尽管对人来说不可感知,但是对于模型来说是具有预测意义的。受 Ilyas 等人工作启发, 该研究试图从一个相反的角度来讨论一个潜在的攻击机制:我们可否去掉一些对人来说微小而不可感知、但是对于模型决策又重要的特征,从而形成对抗样本呢?


三. AdvDrop,  通过丢信息来制造对抗样本


微信图片_20211206105936.jpg

图 4. 左侧 AdvDrop,信息丢失越来越多,右侧 PGD, 对抗噪声越来越大

该研究在这个工作中提出一个新的机制来生成对抗样本:与增加对抗扰动相反,他们通过扔掉一些不可察觉的图像细节来生成对抗样本。关于两种相反机制的说明如图,当 AdvDrop 放宽丢掉的信息量的阈值 epsilon,产生的对抗样本越来越趋近于一张灰色图片,并且伴随着图像存储量的降低。相反的,PGD 生成的对抗样本,随着干扰幅度的增大,越来越接近于无序噪音。

微信图片_20211206105939.jpg

论文地址:https://arxiv.org/pdf/2108.09034.pdf


一张更细节的对比如图 5 所示, 从局部区域来看,PGD 在图片的局部生成了更多的细节,表现为更丰富的色彩。而相反的,AdvDrop 生成的对抗样本与原图相比失去了一些局部细节,表现在色彩精度的降低。

微信图片_20211206105942.jpg

图 5 PGD 与 AdvDrop 局部色彩丰富度

3.1. 方法
但是如何选择区域去丢掉图片的信息呢?以及如何保证扔掉的细节对人来说依然是不可感知的呢?

来阿里安全人工智能治理与可持续发展实验室(AAIG)等机构的研究者提出一种通过优化量化表的方式来选择丢掉信息的区域以及丢掉的信息量。此外,为了保证丢掉的细节对于人来说依然不可感知,该研究先将图像通过离散傅里叶变换从 RGB 转换到频域,再用量化表去量化一些频域的信息。频域操作相比于 RGB 的优点是,能更好的分离图像的细节信息(高频信息)和结构信息(低频信息),因此可以保证扔掉的细节对人来说不可感知。

微信图片_20211206105945.jpg

图 6 AdvDrop 算法流程

整个流程如图 6 所示,从优化上,可以被定义为:

微信图片_20211206105948.jpg


其中 D 和微信图片_20211206105953.jpg分别表示的是离散余弦变换及反变换,微信图片_20211206105957.jpg表示的是一个可微分的量化过程。
通常的量化,可以定义为:

微信图片_20211206110000.jpg


但是因为量化函数不可微分,极大影响优化过程。因此,该研究参考了 Gong 等人的工作,通过引入可控 tanh 函数来渐进的逼近阶梯式的量化函数,所以:

微信图片_20211206110003.jpg


其斜度可以由 α调整,如下图所示,经过量化函数可微处理,可以更准确的反向传播梯度,从而更准确的估计出应该丢失信息的位置及量化的大小。

微信图片_20211206110006.jpg

图 7. 不同 alpha 下 tanh 函数对量化函数的逼近层度

3.2.  结果评估
该研究用 lpips 比较了 AdvDrop 及 PGD 在相同信息量变化下的视觉得分:从对抗样本的不可感知角度来说,在同样的感知得分下,丢信息操作允许操作的信息量要比加干扰允许的更大。从人类视觉上来说,相比于加噪,人眼对于局部平滑其实更为不敏感,从图 8 可见,随着量化表阈值的增大,AdvDrop 生成的对抗样本的局部细节越少,例如蜥蜴鳞片的纹理。

微信图片_20211206110010.jpg

图 8. 不同阈值下的攻击结果展示

从成功率上来说,无论是在目标攻击还是无目标攻击的设定下, AdvDrop 有相当高的成功率来生成一个对抗样本。在目标攻击下,最高可以达到一个 99.95% 成功率。但相比于传统加噪的对抗攻击生成方式 (例如 PGD,BIM) 可以轻易达到 100% 的成功率来说,依然是强度较弱的。该研究认为 AdvDrop 在强度方面的局限可能来自于两方面:一方面是由于量化这样的方式,另一方面,「减信息」可以操作的空间相比于「加信息」 的空间来说要小很多。

微信图片_20211206110014.jpg


此外,该研究也评估了 AdvDrop 在不同防御下的表现。目前主流防御方式主要分为两种,一种是对抗训练 ,另一种是基于去噪的防御方式。该研究发现 AdvDrop 生成的对抗样本对于现阶段防御方式来说仍是一个挑战,尤其是基于去噪的防御方式。  

微信图片_20211206110017.jpg


具体来说,在一定扰动阈值下,基于制造对抗扰动的对抗样本生成方式经过去噪后,图片有很大概率恢复成原始图片。但是对于用 AdvDrop 生成的对抗样本来说,其本身就是由于部分特征丢失而导致的错误识别,而去噪操作甚至会加剧这种由于丢失而无法识别的问题。

微信图片_20211206110020.jpg

图 9. AdvDrop 和 PGD 在 Denoise 操作下的细节展示

除了防御的角度,考虑到很多数据都是从网上收集而来,而网络传输中往往存在数据压缩过程,所以通过 AdvDrop 生成的对抗样本可能「更耐传输」。当然,从另一个角度来想,也有可能对于正常图像数据来说,一些正常的数据压缩(例如 jpeg)也许不经意间就引入了对抗样本。


四. 讨论及总结


该研究提出了一个新的生成对抗样本的机制,讨论了与之前加噪方式相反的一个角度来生成对抗样本。这一类型的对抗样本相比于传统加干扰生成的对抗样本来说,更难以防御。

该工作也展示了模型另一个角度的局限性:对重要细节丢失的稳健性。
在这个工作中,研究人员仅仅探索了在频域上丢信息的操作,未来,通过其他丢信息方式来生成对抗样本都是可以值得尝试的工作。


五. Benchmark


AI 模型的对抗攻防是一个相互博弈的过程,模型的对抗攻击与防御层出不穷,以上提出的攻击算法也仅仅是一种攻击形态。为了更加客观、公平地衡量 AI 模型的稳健性, 清华大学、阿里安全、瑞莱智慧联合发布的业内最新的基于深度学习模型的对抗攻防基准平台 Adversarial Robustness Benchmark,此次推出 AI 对抗安全基准基本上包括了目前主流的 AI 对抗攻防模型,涵盖了数十种典型的攻防算法。不同算法比测的过程中尽量采用了相同的实验设定和一致的度量标准,从而在最大限度上保证了比较的公平性和客观性。对抗攻防基准平台 Adversarial Robustness Benchmark地址:https://ml.cs.tsinghua.edu.cn/adv-bench/#/

微信图片_20211206110025.jpg

图 10. Adversarial Robustness Benchmark

相关文章
|
6天前
|
存储 人工智能 安全
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
从AI换脸到篡改图像,合合信息如何提升视觉内容安全?
|
3天前
|
机器学习/深度学习 人工智能 搜索推荐
AI在电子商务中的个性化推荐系统:驱动用户体验升级
AI在电子商务中的个性化推荐系统:驱动用户体验升级
42 17
|
3天前
|
人工智能 安全 机器人
OpenAI重拾规则系统,用AI版机器人定律守护大模型安全
在人工智能领域,大语言模型(LLM)展现出强大的语言理解和生成能力,但也带来了安全性和可靠性挑战。OpenAI研究人员提出“规则基于奖励(RBR)”方法,通过明确规则引导LLM行为,确保其符合人类价值观和道德准则。实验显示,RBR方法在安全性与有用性之间取得了良好平衡,F1分数达97.1。然而,规则制定和维护复杂,且难以完全捕捉语言的多样性。论文:https://arxiv.org/pdf/2411.01111。
31 13
|
7天前
|
机器学习/深度学习 传感器 人工智能
AI视频监控系统在养老院中的技术实现
AI视频监控系统在养老院的应用,结合了计算机视觉、深度学习和传感器融合技术,实现了对老人体征、摔倒和异常行为的实时监控与分析。系统通过高清摄像头和算法模型,能够准确识别老人的动作和健康状况,并及时向护理人员发出警报,提高护理质量和安全性。
43 14
|
3天前
|
机器学习/深度学习 存储 人工智能
基于AI的实时监控系统:技术架构与挑战分析
AI视频监控系统利用计算机视觉和深度学习技术,实现实时分析与智能识别,显著提升高风险场所如监狱的安全性。系统架构包括数据采集、预处理、行为分析、实时决策及数据存储层,涵盖高分辨率视频传输、图像增强、目标检测、异常行为识别等关键技术。面对算法优化、实时性和系统集成等挑战,通过数据增强、边缘计算和模块化设计等方法解决。未来,AI技术的进步将进一步提高监控系统的智能化水平和应对复杂安全挑战的能力。
|
3天前
|
机器学习/深度学习 人工智能 安全
合合信息亮相CSIG AI可信论坛,全面拆解视觉内容安全的“终极防线”!
合合信息在CSIG AI可信论坛上,全面拆解了视觉内容安全的“终极防线”。面对AI伪造泛滥的问题,如Deepfake换脸、PS篡改等,合合信息展示了其前沿技术,包括通用PS检测系统和AIGC与换脸检测系统,有效应对视觉内容安全挑战。公司在国际赛事中屡获殊荣,并联合多方发布《文本图像篡改检测系统技术要求》,推动行业标准化发展。通过技术创新,合合信息为金融、政企等领域提供可靠保障,守护社会信任,引领视觉内容安全新方向。
19 0
|
7天前
|
机器学习/深度学习 人工智能 算法
【AI系统】AI 框架之争
本文介绍了AI框架在数学上对自动微分的表达和处理,以及其在多线程算子加速、GPU/NPU支持、代码编译优化等方面的技术挑战。文章详细梳理了AI框架的发展历程,从萌芽阶段到深化阶段,探讨了不同阶段的关键技术和代表性框架。同时,文章展望了AI框架的未来趋势,包括全场景支持、易用性提升、大规模分布式支持和科学计算融合。
28 0
|
7天前
|
缓存 人工智能 负载均衡
AI革新迭代:如何利用代理IP提升智能系统性能
在人工智能快速发展的背景下,智能系统的性能优化至关重要。本文详细介绍了如何利用代理IP提升智能系统性能,涵盖数据加速与缓存、负载均衡、突破地域限制、数据传输优化和网络安全防护等方面。结合具体案例和代码,展示了代理IP在实际应用中的价值和优势。
18 0
|
10天前
|
机器学习/深度学习 人工智能 自然语言处理
AI技术深度解析:从基础到应用的全面介绍
人工智能(AI)技术的迅猛发展,正在深刻改变着我们的生活和工作方式。从自然语言处理(NLP)到机器学习,从神经网络到大型语言模型(LLM),AI技术的每一次进步都带来了前所未有的机遇和挑战。本文将从背景、历史、业务场景、Python代码示例、流程图以及如何上手等多个方面,对AI技术中的关键组件进行深度解析,为读者呈现一个全面而深入的AI技术世界。
67 10
|
3天前
|
机器学习/深度学习 人工智能 物联网
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营
12月14日,由中国软件行业校园招聘与实习公共服务平台携手魔搭社区共同举办的AI赋能大学计划·大模型技术与产业趋势高校行AIGC项目实战营·湖南大学站圆满结营。
AI赋能大学计划·大模型技术与应用实战学生训练营——湖南大学站圆满结营

热门文章

最新文章