对抗攻击原理与威胁模型
对抗攻击的基本原理就是对正常的样本添加一定的
扰动从而使得模型出现误判。以最基本的图像分类任务为例,攻击者拥有若干数据{xi,yi}Ni=1,其中xi代表数据集中的一个样本也就是一张图像,yi则是其对应的正确类别,N为数据集的样本数量。将用于分类的目标模型表示为f(.),则f(x)表示样本x输入模型得到的分类结果。攻击者应用对抗攻击的方法对正常样本x进行修改得到对应的对抗样本x′,该对抗样本可以造成模型出现误判,同时其与原样本的应该较为接近具有同样的语义信息,一般性定义如下:
其中∥.∥D代表着对抗样本与原样本之间的某种距离度量,为了使修改的样本能够保持语义信息不造成人类的察觉,两者之间的距离应该足够小,同时造成最后模型判断出现错误,分类结果不同于正确类别,而ϵ就是对抗样本与原样本之间设定的最大距离,其取值往往和具体的应用场景有关。
根据攻击意图,对抗攻击可以分为有目标攻击和无目标攻击。以上的一般定义属于无目标攻击,即经过修改的样本只要造成错误使得分类标签与原标签不同即可;有目标攻击是指攻击者根据需要对样本进行修改,使得模型的分类结果变为指定的类别t,定义如下:
根据攻击者所能获取的信息,对抗攻击可以分为黑盒攻击和白盒攻击。黑盒攻击是指攻击者在不知道目标模型的结构或者参数的情况下进行攻击,但是攻击者可以向模型查询特定的输入并获取预测结果;白盒攻击是指攻击者可以获取目标模型fθ(.)的全部信息,其中θ代表模型的具体参数,用于实施有针对性的攻击算法。一般情况下,由于白盒攻击能够获取更多与模型有关的信息,其攻击性能要明显强于对应的黑盒攻击。以上我们对攻击的主要目标与攻击设置进行了简要的介绍,在不同设置下各种攻击具有不同的特点,主流的攻击技术可以分为基于扰动的对抗攻击和非限制对抗攻击。
基于扰动的对抗攻击
最初的对抗攻击算法主要是基于扰动的对抗攻击,这类攻击在图像分类任务上被广泛研究,也是最主要的攻击类型。这类攻击的主要思想就是在输入样本中加入微小的扰动,从而导致AI模型输出误判。以图像分类任务为例,攻击者可以对输入图像的像素添加轻微扰动,使对抗样本在人类看来是一幅带有噪声的图像。考虑到攻击的隐蔽性,攻击者会对这些扰动的大小进行限制从而避免人类的察觉。已有的研究通常基于扰动的范数大小ℓp度量样本之间距离
其中xi、x′i分别指正常样本和对抗样本在第i处的特征,在图像任务中为对应位置的像素值。目前对抗攻击算法的主要思想是将生成对抗样本的过程看做一个优化问题的求解。接下来我们首先介绍几种白盒对抗攻击算法,之后介绍一些针对防御技术的攻击增强算法,最后给出几种针对黑盒模型的攻击方法。
伪造攻击
伪造攻击是向生物识别系统提交伪造信息以通过身份验证的一种攻击方式[32],是一种AI测试完整性威胁。生物验证技术包括指纹核身、面容核身、声纹核身、眼纹核身、掌纹核身等等。以声纹核身为例,攻击者有很多种方法来进行伪造攻击声纹识别系统、声纹支付系统、声纹解锁系统等。例如:攻击者对声纹解锁系统播放一段事先录制或者人工合成的解锁音频通过验证。在这类音频伪造攻击中,攻击者可以通过手机等数码设备直接录制目标人物的解锁音频,也可以通过社交网络检索目标账号获取解锁音频。甚至,攻击者可以从目标人物的多个音频中裁剪合成解锁音频,或者通过深度语音合成技术来合成目标人物的解锁音频。
3.2 AI数据与隐私安全性问题
由于AI技术使用过程中产生的模型梯度更新、输出特征向量以及预测结果与输入数据、模型结构息息相关,因此AI模型产生的计算信息面临着潜在的隐私数据泄露、模型参数泄露风险。
3.2.1 基于模型输出的数据泄露
在AI模型测试阶段,AI模型参数被固定住,测试数据输入模型并输出特征向量、预测结果等信息。例如:在图像分类任务中,模型的输出包含卷积层输出的特征向量、Softmax层输出的预测概率向量等。近些年来研究结果表明,模型的输出结果会隐含一定的数据信息。攻击者可以利用模型输出在一定程度上窃取相关数据,主要可以窃取两类数据信息:1)模型自身的参数数据;2)训练/测试数据。
模型窃取
模型窃取攻击(ModelExtractionAttack)是一类隐私数据窃取攻击,攻击者通过向黑盒模型进行查询获取相应结果,窃取黑盒模型的参数或者对应功能。被窃取的模型往往是拥有者花费大量的金钱时间构建而成的,对拥有者来说具有巨大的商业价值。一旦模型的信息遭到泄露,攻击者就能逃避付费或者开辟第三方服务,从而获取商业利益,使模型拥有者的权益受到损害。如果模型遭到窃取,攻击者可以进一步部署白盒对抗攻击来欺骗在线模型,这时模型的泄露会大大增加攻击的成功率,造成严重的安全风险。
目前,大多数AI技术供应商将AI应用部署于云端服务器,通过API来为客户端提供付费查询服务。客户仅能通过定义好的API向模型输入查询样本,并获取模型对样本的预测结果。然而即使攻击者仅能通过API接口输入请求数据,获取输出的预测结果,也能在一定情况下通过查询接口来窃取服务端的模型结构和参数。模型窃取攻击主要可以分为三类:1)Equation-solvingAttack;2)基于Meta-model的模型窃取;3)基于替代模型的模型窃取。
Equation-solving Attack是一类主要针对支持向量机(SVM)等传统的机器学习 方法的模型窃取攻击。攻击者可以先获取模型的算法、结构等相关信息,然后构建公 式方程来根据查询返回结果求解模型参数 [7]。在此基础之上还可以窃取传统算法中 的超参数,例如:损失函数中 loss 项和 regularization 项的权重参数 [73]、KNN 中 的 K 值等。Equation-solving Attack 需要攻击者了解目标算法的类型、结构、训练 数据集等信息,无法应用于复杂的神经网络模型。
基于 Meta-model 模型窃取的主要思想是通过训练一个额外的 Meta Model Φ(·)来预测目标模型的指定属性信息。Meta Model 的输入样本是所预测模型在任务数据 x 上的输出结果 f (x),输出的内容 Φ(f (x)) 则是预测目标模型的相关属性,例如网 络层数、激活函数类型等。因此为了训练 Meta Model,攻击者需要自行收集与目标 模型具有相同功能的多种模型 fi(·),获取它们在相应数据集上的输出,构建 Meta Model 的训练集。然而构建 Meta Model 的训练集需要多样的任务相关模型,对计算资源的要求过高,因此该类攻击并不是非常实用,而作者也仅在 MNIST 数字识别任务上做了实验 [34]。
基于替代模型训练的是目前比较实用的一类模型窃取攻击。攻击者在未知目标 模型结构的情况下向目标模型查询样本,得到目标模型的预测结果,并以这些预测 结果对查询数据进行标注构建训练数据集,在本地训练一个与目标模型任务相同的替代模型,当经过大量训练之后,该模型就具有和目标模型相近的性质。一般来说,攻击者会选取 VGG、ResNet 等具有较强的拟合性的深度学习模型作为替代模型结 构 [35]。基于替代模型的窃取攻击与 Equation-solving Attack 的区别在于,攻击者对 于目标模型的具体结构并不了解,训练替代模型也不是为了获取目标模型的具体参数,而只是利用替代模型去拟合目标模型的功能。为了拟合目标模型的功能,替代 模型需要向目标模型查询大量的样本来构建训练数据集,然而攻击者往往缺少充足 的相关数据,并且异常的大量查询不仅会增加窃取成本,更有可能会被模型拥有者 检测出来。为了解决上述问题,避免过多地向目标模型查询,使训练过程更为高效, 研究者提出对查询的数据集进行数据增强,使得这些数据样本能够更好地捕捉目标 模型的特点[8],例如:利用替代模型生成相应的对抗样本以扩充训练集,研究认为对抗样本往往会位于模型的决策边界上,这使得替代模型能够更好地模拟目标模型的决策行为 [54, 74]。除了进行数据增强,还有研究表明使用与目标模型任务无关的 其它数据构建数据集也可以取得可观的攻击效果,这些工作同时给出了任务相关数 据与无关数据的选取组合策略 [75, 35]。
隐私泄露
机器学习模型的预测结果往往包含了模型对于该样本的诸多推理信息。在不同 的学习任务中,这些预测结果往往包含了不同的含义。例如:图像分类任务中,模型 输出的是一个向量,其中每一个向量分量表示测试样本为该种类的概率。最近的研究 结果证明,这些黑盒的输出结果可以用来窃取模型训练数据的信息。例如:Fredrikson 等人提出的模型逆向攻击(Model Inversion Attack)[6] 可以利用黑盒模型输出中的 置信度向量等信息将训练集中的数据恢复出来。他们针对常用的面部识别模型,包括 Softmax 回归,多层感知机和自编码器网络实施模型逆向攻击。他们认为模型输 出的置信度向量包含了输入数据的信息,也可以作为输入数据恢复攻击的衡量标准。 他们将模型逆向攻击问题转变为一个优化问题,优化目标为使得逆向数据的输出向 量与目标输出向量差异尽可能地小,也就是说,假如攻击者获得了属于某一类别的 输出向量,那么他可以利用梯度下降的方法使得逆向的数据经过目标模型的推断后, 仍然能得到同样的输出向量。
成员推断攻击 (Membership-Inference Attack) 是一种更加容易实现的攻击 类型,它是指攻击者将试图推断某个待测样本是否存在于目标模型的训练数据集中,从而获得待测样本的成员关系信息。比如攻击者希望知道某个人的数据是否存在于某个公司的医疗诊断模型的训练数据集中,如果存在,那么我们可以推断出该个体 的隐私信息。我们将目标模型训练集中的数据称为成员数据 (Member Data),而不在训练集中的数据称为非成员数据 (Non-member Data)。同时由于攻击者往往不可能掌握目标模型,因此攻击者只能实施黑盒场景下的成员推断攻击。成员推断攻击是近两年来新兴的一个研究课题,这种攻击可以用于医疗诊断、基因测试等应用场 景,对用户的隐私数据提出了挑战,同时关于这种攻击技术的深入发展及其相关防 御技术的探讨也成为了一个新的研究热点。
3.2.2 基于梯度更新的数据泄露
梯度更新是指模型对参数进行优化时,模型参数会根据计算产生的梯度来进行更新,也就是训练中不断产生的梯度信息。梯度更新的交换往往只出现在分布式模 型训练中,拥有不同私有数据的多方主体每一轮仅使用自己的数据来更新模型,随 后对模型参数的更新进行聚合,分布式地完成统一模型的训练,在这个过程中,中 心服务器和每个参与主体都不会获得其它主体的数据信息。然而即便是在原始数据 获得良好保护的情况下,参与主体的私有数据仍存在泄漏的可能性。
模型梯度更新会导致隐私泄露. 尽管模型在训练的过程中已经使用了很多方法 在防止原始数据泄露,在多方分布式的 AI 模型训练中,个体往往会使用自己的数据 对当前的模型进行训练,并将模型的参数更新传递给其它个体或者中心服务器。在最 近机器学习和信息安全的国际会议上,研究人员提出了一些利用模型参数更新来获 取他人训练数据信息的攻击研究。Melis 等人 [36] 利用训练过程中其它用户更新的模 型参数作为输入特征,训练攻击模型,用于推测其它用户数据集的相关属性;[37, 38] 等人利用对抗生成网络生成恢复其它用户的训练数据,在多方协作训练过程中,利 用公共模型作为判别器,将模型参数更新作为输入数据训练生成器,最终可以获取 受害者特定类别的训练数据。在最近的一项工作中 [39],研究人员并未使用 GAN 等 生成模型,而是基于优化算法对模拟图片的像素进行调整,使得其在公共模型上反 向传播得到的梯度和真实梯度相近,经过多轮的优化模拟图片会慢慢接近真实的训 练数据。
3.3 AI系统安全性问题
AI 系统安全性问题与传统计算机安全领域中的安全问题相似,威胁着 AI 技术 的保密性、完整性和可用性。AI 系统安全问题主要分为两类:1) 硬件设备安全问题, 主要指数据采集存储、信息处理、应用运行相关的计算机硬件设备被攻击者攻击破 解,例如芯片、存储媒介等;2) 系统与软件安全问题,主要指承载 AI 技术的各类计算机软件中存在的漏洞和缺陷,例如:承载技术的操作系统、软件框架和第三方库 等。
3.3.1 硬件设备安全问题
硬件设备安全问题指 AI 技术当中使用的基础物理设备被恶意攻击导致的安全 问题。物理设备是 AI 技术构建的基础,包含了中心计算设备、数据采集设备等基础 设施。攻击者一旦能够直接接触相应的硬件设备,就能够伪造和窃取数据,破坏整 个系统的完整性。例如:劫持数据采集设备,攻击者可以通过 root 等方式取得手机 摄像头的控制权限,当手机应用调用摄像头的时候,攻击者可以直接将虚假的图片 或视频注入相关应用,此时手机应用采集到的并不是真实的画面,使人工智能系统 被欺骗;侧信道攻击,指的是针对加密电子设备在运行过程中的时间消耗、功率消 耗或电磁辐射之类的侧信道信息泄露而对加密设备进行攻击的方法,这种攻击可以 被用来窃取运行在服务器上的 AI 模型信息 [54]。
3.3.2 系统与软件安全问题
系统与软件安全问题是指承载 AI 应用的各类系统软件漏洞导致的安全问题。AI 技术从算法到实现是存在距离的,在算法层面上开发人员更关注如何提升模型本身 性能和鲁棒性。然而强健的算法不代表着 AI 应用安全无虞,在 AI 应用过程中同样 会面临软件层面的安全漏洞威胁,如果忽略了这些漏洞,则可能会导致关键数据篡 改、模型误判、系统崩溃或被劫持控制流等严重后果。
以机器学习框架为例,开发人员可以通过 Tensorflow、PyTorch 等机器学习软 件框架直接构建 AI 模型,并使用相应的接口对模型进行各种操作,无需关心 AI 模 型的实现细节。然而不能忽略的是,机器学习框架掩盖了 AI 技术实现的底层复杂 结构,机器学习框架是建立在众多的基础库和组件之上的,例如 Tensorflow、Caffe、 PyTorch 等框需要依赖 Numpy、libopencv、librosa 等数十个第三方动态库或 Python 模块。这些组件之间存在着复杂的依赖关系。框架中任意一个依赖组件存在的安全 漏洞,都会威胁到整个框架以及其所支撑的应用系统。
研究表明在这些深度学习框架及其依赖库中存在的软件漏洞几乎包含了所有常 见的类型,如堆溢出、释放对象后引用、内存访问越界、整数溢出、除零异常等漏洞, 这些潜在的危害会导致深度学习应用受到拒绝服务、控制流劫持、数据篡改等恶意 攻击的影响 [15]。例如:360 Team SeriOus 团队曾发现由于 Numpy 库中某个模块没 有对输入进行严格检查,特定的输入样本会导致程序对空列表的使用,最后令程序 陷入无限循环,引起拒绝服务的问题。而在使用 Caffe 依赖的 libjasper 视觉库进行 图像识别处理时,某些畸形的图片输入可能会引起内存越界,并导致程序崩溃或者 关键数据(如参数、标签等)篡改等问题 [82]。另外,由于 GPU 设备缺乏安全保护 措施,拷贝数据到显存和 GPU 上的运算均不做越界检查,使用的显存在运行结束后 仍然存在,这都需要用户手动处理,如果程序中缺乏相关处理的措施,则可能存在 内存溢出的风险 [83]。
AI 威胁常用防御技术
系统性地总结了 AI 模型、AI 数据以及 AI 承载系统面临的威 胁。AI 模型面临的威胁包括:训练阶段的投毒与后门攻击、测试阶段的对抗攻击以 及 AI 模型本身存在的鲁棒性缺失问题;AI 数据面临的威胁包括:利用模型查询结 果的模型逆向攻击、成员推断攻击和模型窃取攻击,以及在训练阶段利用模型参数 更新进行的训练数据窃取攻击;AI 承载系统面临的威胁包括:软件漏洞威胁和硬件 设备安全问题等。
AI 模型训练阶段主要存在的威胁是数据投毒攻击,它可以非常隐蔽地破坏模型 的完整性。近些年来,研究者们提出了多种针对数据投毒攻击的防御方法。由于传统 意义上的有目标的数据投毒攻击可以看作是后门攻击的一种特殊情况,因此后续章 节将主要阐述针对后门攻击的防御方法。根据防御技术的部署场景,这些方法可以 分为两类,分别是面向训练数据的防御和面向模型的防御。面向训练数据的防御部 署在模型训练数据集上,适用于训练数据的来源不被信任的场景;面向模型的防御 主要应用于检测预训练模型是否被毒化,若被毒化则尝试修复模型中被毒化的部分, 这适用于模型中可能已经存在投毒攻击的场景。
AI 模型在预测阶段主要存在的威胁为对抗样本攻击。近些年来,研究者们提出 了多种对抗样本防御技术,这些技术被称为对抗防御 (Adversarial Defense)。对抗防 御可以分为启发式防御和可证明式防御两类。启发式防御算法对一些特定的对抗攻 击具有良好的防御性能,但其防御性能没有理论性的保障,意味着启发式防御技术 在未来很有可能被击破。可证明式防御通过理论证明,计算出特定对抗攻击下模型 的最低准确度,即在理论上保证模型面对攻击时性能的下界。但目前的可证明式防 御方法很难在大规模数据集上应用,我们将其作为模型安全性测试的一部分放在之 后的章节阐述。本节主要阐述部分具有代表性的启发式防御技术,根据防御算法的 作用目标不同分为三类:分别是对抗训练、输入预处理以及特异性防御算法。对抗训 练通过将对抗样本纳入训练阶段来提高深度学习网络主动防御对抗样本的能力;输 入预处理技术通过对输入数据进行恰当的预处理,消除输入数据中可能的对抗性扰 动,从而达到净化输入数据的功能;其他特异性防御算法通过修改现有的网络结构 或算法来达到防御对抗攻击的目的。
除了训练与预测阶段存在的威胁,AI 模型还存在鲁棒性缺乏风险。鲁棒性缺乏 是指模型在面对多变的真实场景时泛化能力有限,导致模型产生不可预测的误判行 为。为了增强 AI 模型的鲁棒性,提高模型的泛化能力,增强现实场景下模型应对多 变环境因素时模型的稳定性,研究人员提出了数据增强和可解释性增强技术:数据 增强技术的目标是加强数据的收集力度并增强训练数据中环境因素的多样性,使模 型能够尽可能多地学习到各种真实场景下的样本特征,进而增强模型对多变环境的 适应性;可解释性增强技术的目标是解释模型是如何进行决策的以及为何模型能够 拥有较好的性能。若能较好地解答上述问题,将有助于在 AI 模型构建过程中依据可 解释性的指导,有针对性地对模型进行调整,从而增强其泛化能力。
表 4.1: 防御方法概括
AI 应用系统一站式安全解决方案
AI 技术已经是许多业务系统的核心驱动力,如苹果 Siri、微软小冰都依赖智能 语音识别模型,谷歌照片利用图像识别技术快速识别图像中的人、动物、风景和地 点。然而正如《人工智能安全》[149] 一书中提到,新技术必然会带来新的安全问题, 一方面是其自身的脆弱性会导致新技术系统不稳定或者不安全的情况,这是新技术 的内在安全问题,一方面是新技术会给其他领域带来新的问题,导致其他领域不安 全,这是新技术的衍生安全问题。近年来学术界和工业界针对 AI 应用系统的攻击案例此起彼伏,例如腾讯攻破了特斯拉的自动驾驶系统、百度攻破了公有云上的图像 识别系统、Facebook 和 Google 掀起了反 DeepFake 浪潮。
本文第 3 章介绍了 AI 系统是可能面临的包括对抗样本攻击、投毒攻击和供 应链攻击等各类威胁,同时本文第 4 章也给出了面向各类 AI 威胁的防御技术。但在实际场景中,AI系统遇到的威胁往往十分复杂,仅靠单一的防御技术无法有效抵御实际威胁。因此在本章节,我们先回顾国内外大厂采用的AI安全解决方案,然后再从这些方案中提炼出一套涵盖面更广泛的AI安全解决方案。
5.1 行业介绍
•百度. 百度是国内最早研究 AI模型安全性问题的公司之一。当前百度建立了一套可衡量深度神经网络在物理世界中鲁棒性的标准化框架。事实上,物理世界中使用的模型往往与人们的衣食住行相关(如无人自动驾驶、医疗自动诊断等),这些模型一旦出现问题,后果将非常严重。因此,该框架首先基于现实世界的正常扰动定义了可能出现威胁的五大安全属性,分别是光照、空间变换、模糊、噪声和天气变化;然后,针对不同的模型任务场景,制定不同的评估标准,如非定向分类错误、目标类别错误分类到评估者设定的类别等标准;最后,对于不同安全属性扰动带来的威胁,该框架采用了图像领域中广为接受的最小扰动的Lp范数来量化威胁严重性以及模型鲁棒性。
• 腾讯. 腾讯公司针对AI落地过程中面临的各类安全问题进行了细致的划分,具体分为AI软硬件安全、AI算法安全、模型安全、AI数据安全和数据隐私等部分。软硬件安全主要是考虑到部署AI模型的软件和硬件层面可能存在的安全漏洞,如内存溢出、摄像头劫持等问题;AI算法安全主要考虑深度学习存在对抗样本的问题,容易出现错误的预测结果;模型本身的安全则涉及到模型窃取,这一问题目前实现方式比较多,常见的方法是直接物理接触下载模型并逆向获取模型参数,以及通过多次查询来拟合“影子”模型实现等价窃取;此外,模型的训练数据也会被污染,开源的预训练模型可能被恶意埋入后门,这些问题都被划分为AI模型的数据安全问题;当然,模型训练使用的数据集也会涉及用户的隐私,因此攻击者可能也会通过查询获取用户隐私。为了缓解这些问题,腾讯安全团队借助AI能力,针对性地构建了多种攻击检测技术。
• 华为. 华为公司同样对AI安全问题展开了深入的研究,其将AI系统面临的挑战分为5个部分,包括软硬件的安全、数据完整性、模型保密性、模型鲁棒性和数据隐私。其中,软硬件的安全涉及应用、模型、平台、芯片和编码中可能存在的漏洞或后门;数据完整性主要涉及各类数据投毒攻击;模型保密性则主要涉及到模型的窃取问题;模型鲁棒性考虑训练模型时的样本往往覆盖性不足,使得模型鲁棒性不强,同时模型面对恶意对抗样本攻击时,无法给出正确的判断结果等问题;数据隐私考虑在用户提供训练数据的场景下,攻击者能够通过反复查询训练好的模型获得用户的隐私信息。
为了应对这些挑战,华为主要考虑三个层次的防御手段:攻防安全、模型安全和架构安全。其中,攻防安全考虑针对已知的攻击手段,设计针对性的防御机制来保护AI系统,经典的防御技术包括对抗训练、知识蒸馏、对抗样本检测、训练数据过滤、集成模型、模型剪枝等。而针对模型本身存在的安全问题,考虑包括模型可检测性、可验证性和可解释性等技术,以提升模型应对未知攻击的能力。在业务中实际使用AI模型,需要结合业务自身特点,分析判断AI模型架构安全,综合利用隔离、检测、熔断和冗余等安全机制设计AI安全架构与部署方案,增强业务产品、业务流程与业务功能的健壮性。
• RealAI. RealAI是一家专注于从根本上增强AI的可靠性、可信性以及安全性的创业公司。该公司通过黑盒和白盒方式,对目标模型进行对抗样本攻击,并通过检测器和去噪器等方式构建模型的AI防火墙;此外,它们也考虑了模型窃取和后门检测等问题。
5.2 多维对抗与AI SDL
AI系统的防御与攻击者的攻击是一个不断演变的攻防对抗过程,攻击者会不断更新攻击手法来突破AI系统的防御。例如以黑产为代表的攻击者,会不断探测AI系统的漏洞,开发新的攻击工具,降低攻击成本来突破AI系统,获得高额的经济收益。
在实际场景中,我们需要从多个视角切入来应对与攻击者之间日益焦灼的对抗战役。一个非常有效的战略就是知己知彼,知彼就是从防御的视角切入,时时刻刻跟踪对手的动向,部署策略模型对各类攻击行为进行监测,对于这类技术我们称之为多维对抗技术,知己就是从评测的视角切入,实时检测AI系统中的漏洞并进行修补,降低攻击面、风险面,对于这类技术我们称之为AI模型安全开发生命周(AISDL),这也是借鉴应用安全领域的SDL理念。
多维对抗
多维对抗的核心理念就是把攻防链路进行切面(深度数据化),再充分融合机器智能和专家智能,结合威胁情报,化被动防御为主动攻防,在对手还在尝试阶段就能够发现异常行为,再通过置信度排序和团伙挖掘等进行审理定性、处置,是一个系统化的防御体系。
AI模型安全开发生命周期(AI SDL)
AI SDL是从安全角度指导AI模型开发过程的管理模式。AI SDL是一个安全保证的过程,它在AI模型开发的所有阶段都引入了安全和隐私的原则。具体来说,AI模型的生命周期包括模型设计、数据与预训练模型准备、模型开发与训练、模型验证与测试、模型部署与上线、模型性能监控、模型下线这七个流程。AI SDL通过安全指导这7个模型开发流程,保障模型在其全生命周期中的安全性。
总结与展望
人工智能技术已广泛应用于生物核身、自动驾驶、语音识别、自然语言处理和博弈等多种场景。人工智能技术在加速传统行业的智能化变革的同时,其安全性问题也越来越被人们关注。聚焦于人工智能安全问题,本文从AI模型、AI数据和AI承载系统三个角度系统地总结了人工智能技术所面临的威胁,介绍了面对这些威胁的防御手段,并面向工业界给出了安全的人工智能应用一站式解决方案。
人工智能应用在实际部署时面临对抗攻击、数据投毒攻击和模型窃取攻击等多种潜在威胁。在实际应用场景中,多种AI攻击同时存在,我们很难用单一的防御技术来应对现实场景中复杂的威胁。此外,在人工智能的攻防对抗过程中防御是更困难的一方,攻击者可以不断更新攻击技术来突破目前最有效的防御系统,然而新的防御系统却需要考虑现存的所有攻击技术。为了应对实际场景中复杂的威胁以及不断变化的威胁手段,AI安全研究人员更应从人工智能模型的可解释性等理论角度出发,从根本上解决人工智能模型所面临的安全问题。一方面,研究人员在模型的训练阶段可以通过选取或设计本身具有可解释性的模型,为模型增强泛化能力和鲁棒性;另一方面,研究人员要尝试解释模型的工作原理,即在不改变模型本身的情况下探索模型是如何根据输入样本进行决策的。