本文综合考虑AI技术在模型、数据、承载系统上对安全性的要求，我们用保密性、完整性、鲁棒性、隐私性来定义AI技术的安全模型，并且给出了人工智能安全目前面临的三大威胁：AI模型安全性问题、AI数据与隐私安全性问题，AI系统安全性问题。针对不同的安全威胁，提出了不同防御方法，包括数据投毒攻击、对抗样本攻击、数据隐私威胁。但在实际场景中， AI 系统遇到的威胁往往十分复杂，仅靠单一的防御技术无法有效抵御实际威胁。因此本文总结国内大厂采用的 AI 安全解决方案，然后再从这些方案中提炼出一套涵盖面更广泛的 AI 安全解决方案，主要包括多维对抗和AI SDL。

最后，人工智能应用在实际部署时面临对抗攻击、数据投毒攻击和模型窃取攻击等多种潜在威胁。为了应对实际场景中复杂的威胁以及不断变化的威胁手段， AI 安全研究人员更应从人工智能模型的可解释性等理论角度出发，从根本上解决人工智能模型所面临的安全问题。

引言

人工智能技术的崛起依托于三个关键要素：1）深度学习模型在机器学习任务中取得的突破性进展；2）日趋成熟的大数据技术带来的海量数据积累；3）开源学习框架以及计算力提高带来的软硬件基础设施发展。我们在本文中将这三个因素简称为AI模型、AI数据以及AI承载系统。在这三个要素的驱动下，AI技术已经成功应用于生物核身、自动驾驶、图像识别、语音识别等多种场景中，加速了传统行业的智能化变革。随着对这三个因素的探索持续深入，AI技术不仅在多个经典机器学习任务中取得了突破性进展，还广泛应用于真实世界中的各类场景。

为了应对AI技术的安全与隐私泄露威胁，学术界与工业界深入分析攻击原理，并根据不同的攻击原理提出一系列对应的防御技术。这些防御技术覆盖了数据收集、模型训练、模型测试以及系统部署等AI应用的生命周期，充分考虑了每个阶段可能引发的安全与隐私泄露威胁，详细分析了现有攻击方法的原理、攻击实施的过程以及产生的影响，并最终提出对应的防御技术。例如：为了防止攻击者在数据收集阶段污染训练数据并操纵模型训练参数，研究者分析了训练数据毒化对模型产生的影响，随后提出了利用聚类模型激活神经元来区分毒化和干净的数据的防御方法[9]；为了防止已经训练好的AI模型被嵌入攻击“后门”，研究者分析了模型中存在“后门”攻击的潜在特征，随后提出了模型剪枝/微调等方法来消除模型中存在的“后门”[10]；为了防止攻击者在测试阶段发起的对抗样本攻击，研究者提出使用JPEG压缩、滤波操作、图像模糊处理等方法对输入数据进行预处理，从而降低对抗性扰动带来的影响[11]。此外，为了防止AI模型在训练/测试阶段泄露模型的关键参数，研究者通过对模型结构的适当调整，降低模型过拟合度，从而减少模型泄露的参数信息。尽管上述研究为AI模型提供了有效的防御机制，但会不可避免地降低AI技术在应用中的判断准确率和执行效率。除了从技术层面防范AI安全威胁之外，越来越多的国家和地区推出了数据安全法律法规来保护用户的隐私数据。

综上所述，AI技术所面临的多种安全威胁将会对用户隐私数据造成泄露，并在实际应用场景中对用户的生命与财产带来损失的风险。为了应对AI技术所面临的安全与隐私威胁，本文系统性地总结了学术界与工业界对AI安全与隐私保护技术的相关研究成果。聚焦于AI技术中模型、数据与承载系统的安全问题。我们将首先详细介绍AI模型、数据与承载系统面临的安全威胁，然后逐一介绍针对这些威胁的防御技术，最后提出AI应用的一站式安全解决方案。

AI 技术与安全模型

人工智能是一种通过预先设计好的理论模型模拟人类感知、学习和决策过程的技术。完整的AI技术涉及到AI模型、训练模型的数据以及运行模型的计算机系统，AI技术在应用过程中依赖于模型、数据以及承载系统的共同作用。

AI 模型

模型是AI技术的核心，用于实现AI技术的预测、识别等功能，也是 AI 技术不同于其它计算机技术的地方。AI 模型具有数据驱动、自主学习的特点，负责实现机器学习理论和对应算法，能够自动分析输入数据的规律和特征，根据训练反馈自主优化模型参数，最终实现预测输入样本的功能。AI模型通常结合数据挖掘、深度神经网络、数值优化等算法层面的技术来实现其主要功能。以手写数字分类任务为例，AI模型需要判断输入图像是0-9中的哪个数字。为了学习手写数字分类模型，研究者构建训练数据集（例如：MNIST数据集）{xi,yi},i=1,2,...,N，其中xi,yi代表某张图像与其对应的数字。模型可以选取卷积神经网络y=fθ(x)，其中θ为卷积神经网络的参数。在训练过程中，AI模型使用优化算法不断调整卷积神经网络参数，使模型在训练集上的输出预测结果尽可能接近正确的分类结果。

AI 数据

数据是AI技术的核心驱动力，是AI模型取得出色性能的重要支撑。AI模型需要根据种类多样的训练数据，自动学习数据特征，对模型进行优化调整。海量的高质量数据是AI模型学习数据特征，取得数据内在联系的基本要求和重要保障。尽管AI技术所使用的算法大多在20年前就已经被提出来了，但是直到近些年来，随着互联网的成熟、大规模数据的收集和大数据处理技术的提升才得到了迅猛的发展。大规模数据是AI技术发展的重要支撑，具有以下几个特点：（1）数据体量大，AI模型主要学习知识和经验，而这些知识和经验来源于数据，然而单个数据价值密度较低，大体量的数据有助于模型全面学习隐含的高价值特征和规律；（2）数据多样性强，从各种各样类型的海量数据中，模型可以学习到多样的特征，从而增强模型的鲁棒性与泛化能力。

AI 承载系统

应用系统是 AI 技术的根基，AI 技术从模型构建到投入使用所需要的全部计算机基础功能都属于这一部分。一般的AI应用部署的流程大致如下：收集应用所需要的大规模数据，使用相关人工智能算法训练模型，将训练完成的模型部署到应用设备上。AI承载系统为AI技术提供重要的运行环境，例如：储存大规模数据需要可靠的数据库技术、训练大型AI模型需要巨大的计算机算力、模型算法的具体实现需要AI软件框架和第三方工具库提供稳定的接口，数据收集与多方信息交互需要成熟稳定的互联网通信技术。目前构建AI应用常使用的主流框架有Tensorflow、PyTorch等，框架高效实现了AI模型运行中所需要的各种操作，例如：卷积、池化以及优化等。这些框架提供了AI技术执行接口供研发人员调用，使其能够通过调用接口快速搭建自定义的AI模型，从而不需要花费太多精力关注底层的实现细节，简化了AI应用的开发难度，使开发人员能够更深入地关注业务逻辑与创新方法。这些优点使得AI技术快速发展，极大地促进了AI应用的落地和普及。

2.1安全技术

学术界与工业界的研究工作表明AI技术在应用过程中存在不可估量的安全威胁，这些威胁可能会导致严重的生命和财产损失。投毒攻击[1]毒害AI模型，使得AI模型的决策过程受攻击者控制；对抗样本攻击[3]导致模型在攻击者的恶意扰动下输出攻击者指定的错误预测；模型窃取攻击[8]导致模型的参数信息泄漏。此外，模型逆向工程[6]、成员推断攻击[12]、后门攻击[13]、伪造攻击[14]以及软件框架漏洞[15]等多种安全威胁都会导致严重的后果。这些潜在的威胁使模型违背了AI安全的基本要求。在本小节中，我们立足于AI技术在应用中面临的威胁，借鉴传统信息安全与网络空间安全的标准规范，讨论适用于AI技术的安全模型。

AI技术的崛起不仅依赖于以深度学习为代表的建模技术的突破，更加依赖于大数据技术与AI开源系统的不断成熟。因此，我们在定义AI安全模型的时候，需要系统性地考虑AI模型、AI数据以及AI承载系统这三者对安全性的要求。在AI模型层面，AI安全性要求模型能够按照开发人员的设计准确、高效地执行，同时保留应用功能的完整性，保持模型输出的准确性，以及面对复杂的应用场景和恶意样本的场景中具有较强鲁棒性；在AI数据层面，要求数据不会被未授权的人员窃取和使用，同时在AI技术的生命周期中产生的信息不会泄露个人隐私数据；在AI承载系统层面，要求承载AI技术的各个组成部分能够满足计算机安全的基本要素，包括物理设备、操作系统、软件框架和计算机网络等。综合考虑AI技术在模型、数据、承载系统上对安全性的要求，我们用保密性、完整性、鲁棒性、隐私性定义AI技术的安全模型，如下：

• 保密性 (Confidentiality)要求AI技术生命周期内所涉及的数据与模型信息不会泄露给未授权用户。

• 完整性 (Integrity) 要求 AI 技术在生命周期中，算法模型、数据、基础设施和产品不被恶意植入、篡改、替换和伪造。

• 鲁棒性 (Robustness) 要求 AI技术在面对多变复杂的实际应用场景的时候具有较强的稳定性，同时能够抵御复杂的环境条件和非正常的恶意干扰。例如：自动驾驶系统在面对复杂路况时不会产生意外行为，在不同光照和清晰度等环境因素下仍可获得稳定结果。

• 隐私性 (Privacy) 要求AI技术在正常构建使用的过程中，能够保护数据主体的数据隐私。与保密性有所区别的是，隐私性是AI模型需要特别考虑的属性，是指在数据原始信息没有发生直接泄露的情况下，AI模型计算产生的信息不会间接暴露用户数据。

2.2 AI 安全问题分类

我们在本小节讨论AI技术在应用过程中存在的安全威胁的分类方法，并且分析了常见的安全威胁具体违背了安全模型的哪些安全性要求。总体来说，我们根据AI技术涉及的三方面：模型、数据、承载系统，将AI安全威胁分为三个大类别，即AI模型安全、AI数据安全与AI承载系统安全。

•AI模型安全问题

AI模型安全是指AI模型面临的所有安全威胁，包括AI模型在训练与运行阶段遭受到来自攻击者的功能破坏威胁，以及由于AI模型自身鲁棒性欠缺所引起的安全威胁。我们进一步将AI模型安全分为三个子类，分别为：1）训练完整性威胁，攻击者通过对训练数据进行修改，对模型注入隐藏的恶意行为。训练完整性威胁破坏了AI模型的完整性，该威胁主要包括传统投毒攻击和后门攻击；2）测试完整性威胁，攻击者通过对输入的测试样本进行恶意修改，从而达到欺骗AI模型的目的，测试完整性威胁主要为对抗样本攻击；3）鲁棒性欠缺威胁，该问题并非来自于恶意攻击，而是来源于AI模型结构复杂、缺乏可解释性，在面对复杂的现实场景时可能会产生不可预计的输出。上述安全隐患如果解决不当，将很难保证AI模型自身行为的安全可靠，阻碍AI技术在实际应用场景中的推广落地。我们将在3.1小节中具体介绍这些安全威胁。

•AI数据安全问题

数据是AI技术的核心驱动力，主要包括模型的参数数据和训练数据。数据安全问题是指AI技术所使用的训练、测试数据和模型参数数据被攻击者窃取。这些数据是模型拥有者花费大量的时间和财力收集得到的，涉及用户隐私信息，因此具有巨大的价值。一旦这些数据泄露，将会侵犯用户的个人隐私，造成巨大的经济利益损失。针对AI技术使用的数据，攻击者可以通过AI模型构建和使用过程中产生的信息在一定程度上窃取AI模型的数据，主要通过两种方式来进行攻击：1）基于模型的输出结果，模型的输出结果隐含着训练/测试数据的相关属性。以脸部表情识别为例，对于每张查询的输入图片，模型会返回一个结果向量，这个结果向量可能包含关于脸部内容的信息，例如微笑、悲伤、惊讶等不同表情的分类概率，而攻击者则可以利用这些返回的结果信息，构建生成模型，进而恢复原始输入数据，窃取用户隐私[16]；2）基于模型训练产生的梯度，该问题主要存在于模型的分布式训练中，多个模型训练方之间交换的模型参数的梯度也可被用于窃取训练数据。

图2.1:AI技术面临的安全威胁与挑战、AI安全常用防御技术以及AI应用系统安全解决方案之间的关系

•AI承载系统安全问题

承载AI技术的应用系统主要包括AI技术使用的基础物理设备和软件架构，是AI模型中数据收集存储、执行算法、上线运行等所有功能的基础。应用系统所面临的安全威胁与传统的计算机安全威胁相似，会导致AI技术出现数据泄露、信息篡改、服务拒绝等安全问题。这些问题可以归纳为两个层面：1）软件框架层面，包含主流的AI算法模型的工程框架、实现AI技术相关算法的开源软件包和第三方库、部署AI软件的操作系统，这些软件可能会存在重大的安全漏洞；2）硬件设施层面，包含数据采集设备、GPU服务器、端侧设备等，某些基础设备缺乏安全防护容易被攻击者侵入和操纵，进而可被利用施展恶意行为。

图2.1详细描述了AI技术面临的安全威胁与挑战、AI安全常用防御技术以及AI应用系统安全解决方案之间的关系，例举了AI技术在应用过程中存在的安全威胁和防御技术的种类。在接下来的章节中，我们会全面介绍目前AI技术所面临的安全挑战，以及在现实场景中可能出现的安全隐患。

AI技术面临的三大威胁

3.1AI模型安全性问题

3.2.1模型训练完整性威胁

AI模型的决策与判断能力来源于对海量数据的训练和学习过程。因此，数据是模型训练过程中一个非常重要的部分，模型训练数据的全面性、无偏性、纯净性很大程度上影响了模型判断的准确率。一般来说，一个全面的、无偏的、纯净的大规模训练数据可以使模型很好地拟合数据集中的信息，学习到近似于人类甚至超越人类的决策与判断能力。例如：ImageNet数据集使AI模型在图像分类任务中取得的准确率超越了人类感官判断。但是，如果训练数据受到攻击者的恶意篡改，那么模型将学习到错误的预测能力。例如：在分类模型中，攻击者通过篡改训练数据集中特定样本的标签，导致模型测试阶段针对这些样本输出攻击者指定的标签。这类由数据全面性、无偏性、纯净性引起的安全威胁本质上破坏了模型的训练过程，使模型无法学习到完整的决策、判别能力。因此，在本文中，我们也将这类由数据引起的威胁归为破坏模型训练完整性的威胁。破坏模型训练完整性的攻击主要为数据投毒攻击[1],根据投毒的方法与类型，投毒攻击又可以进一步分为目标固定攻击与后门攻击。接下来，我们将简单介绍投毒攻击、目标固定投毒攻击与后门攻击。

数据投毒攻击

数据投毒攻击指攻击者通过在模型的训练集中加入少量精心构造的毒化数据，使模型在测试阶段无法正常使用或协助攻击者在没有破坏模型准确率的情况下入侵模型。前者破坏模型的可用性，为无目标攻击；后者破坏模型的完整性，为有目标攻击。数据投毒攻击最早由Dalvi等人在文献[1]中提出，他们利用该攻击来逃避垃圾邮件分类器的检测。后来，相关研究人员相继在贝叶斯分类器[40]和支持向量机[41]等机器学习模型中实现了数据投毒攻击。破坏完整性的投毒攻击具有很强的隐蔽性：被投毒的模型对干净数据表现出正常的预测能力，只对攻击者选择的目标数据输出错误结果。这种使AI模型在特定数据上输出指定错误结果的攻击会导致巨大的危害，在某些关键的场景中会造成严重的安全事故。因此，我们在本文中对投毒攻击进行了深入的分析探索，希望这部分内容对读者有所启发。根据攻击者在对毒化模型进行测试时是否修改目标数据，可以将这类攻击分为：目标固定攻击和后门攻击。

目标固定攻击是投毒攻击的一种。在这类攻击中，攻击者在模型的正常训练集Dc=(Xc,Yc)中加入精心构造的毒化数据Dp=(Xp,Yp)，使得毒化后的模型将攻击者选定的数据xs分类到目标类别yt，而不影响模型在正常测试集的准确率。构造毒化数据Dp的过程可以看作是一个双层优化的问题。其中，外层优化得到毒化数据Xp∗表示如下：

其中Ladv表示攻击者攻击成功的损失，θ∗表示在Xc∪Xp上训练得到的毒化模型，内层优化得到毒化模型θ∗表示如下：

可以看到目标梯度∇XpLadv同时由内外层损失函数决定。由于AI模型的目标函数是非凸化函数，上述的双层优化问题无法直接求解。

后门攻击

在这类攻击中，攻击者在模型的正常训练集Dc=(Xc, Yc)中加入精心构造的毒化数据集Dp=(Xp, Yp)，使得毒化后的模型将加入攻击者选定的后门触发器（Back door Trigger）的数据分类到攻击者的目标类别yt，而不影响模型的正常性能。以图像分类为例，攻击者在测试阶段在原图片xi上添加一个具体的图案或扰动作为后门触发器∆，具体的过程如下所示：

其中， ⊙ 表示元素积， m代表图像掩码。m的大小与xi和∆一致，值为1表示图像像素由对应位置∆的像素取代，而0则表示对应位置的图像像素保持不变。攻击者发动后门攻击的目标可以表示为下式：

其中，X表示模型输入空间的所有数据，θ∗表示受害者使用毒化后的数据训练得到的模型参数，训练过程的目标函数如下式所示：

其中，f代表模型结构，θ代表模型参数，ℓ代表损失函数。上式可以看作是多任务学习（Multi-taskLearning）。第一项代表模型在正常任务上的损失函数，这与Dc有关；第二项代表攻击者想要模型额外训练的后门任务上的损失函数，而这取决于Dp。所以后门攻击的关键在于构造合适的Dp，在经过受害者的训练后门任务后，达到目标。

3.2.2模型训练完整性威胁

模型测试阶段是指模型训练完成之后，模型参数被全部固定，模型输入测试样本并输出预测结果的过程。在没有任何干扰的情况下， AI模型的准确率超乎人们的想象，在ImageNet图像分类任务中，识别准确率已经超过了人类。但是，近些年来的研究表明：在模型测试阶段，AI模型容易受到测试样本的欺骗从而输出不可预计的结果，甚至被攻击者操纵。我们将这类威胁AI模型测试阶段正确性的问题定义为测试完整性威胁。对抗攻击与伪造攻击(Adversarial Attack or Evasion Attack) 是破坏模型测试完整性的典型威胁，本章重点关注对抗攻击与伪造攻击。

对抗攻击

对抗攻击是指利用对抗样本对模型进行欺骗的恶意行为。对抗样本是指在数据集中通过故意添加细微的干扰所形成的恶意输入样本，在不引起人们注意的情况下，可以轻易导致机器学习模型输出错误预测。误判既包括单纯造成模型决策出现错误的无目标攻击，也包括受到攻击者操纵导致定向决策的有目标攻击。对抗攻击最早由Szegedy等人提出，他们在最基本的图像分类任务中，向分类图像的像素中加入微小的扰动，使得分类模型的准确率严重下降，同时对抗样本具有很强的隐蔽性，攻击者做出的修改往往并不会引起人们的察觉。这类威胁来自于AI模型算法本身的缺陷，广泛存在于AI技术应用的各个领域之中，一旦被攻击者利用会造成严重的安全危害。例如：在自动驾驶中，对交通标志的误识别会造成无人汽车做出错误决策引发安全事故。对抗样本的发现严重阻碍着AI技术的广泛应用与发展，尤其是对于安全要求严格的领域。因此，近些年来对抗攻击以及其防御技术吸引了越来越多的目光，成为了研究的一大热点，涌现出大量的学术研究成果。

人工智能安全（上）

引言

AI 技术与安全模型

2.1安全技术

2.2 AI 安全问题分类

AI技术面临的三大威胁

3.1AI模型安全性问题

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

人工智能安全（上）

引言

AI 技术与安全模型

2.1安全技术

2.2 AI 安全问题分类

AI技术面临的三大威胁

3.1AI模型安全性问题

热门文章

最新文章

相关课程

相关电子书