「隐语小课」LDP和CDP在联邦学习中对于隐私性以及鲁棒性的作用

简介: 「隐语小课」LDP和CDP在联邦学习中对于隐私性以及鲁棒性的作用


收录于合集#隐语小课23个

本次分享内容为NDSS收录的一篇文章:《Local and Central Differential Privacy for Robustness and Privacy in Federated Learning》。这篇论文主要分析了LDP和CDP在联邦学习中对于隐私性以及鲁棒性的作用。围绕这篇论文的分享将分为以下4个部分:

  • 动机与方法
  • 背景知识
  • 针对FL的攻击方法与防御方法
  • 总结

一、动机与方法1.动机:现有防御手段只能针对隐私性以及鲁棒性两个维度中的一个进行保护,因此抛出两个问题:

  • 是否能同时对上述两个维度进行保护?
  • 如何衡量保护效果与模型可用性之间的trade-off?

2.方法及达到的效果:总结了针对FL的两个维度,即鲁棒性和隐私性的现有攻击以及防御手段,分析了分析LDP和CDP对于FL中的鲁棒性和隐私性的保护效果,其可行性的Intuition在于:LDP 是sample-level,CDP是participant-level,能够不同程度的降低‘poisonous data or gradients’在训练中的影响,同时能够提供不同程度的隐私保护。此外,在实际的数据集上进行了大量的实验比较,验证了LDP和CDP的作用。 二.背景知识

1.联邦学习

图片来源:https://air.tsinghua.edu.cn/info/1008/1312.htm

联邦学习最早由Google提出,主要的思想是各个数据方本地迭代训练模型,得到模型的梯度,再交由中心服务器进行梯度的聚合,并将聚合后的梯度发送给各个数据方。为了保护模型的梯度以及抵御恶意攻击,中心服务器会采用不同的聚合方法或者同态加密的技术,提高安全性以及鲁棒性。

2.差分隐私

差分隐私提供了一种方式来量化隐私泄露的程度,其标准定义为:而用于机器学习领域,可以用于在发送或者聚合梯度是对包含隐私信息的梯度加噪:

3.差分隐私+联邦学习

加噪的常见位置有:

  • Loss Function:修改模型的损失函数
  • Model:对训练好的模型参数加噪
  • Gradients:对模型训练过程中的梯度加噪

目前使用最多的为对梯度加噪,修改损失函数需要分析模型的收敛性,而对最终模型加噪可能会导致严重的精度损失。加噪的常见方式有如下两种,基于DP-SGD [1]

  • LDP:local differential privacy。即由各方本地对还未聚合的梯度加噪

  • CDP:central differential privacy。即由中心服务器对聚合的梯度加噪

上述两种加噪方式都是在计算梯度的时候,根据梯度的二范数添加噪声。三.针对FL的攻击方法与防御方法鲁棒性(Robustness)

1.攻击方法

投毒攻击(注意,此种攻击假设的adversary只有client),有如下分类

  • Random: 构造一些随机样本/梯度,或者错分类的样本来降低最终模型的Acc
  • Target (Backdoor): 构造特定的样本/梯度,使得特定sample的分类结果为指定值

此篇文章针对的是Target,即Backdoor后门攻击。后门攻击中 [2,3],模型参数使用表示,backdoored version 用 表示,在聚合时使用model-replacement的方式实现攻击:因此有:

2.防御方法

  • Byzantine-robust 防御:Krum,Trimmed Mean…
  • 这里没有分析对于Bzyzantine 相关的defense,claim是这些方案并没有提供privacy相关保护
  • Sun et al.[2] 提出Norm Bounding 和 Weak DP 来防御攻击
  • Norm Bounding:通过对梯度进行限制,减弱恶意攻击方的梯度对于模型训练的影响

  • Weak DP:类似CDP,但是没有考虑Total Privacy Budget,即会导致添加的噪声过多,影响模型的可用性
  • Small noise, large privacy loss

3.实验结果

实验设置:选取两个数据集上的实验为例

  • EMNIST- 5-layer CNN. 2400 clients
  • CIFAR10 – ResNet18 100 clients

评估的metrics为Main Task Accuracy 以及 Backdoor Accuracy。前者代表了模型的可用性(越高说明可用性越好),后者代表了抵御攻击的能力(越低说明Backdoor成功的几率越小)。Setting 1:使用[2]中的攻击方法,每轮迭代中只有一个攻击方图三可以看到如果没有加任何防御手段,虽然Main Task Accuracy很高,但是相应的 Backdoor Accuracy也很高,说明后门攻击的效果很好。Norm Bounding和Weak DP都能带来一定程度的抵御,但是Norm Bounding在训练多轮之后仍然会导致较高的Backdoor Accuracy。LDP和CDP对于后门攻击的抵御效果显著,但是epsilon的增加会导致utility的下降,Main Task Accuracy对比Weak DP较低。Setting 2: 增加每一轮迭代中攻击方的数量,并且攻击方可以选择是否按照协议执行LDP defense

LDP和CDP相较Norm Bounding和Weak DP能够起到很好的防御效果,然而也导致utility下降。值得注意的是,LDP防御中只需要10%的攻击方不添加噪声,能够比没有defense起到更强的attack 效果。这是因为没有加DP的梯度对聚合的模型梯度有更大影响。

单从robustness上来看的话,LDP和CDP没有显著的优势。此外,CDP会对server有安全假设,而LDP对于攻击的防御很弱(假设client为攻击方)

隐私性(Privacy)

1.攻击方法

注意,此种攻击假设的adversary可以是client,也可以是server

  • Membership Inference Attack [4]:
  1. Gradient Ascent
  2. Isolating
  3. Isolating Gradient Ascent
  • Property Inference Attack [5]:(需要有数据)
  1. Passive:通过使用不同数据的梯度,根据梯度判断训练数据是否包含特定属性
  2. Active:修改local model使得模型学习的数据表示和property相关

2.防御方法

  • Dropout
  • Gradient Sampling

不过这篇文章并没有针对现有的这些方案进行实验对比,仍然选择Norm Bounding 和Weak DP进行实验对比。

3.实验结果

Membership Inference AttackLDP和CDP能够显著抵御membership inference attack,而Norm Bounding 和 Weak DP的防御效果很弱。LDP和CDP的缺点在于,同样会导致更高的utility loss,模型Main Task Accuracy相比不加defense下降了十几个点。因此这是utility和privacy的一个trade-off。

Property Inference Attack主要任务是性别分类,property inference的目的是判断种族实验结果可以看到LDP和CDP均不能很好的抵御Property Inference Attack。     四.总结      相较现有的分别针对鲁棒性和隐私性的防御方法,LDP和CDP能够同时抵御这两类攻击。但是也存在utility和privacy的显著trade-off,并且不能低于property inference attack。未来需要考虑将LDP、CDP和现有的防御手段进行结合,在提高鲁棒性和隐私性的同时,减少可用性的损失。此外,作者指出需要设计出更加合理实际的方法来比较CDP和LDP所提供的隐私保护程度。Ref[1]: Deep Learning with Differential Privacy. CCS 2016[2]: Can You Really Backdoor Federated Learning.[3]: How To Backdoor Federated Learning.

[4]: Comprehensive privacy analysis of deep learning. S&P 2019

[5]: Exploiting unintended feature leakage in collaborative learning. S&P 2019


相关文章
|
机器学习/深度学习 算法 TensorFlow
「隐语小课」深度学习下的DP-SGD
「隐语小课」深度学习下的DP-SGD
1143 0
|
算法 计算机视觉
数字图像处理实验(四)|图像压缩与编码实验{JPGE编码、离散余弦变换DCT、图像分块dctmtx|blkproc}(附matlab实验代码和截图)
数字图像处理实验(四)|图像压缩与编码实验{JPGE编码、离散余弦变换DCT、图像分块dctmtx|blkproc}(附matlab实验代码和截图)
1262 0
数字图像处理实验(四)|图像压缩与编码实验{JPGE编码、离散余弦变换DCT、图像分块dctmtx|blkproc}(附matlab实验代码和截图)
|
1月前
|
安全 网络安全 数据安全/隐私保护
解决SSH测试连接GitHub时出现“connection closed by remote host”的问题。
然后使用 `ssh -T git@ssh.github.com`来测试连接。
159 0
|
6月前
|
数据可视化 固态存储 图形学
解锁3D创作新姿势!Autodesk 3ds Max 2022中文版安装教程(附官方下载渠道)
Autodesk 3ds Max 2022 是一款专业三维建模、动画和渲染软件,广泛应用于影视、游戏、建筑等领域。其特点包括智能建模工具、高效Arnold渲染引擎、跨平台协作及多语言支持。安装需满足Win10/11系统、i5以上处理器、8GB内存等要求。正版安装流程包括下载官方程序、配置组件、激活许可证并验证功能。常见问题如安装失败、中文乱码等提供了解决方案。扩展学习资源推荐Forest Pack、V-Ray等插件,助力用户深入掌握软件功能。
916 24
|
机器学习/深度学习 并行计算 PyTorch
如何搭建深度学习的多 GPU 服务器
如何搭建深度学习的多 GPU 服务器
如何搭建深度学习的多 GPU 服务器
|
存储 开发框架 .NET
【博士每天一篇文献-综述】A Comprehensive Survey of Continual Learning Theory, Method and Application
本文综述了持续学习的理论基础、方法论和应用实践,探讨了五种主要的解决策略,包括基于回放、架构、表示、优化和正则化的方法,并深入分析了持续学习的不同场景、分类、评价指标以及面临的挑战和解决方案。
447 1
【博士每天一篇文献-综述】A Comprehensive Survey of Continual Learning Theory, Method and Application
|
12月前
|
运维 NoSQL Redis
镜像包是什么
镜像包是什么
467 3
|
分布式计算 容灾 大数据
MaxCompute( 原名ODPS)大数据容灾方案与实现(及项目落地实例)专有云
一,背景与概述    复杂系统的灾难恢复是个难题,具有海量数据及复杂业务场景的大数据容灾是个大难题。    MaxCompute是集团内重要数据平台,是自主研发的大数据解决方案,其规模和稳定性在业界都是领先的。
2719 17
|
Kubernetes Java 调度
Java容器技术:Docker与Kubernetes
Java容器技术:Docker与Kubernetes
339 0
|
Java Maven
maven配置阿里云镜像源
maven配置阿里云镜像源
39240 1