CVPR 2022 | 联邦学习审计隐私新手段,田纳西大学等提出生成式梯度泄露方法GGL

简介: CVPR 2022 | 联邦学习审计隐私新手段,田纳西大学等提出生成式梯度泄露方法GGL
本文提 出一种利用生成 模型作为图片先验的梯度攻击方法GGL,由来自美国田纳西大学,美国橡树岭国家实验室,和谷歌共同完成,论文已被 CVPR 2022 接收。


联邦学习 (federated learning) 是一种在中心服务器 (server)的协调下利用分散在各用户 (client)的本地数据集协同训练模型的一种分布式训练模式。为保证参与方隐私,训练过程中,训练数据不会离开本地,取而代之的是模型相关的信息(例如模型架构,参数梯度)会被共享至服务器端,从而降低了数据泄露的风险。

然而这种梯度共享的训练方案并非绝对安全:尽管避免了中央服务器直接接触用户数据,服务器仍可使用梯度攻击从交换的参数梯度中复原用户的本地训练数据。方法是先随机生成虚拟训练数据,并以此生成虚拟梯度,再以缩小虚拟梯度与真实梯度差距为优化目标通过梯度下降反复迭代,即可还原用户私人数据。此种攻击被称为梯度泄露(gradient leakage)[1] 或梯度逆转(gradient inversion)[2]。

为防御此种梯度攻击,一些研究提出用户在上传前可先对梯度信息添加噪声扰动或者进行有损变换(例如梯度裁剪或梯度稀疏化处理)来更好的保障信息安全。此前研究 [3] 也表明混淆数据表征(data representation)并依此生成梯度信息亦可有效防止梯度泄露。

那么如何检验此类隐私防御的安全性?最直观的想法是可引入先验信息来补偿防御造成的信息损失。基于这一思想,本文探索一种新的梯度攻击方式 – 生成式梯度泄露(Generative Gradient Leakage,GGL)。相较于传统梯度攻击,GGL 通过借助生成对抗网络(Generative Adversarial Network, GAN)在公开数据集上提取的先验信息以及适应性梯度变换,可以从更少量有噪音的梯度信息中复原隐私数据,从而获得更强的防御耐受力。我们希望这种方法可作为一种实证研究的手段来帮助审计隐私防御下的数据泄露。

这项由美国田纳西大学,美国橡树岭国家实验室,和谷歌共同完成的研究已被 CVPR 2022 接收。



方法
给定训练数据 x,从其交换的梯度信息 y 中恢复训练数据的过程可被视为一个逆问题:



其中是前向运算符,用来计算损失并返回模型梯度。当用户在本地采取防御措施时,问题变为:


其中是用户施加的有损梯度变换,而是随机噪声。由于此问题高度非线性且不适定,以往的方法试图通过如下形式来求解:


其中是一种距离度量,而是标准图像先验(如 total variation)。尽管这种方法可以有效从真实梯度中还原训练图像,当面临低保真且有噪声的梯度信息时,往往难以还原出真实的自然图片。

图 1 - 方法整体思想

近年来深度学习模型已在压缩感知中被作为图片先验广泛运用。受此启发,本文利用在公开数据集上预训练的生成模型(GAN)作为先验,在 GAN 的潜在空间中寻找最接近真实图片梯度的隐形表达,以此来降低搜索空间并提升生成图片质量,同时在优化过程中可以采取相同变换进行适应性攻击。给定预训练生成模型,我们求解以下优化问题:


其中为 GAN 的潜在空间,而是正则化项。由于此优化问题非凸,选取合适的优化策略对于求解后生成的图像质量非常重要。此前梯度攻击中多选取基于梯度的优化算法,如 Adam 和 L-BFGS。然而这类优化器的效果非常依赖起始点的选择,往往需要多次尝试才能找到相对合适的解。并且我们发现,对于复杂的生成器,梯度优化算法非常容易收敛至局部最优,导致最后还原效果很差。因此,我们探索了两种无梯度的优化算法,即 Bayesian Optimization (BO) 和 Covariance Matrix Adaptation Evolution Strategy (CMA-ES)。

实验

本文在 ImageNet 图像分类和 CelebA 人脸数据集上进行了实验验证。图 1 和表 1 分别定性和定量地比较了不同优化方法的还原效果。可以看出基于梯度和无梯度优化算法在 CelebA 数据集上还原效果相近。然而,在更复杂的 ImageNet 数据集上,无梯度优化方法的还原结果明显优于基于梯度的算法,其中,CMA-ES 还原效果最优。因此,GGL 选取 CMA-ES 在作为默认优化器进行后续实验。

图 2 - 不同优化器效果的视觉比较


表 1 - 不同优化器效果的定量比较

图 3 和图 4 分别在 CelebA 和 ImageNet 数据集上比较了 GGL 和现存攻击方法在面对不同防御的情况下的还原效果。从视觉比较及表 2 的定量结果中可以看到,相比于其他还原方法,借助于生成模型的图片先验,GGL 即便是在面对较强的防御方法时也可以从有损失的梯度中有效还原出大部分的图片信息。

图 3 - CelebA 实验结果

图 4 - ImageNet 实验结果

表 2 - 定量比较结果

图 5 展示了 GGL 面对梯度噪声和梯度剪裁,以及两者结合的防御情况下的还原效果。可以看到,与仅添加噪声或梯度剪裁相比,当面对梯度噪声 + 剪裁时,GGL 还原图片的质量有所下降,但仍可一定程度上还原原始图片的信息。

图 5 - 组合防御结果

通过利用在公开数据集上提取的先验信息以及适应性梯度变换,GGL 在面对一些隐私防御时仍可有效还原出大部分图片信息,从而可以作为一种审计隐私手段来分析数据泄露风险。

参考文献[1] Zhu, Ligeng, et al. "Deep leakage from gradients." Advances in Neural Information Processing Systems. 2019.[2] Geiping, Jonas, et al. "Inverting gradients-how easy is it to break privacy in federated learning?." Advances in Neural Information Processing Systems. 2020.[3] Sun, Jingwei, et al. "Soteria: Provable defense against privacy leakage in federated learning from representation perspective." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

相关文章
|
8月前
|
机器学习/深度学习 计算机视觉
【Tied-Augment】卷出新花样:加强数据增强的有效性!从一篇顶刊论文中窥探的一些信息,
【Tied-Augment】卷出新花样:加强数据增强的有效性!从一篇顶刊论文中窥探的一些信息,
114 0
【Tied-Augment】卷出新花样:加强数据增强的有效性!从一篇顶刊论文中窥探的一些信息,
|
5月前
|
机器学习/深度学习 人工智能 大数据
基于联邦学习的数据隐私保护机制在智能模型训练中的应用
【8月更文第15天】随着大数据和人工智能的发展,数据隐私保护成为了亟待解决的问题。传统的集中式机器学习方法需要将数据收集到一个中心服务器进行处理,这不仅增加了数据泄露的风险,还可能触犯相关的法律法规。联邦学习(Federated Learning, FL)作为一种新兴的分布式机器学习框架,允许终端设备直接在本地数据上训练模型,并仅将更新后的模型参数发送给中心服务器汇总,从而在不暴露原始数据的情况下实现模型训练。
205 0
|
7月前
|
机器学习/深度学习 数据采集 算法
未来研究将深入探索深度学习的应用及数据质量与安全问题
【6月更文挑战第13天】本文探讨了使用Python和机器学习预测股票价格的方法,包括数据收集与预处理(填充缺失值、处理异常值、标准化)、特征选择(技术指标、基本面指标、市场情绪)、模型选择与训练(线性回归、SVM、神经网络等)、模型评估与调优。尽管股票价格受多重因素影响,通过不断优化,可构建预测模型。未来研究将深入探索深度学习的应用及数据质量与安全问题。
67 5
|
8月前
|
机器学习/深度学习 人工智能
谷歌提出大规模ICL方法——强化和无监督
【5月更文挑战第26天】谷歌DeepMind团队提出Many-Shot ICL,一种强化和无监督学习方法,用于提升大型语言模型处理多样化任务的能力。通过提供更多示例,模型无需权重更新即可学习新任务。研究还引入Reinforced ICL和Unsupervised ICL,减少对人类生成输出的依赖。Many-Shot ICL能有效克服预训练偏见,但示例顺序对其性能至关重要。然而,NLL作为评估指标的局限性被指出,且增加示例数量可能降低性能。该研究为改进LLMs提供了新视角,但仍需在更多模型和场景中验证。[链接: https://arxiv.org/abs/2404.11018]
83 1
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
论文推荐:大语言模型在金融领域的应用调查
这篇论文总结了现有LLM在金融领域的应用现状,推荐和金融相关或者有兴趣的朋友都看看
371 0
|
机器学习/深度学习 算法 数据安全/隐私保护
「隐语小课」一种度量联邦学习中梯度泄露程度的方法
「隐语小课」一种度量联邦学习中梯度泄露程度的方法
404 0
|
存储 人工智能 分布式计算
大模型时代,一定要来讨论下数据与隐私
大模型时代,一定要来讨论下数据与隐私
192 0
|
机器学习/深度学习 人工智能 算法
五篇论文,追踪可信联邦学习医疗领域研究前沿
五篇论文,追踪可信联邦学习医疗领域研究前沿
150 0
|
机器学习/深度学习 存储 人工智能
AI挑战国际数学奥林匹克竞赛,Meta神经定理证明器拿到多项SOTA
AI挑战国际数学奥林匹克竞赛,Meta神经定理证明器拿到多项SOTA
140 0
|
机器学习/深度学习 人工智能 数据挖掘
DeepMind提出了一种祖安AI,专门输出网络攻击性语言
DeepMind提出了一种祖安AI,专门输出网络攻击性语言
226 0