1 介绍
年份:2024
作者:Nicolò Romandini,博洛尼亚大学;Alessio Mora
期刊: arXiv未发表
引用量:5
代码:https://github.com/alessiomora/unlearning_fl
Romandini N, Mora A, Mazzocca C, et al. Federated unlearning: A survey on methods, design guidelines, and evaluation metrics[J]. arXiv preprint arXiv:2401.05146, 2024.【引用量5】
论文探讨了联邦学习(Federated Learning, FL)中的一个新兴领域——联邦遗忘(Federated Unlearning, FU)。提供了联邦遗忘领域的全面综述,包括背景概念、动机、挑战以及与机器遗忘的区别,提供了一套详尽的联邦遗忘算法设计和实现指南,包括算法应满足的要求和评估指标的深入分析。建立了一个评估联邦遗忘效果的指标体系,包括效率提升、性能恢复和遗忘验证等指标。本文将联邦遗忘算法分为客户端遗忘、类遗忘、样本遗忘、基于梯度修改、聚类、贝叶斯FL、差分隐私以及其他方法等类别。总结了联邦遗忘的经验教训以及联邦遗忘存在的挑战。
2 创新点
- 全面综述:提供了联邦遗忘领域的全面综述,包括背景概念、动机、挑战以及与机器遗忘的区别。
- 实证分析:通过一系列实验,展示了联邦学习全局模型如何记忆个体客户端的数据贡献,并分析了这种记忆随时间的衰减情况。
- 设计指南::提供了一套详尽的联邦遗忘算法设计和实现指南,包括算法应满足的要求和评估指标的深入分析。
- 评估指标体系:建立了一个评估联邦遗忘效果的指标体系,包括效率提升、性能恢复和遗忘验证等指标。
- 新分类法:提出了一种新的分类法,根据目标遗忘对象和使用的评估指标对现有文献中的联邦遗忘方法进行分类。
- 技术挑战与未来方向:明确指出了当前联邦遗忘研究面临的技术挑战,并提出了未来研究的有前景的方向。
- 跨学科视角:结合了机器学习、隐私保护、安全性等多个领域的知识,提供了跨学科的研究视角。
3 基本概念
机器遗忘 (Machine Unlearning, MU):
- 定义:从已训练的模型中移除特定数据子集的影响。
- 目标:通过后处理训练模型,选择性地消除特定训练样本的影响。
- 挑战:重新训练模型以实现数据遗忘在计算上昂贵且不切实际。
联邦学习 (Federated Learning, FL):
- 定义:一种分布式机器学习方法,允许多个客户端协作训练模型,同时保持数据在本地存储。
- 过程:通过聚合参与者的贡献(例如模型更新或梯度)来迭代构建全局模型。
- 隐私保护:FL通过交换模型更新而非原始数据来增强隐私保护,但并不保证完全隐私。“C. Catastrophic Forgetting and Differential Privacy” 部分介绍了两种与遗忘算法效果相似但在原则上有显著不同的概念:灾难性遗忘和差分隐私。以下是这部分内容的分点总结:
灾难性遗忘 (Catastrophic Forgetting):
- 定义:在持续学习(Continual Learning, CL)领域中,神经网络在适应新任务时往往会破坏之前学习任务的表示,这种现象称为灾难性遗忘。在FL中的表现:由于每轮参与数据分布的变动,FL训练中也会发生灾难性遗忘,导致全局模型在特定轮次的数据分布上过度专业化,而难以泛化。与遗忘的关系:尽管灾难性遗忘看似是遗忘的一种自然方法,但实际上即使某个参与者退出训练,全局模型仍然保留了从其数据中学到的贡献。因此,依赖灾难性遗忘作为遗忘策略是不可靠的。
差分隐私 (Differential Privacy, DP):
- 目标:在机器学习中,确保公开发布的模型参数不会泄露有关原始训练数据的敏感信息,即使攻击者可以访问辅助信息。
- 原理:DP通过在数据库的分析过程中保证个体数据的包含或排除不会对结果产生实质性影响,从而实现对个体隐私的保护。
- 应用:在ML/DL模型中,DP通过注入ϵ-校准的噪声(例如高斯分布中的噪声)来干扰模型更新或梯度,以保护隐私,但这可能会降低模型性能。
- 与FL的关系:DP应在FL过程的开始就应用,因此不能无缝集成到正在进行的训练中;此外,当需要从恶意客户端中移除有害贡献时,DP并不提供帮助。
DP与遗忘的比较
- DP提供了一种数学上严格的隐私保护形式,通过隐私预算参数δ来量化隐私保护的程度。
- 遗忘算法与DP不同,它们专注于从模型中移除特定数据的影响,而DP则关注在不泄露个体信息的情况下从整体数据中提取有用信息。
- DP在FL中的集成需要从训练开始就进行,不能中途加入。
- 当需要移除恶意客户端的有害贡献时,DP无法提供帮助,这表明需要其他工具,如联邦遗忘,来解决这一问题。
数据隐私法规:
- 背景:随着对个人信息处理的敏感性增加,全球范围内建立了隐私保护法规,如GDPR和CCPA。
- 要求:这些法规包括用户可以要求删除其先前自愿披露的个人数据。
数据被遗忘的权利:
- 在机器学习和深度学习领域实现数据删除可以通过机器遗忘来完成,允许数据所有者因隐私或安全问题撤回对训练模型的贡献。
联邦遗忘FL
9.- 随着隐私意识的提高和数据规定的采纳,传统的集中式机器学习和深度学习受到挑战,FL被视为保护隐私的机器学习解决方案。
- 即使FL不直接共享原始数据,模型更新或梯度的披露也可能暴露有关客户端训练数据的信息。
- 在FL环境中实现联邦遗忘比传统的机器遗忘更具挑战性,因为需要在不重新训练整个模型的情况下,有效地从全局模型中移除特定客户端的数据贡献。
- 需要新的联邦遗忘算法来保证个体能够在不损害已获得的“良好”知识的前提下,移除他们的数据和恶意贡献。
4 联邦遗忘概述
- 联邦遗忘概述:
- 定义:在FL环境中,当客户端请求从全局模型中移除其数据贡献时,需要执行的遗忘过程。
- 目标:生成一个新的全局模型版本,该版本在性能上与未包含请求遗忘客户端的数据训练出的模型相似或几乎无法区分。
- 联邦遗忘的目标:
- 样本遗忘:移除特定数据样本对训练模型的贡献。
- 类遗忘:移除属于特定类别的所有数据样本对训练模型的贡献。
- 客户端遗忘:在联邦环境中特有的遗忘形式,与被遗忘权相关,涉及移除整个客户端数据集的贡献。
- 为什么需要遗忘:
- 即使数据未直接共享,FL中的全局模型可能仍会泄露有关客户端私有数据的信息,可能至少面临成员资格攻击。
- 实验结果表明,包含特定客户端的全局模型在该客户端的训练数据上表现显著更准确,表明可能存在信息泄露。
- 联邦遗忘的挑战:
- 迭代学习过程:FL算法的迭代性质意味着一旦客户端请求遗忘,所有后续的全局聚合都需要被无效化。
- 非确定性训练过程:客户端参与的动态性使得精确复现特定轮次后的FL过程变得不现实。
- 数据的不可窥视性:FL中的数据保持私密,这阻碍了直接访问数据以执行遗忘的尝试。
- 执行遗忘的实体:
- 服务器:拥有更多计算能力和存储容量,但涉及隐私问题。
- 目标客户端:可以直接访问要遗忘的数据,但可能存在安全问题。
- 其他客户端:可以用于恢复被遗忘模型的性能。
- 遗忘算法的要求:
- 与重新训练策略相比提高效率。
- 保留或恢复性能,确保遗忘后模型在测试数据上的表现与原始模型相当。
- 有效的遗忘,确保在遗忘数据上的表现与重新训练的模型相似。
- 评估遗忘的指标:
- 提高效率的指标:比较遗忘算法与基线模型恢复性能所需的时间。
- 恢复的性能指标:确保遗忘模型在测试数据上的性能与原始模型相当。
- 遗忘验证指标:确保遗忘模型在特定数据上的表现与重新训练的模型有显著差异。
5 相关研究
4.1 客户端遗忘
- 基于历史更新的重新校准(Re-calibration of Historical Updates):
- FedEraser [54]: 利用服务器端存储的历史参数更新进行重新训练,加速恢复阶段。
- FRU [57]: 基于FedEraser,针对联邦推荐系统设计的遗忘算法。
- FedRecover [58]: 使用历史信息恢复中毒模型的方法。
- VeriFi [27]: 提供用户验证(RTV)的统一框架,包括遗忘模块和验证模块。
- 知识蒸馏(Knowledge Distillation, KD):
- Wu et al. [60]: 基于KD的FU机制,使用代理未标记数据快速恢复全局模型性能。
- MoDe [56], HDUS [61]: 通过动量退化和记忆引导阶段进行知识擦除和恢复。
- 梯度修改(Gradient Modification):
- Halimi et al. [50]: 直接在目标客户端执行遗忘的方法,使用投影梯度上升。
- SFU [62], QuickDrop [71]: 利用梯度上升和数据集蒸馏进行遗忘和恢复。
- FedFilter [72], 2F2L [73]: 边缘缓存方案和可遗忘的联邦线性学习框架。
- 聚类(Clustering):
- KNOT [51]: 执行客户端聚类以加速异步FL中的重训练。
- 贝叶斯FL(Bayesian FL):
- Gong et al. [55, 64, 65, 66]: 结合贝叶斯方法与FL,提出多种联邦贝叶斯遗忘方法。
- 差分隐私(Differential Privacy, DP):
- Zhang et al. [67]: 在他们的遗忘机制中嵌入DP,消除客户端影响并注入高斯噪声。
- 其他方法(Other Approaches):
- Tao et al. [70]: 基于总变差稳定性的精确FU框架。
- RevFRF [68]: 为联邦随机森林支持安全参与者撤销的框架。
- Pan et al. [69]: 执行联邦K-means++的新型FU算法。
4.2 类别遗忘
- 类修剪(Class Pruning):
- Wang et al. [53]: 通过选择性修剪在目标类别上具有高判别力的通道来实现FU。
- 知识蒸馏(Knowledge Distillation, KD):
- MoDe [56]: 通过动量退化和记忆引导阶段进行知识擦除和恢复。
4.3 样本遗忘
- 样本遗忘(Sample Unlearning):
- Liu et al. [52]: 提出利用低成本的Hessian近似方法的快速重训练策略。
- FedME2 [74]: 包含记忆评估和擦除模块的FU框架,用于移动网络数字孪生(DTMN)。
- 梯度修改(Gradient Modification):
- Halimi et al. [50]: 直接在目标客户端执行遗忘的方法,使用投影梯度上升。
- SFU [62], QuickDrop [71]: 利用梯度上升和数据集蒸馏进行遗忘和恢复。
- FedFilter [72], 2F2L [73]: 边缘缓存方案和可遗忘的联邦线性学习框架。
- 量化(Quantization):
- Xiong et al. [75]: 引入Exact-Fun,一种量化的FU算法,设计用于消除目标客户端数据的影响。
- 强化学习(Reinforcement Learning):
- Shaik et al. [43]: 提出FRAMU,一个基于注意力的MU框架,利用联邦强化学习。
6 联邦遗忘的经验和教训
- 动机:
- FU方案被提出作为保护隐私和/或增强安全性的有价值机制。
- 从隐私角度来看,FU可以保证被遗忘的权利;从安全角度来看,它是减轻恶意客户端影响的技术,通过消除其贡献(例如,被污染的数据和后门)。
- 经验证据:
- 特定客户端的贡献对全局模型有明显影响,如果客户端被包含在客户端池中,模型在该客户端的样本上输出的预测精度显著更高。
- 客户端的参与在该轮次的客户端训练数据上会导致准确度显著提升(和损失降低)。
- 仅通过排除客户端来实现自然遗忘(希望利用灾难性遗忘快速移除其贡献)并不是一个可行的选项。实际上,当数据是同质的时候,客户端参与的影响会非常缓慢地消退,并且在接下来的多轮中仍然明显。
- 要求和指标:
- 一个遗忘算法应该比重新训练的替代方案更高效,并且(微调后的)遗忘全局模型应该达到与原始模型相当的泛化性能。
- 同时,有效的遗忘应该确保遗忘后的全局模型在面对被遗忘数据时不会过度自信地响应。
- 对于提高效率和恢复性能,通常使用速度比和测试准确率作为评估指标,但对于遗忘验证,文献中的工作则不那么一致。
- 方法:
- 大多数提出的解决方案集中在完全移除特定客户端的贡献上,即客户端遗忘。
- 为特定FU目标设计的算法可能具有更广泛的适用性。例如,客户端遗忘在被遗忘的样本仅由单一客户端提供且涵盖其所有数据时与样本遗忘重合。
- 客户端遗忘也可以视为类别遗忘的特例,适用于只有单一客户端对目标类别有贡献的情况。
7 挑战和未来的研究方向
- 标准化
- 目前FU方案的评估缺乏标准化,尤其在实验数据集的选择和评估遗忘算法效果的指标上。
- 需要建立共同基础,提供统一的数据集和标准化的评估指标,以确保评估和比较的公平性。
- 避免遗忘的激励机制
- 现有文献主要集中在保障用户被遗忘权利的方案上,而如何激励客户端持续贡献的研究相对较少。
- 设计有效的激励机制是一个复杂任务,需要区分不同质量和类型的客户端。
- 多重遗忘请求
- 尽管在现实场景中客户端可能会连续发出多个遗忘请求,但现有的FU方法几乎没有考虑到这种情况。
- 需要设计能够同时处理多个遗忘请求的FU机制。
- 特征遗忘
- 现有研究主要关注水平FU,而垂直FU(即特征遗忘)在文献中探讨较少。
- 特征遗忘在垂直FL(Vertical Federated Learning, VFL)中是独特的,需要开发新的技术来应对这一挑战。
- 安全性和隐私保护
- 执行遗忘操作时,需要确保服务器和客户端之间的信任,以及数据的正确性。
- 需要构建可信赖的FU机制,以解决恶意参与者可能引起的问题,并保护客户端数据的隐私。
- 客户端间数据异质性
- 数据异质性在FL环境中自然出现,但其对FU算法的影响往往未被充分探索。
- 需要更深入地理解数据异质性如何影响FU算法的鲁棒性和适应性。
- 未来研究方向
- 强调了需要进一步探索的领域,包括但不限于标准化、激励机制、多重遗忘请求处理、特征遗忘、安全性和隐私保护,以及数据异质性对FU算法的影响。
8 数据集
- 数据集选择:
- 实验使用了三个数据集:CIFAR-100、Caltech-2011(鸟类)和FGVC-Aircraft(飞机)。
- 数据集特点:
- CIFAR-100:包含60,000个32x32彩色图像样本,分为100个类别。
- Caltech-2011(鸟类):包含11,788个彩色图像样本,分为200个类别。
- FGVC-Aircraft(飞机):包含10,000个飞机图像样本,分为100个变体类别。
- 数据集预处理:
- 所有图像被调整至224x224像素,以匹配变换器模型的输入尺寸。
- 对训练图像应用了随机裁剪和水平翻转的预处理操作。
- 数据分布:
- 提供了两种数据分配设置:独立同分布(IID)和非IID(通过标签偏斜模拟)。
- 非IID设置使用α=0.1的浓度参数来控制Dirichlet分布,影响数据在客户端之间的分布。
- 客户端模拟:
- 在IID设置中,确保每个客户端至少有每个类别的一定数量的独特样本。
- 在CIFAR-100数据集上模拟了100个客户端,在Caltech-2011数据集上模拟了29个客户端,在FGVC-Aircraft数据集上模拟了65个客户端。
- 每轮参与客户端:
- 在每轮训练中,从所有客户端中随机选择一部分参与训练:
- CIFAR-100:每轮10个客户端参与。
- Caltech-2011:每轮5个客户端参与。
- FGVC-Aircraft:每轮7个客户端参与。
- 在每轮训练中,从所有客户端中随机选择一部分参与训练:
9 思考
(1)有代码,有基准、有评价指标
(2)TABLE V: Summary of FU referenced works中的Remaining Clients、Server、Target Client、 Target Client、All Clients表示什么意思?
指的是在联邦遗忘过程中参与并承担不同角色或责任的实体:
- Remaining Clients:
- 指在某个客户端请求遗忘其数据后,除了目标客户端之外的其他参与联邦学习过程的客户端。它们可能需要协助进行模型的重训练或更新,以帮助恢复全局模型的性能。
- Server:
- 指联邦学习架构中的服务器或中心节点,负责协调各个客户端,分发全局模型,收集客户端更新,并执行模型的聚合以形成新的全局模型。
- Target Client:
- 指发起遗忘请求的客户端,即希望从全局模型中移除其数据贡献的特定客户端。在某些方法中,目标客户端可能需要执行特定的操作来协助遗忘过程。
- All Clients:
- 指参与联邦学习的所有客户端,包括发起遗忘请求的目标客户端和其他所有剩余的客户端。在某些FU方法中,可能需要所有客户端共同参与遗忘过程或对全局模型的更新。
(3)评估联邦遗忘方法有效性的多种度量标准有哪些?
在TABLE V中,列出了用于评估联邦遗忘方法有效性的多种度量标准。
- IE.1 (Speed-up ratio): 这个度量标准表示无学习算法相对于完全重新训练模型所需时间的比例。理想情况下,这个比例应该很高,意味着无学习算法比重新训练模型更高效。
- IE.2 (Communication cost reduction ratio): 表示无学习过程中通信成本降低的比例。这反映了无学习算法在通信效率方面的改进。
- RP.1 (SAPE - Sample-wise Average Prediction Error): 这个指标测量的是每个样本的预测误差的平均值。在无学习之后,SAPE应该尽可能地接近重新训练后的模型的表现,这意味着它应该很低。
- RP.2 (Performance on test dataset): 测试集上的性能表现,通常用准确率或损失来表示。在无学习后,模型在测试集上的性能应该与重新训练后的模型相当。
- RP.3 (Performance on retained training dataset): 保留训练数据集上的性能表现。这同样用准确率或损失来衡量,且应与重新训练后的模型性能相近。
- RP.4 (Performance on retained or unlearned classes): 在保留或已无学习类别的测试集上的性能表现。这同样关注于模型在未被移除数据类别上的性能,以确保无学习没有对这些类别的识别能力造成负面影响。
- FV.1 (Forgetting Vector): 忘记向量,用于量化模型在无学习后对特定类别的遗忘程度。理想情况下,对于已无学习的类别,忘记向量的值应该高,而对于其他类别则应保持较低。
- FV.3 和 FV.8: 虽然具体定义未直接给出,但可以推测它们也属于"Forgotten Vector"系列的指标,可能用于特定方面的无学习效果评估。
- FV.11 (Per-class accuracy): 每类的准确率,用于比较无学习前后的模型在不同类上的性能差异。
- FV.12 和 FV.14: 同样,这些可能是特定于类别的性能指标,用于评估无学习对模型分类性能的影响。