1 介绍
年份:2024
作者:
期刊: High-Confidence Computing(2区)
引用量:0
Li C, Jiang H, Chen J, et al. An overview of machine unlearning[J]. High-Confidence Computing, 2024: 100254
本文详细提供了机器遗忘的全面定义,包括问题方程、精确遗忘和近似遗忘的概念,为机器遗忘研究领域建立了一个清晰的理论基础。提出机器遗忘的目标分类,包括特征删除和类别删除。将机器遗忘方法分为模型不可知、模型固有和数据驱动三类方法。提出机器遗忘验证指标,包括准确性、完整性、遗忘时间和重训练时间、模型反演攻击、成员推断攻击和后门攻击。总结机器遗忘在联邦学习和终身学习中的应用。
2 创新点
- 全面的定义和框架:论文提供了机器遗忘的全面定义,包括问题方程、精确遗忘和近似遗忘的概念,为机器遗忘研究领域建立了一个清晰的理论基础。
- 遗忘需求和验证的系统化讨论:文章不仅讨论了机器遗忘的必要性,还系统化地讨论了遗忘的需求、设计要求以及验证方法,这有助于标准化机器遗忘的过程。
- 算法分类与总结:论文对现有的机器遗忘算法进行了分类和总结,包括模型不可知方法、模型固有方法和数据驱动方法,为研究者提供了一个全面的技术概览。
- 应用领域的深入分析:论文深入分析了机器遗忘在联邦学习和终身学习等应用领域的应用情况,指出了机器遗忘在这些领域的潜力和挑战。
- 未来研究方向的提出:文章提出了机器遗忘领域的未来研究方向,包括设计要求的协调、统一基准测试、对抗性机器遗忘、可解释的机器遗忘以及在演化数据流中的无意识机器学习。
3 相关研究
3.1 机器遗忘的框架
3.1.1 工作流程
- 训练特征移除/类别移除:模型首先在完整数据集上训练,然后根据用户遗忘请求进行遗忘学习。
- 重训练:遗忘后的模型与在保留数据集上重新训练的模型进行比较,目标是使两者的特征尽可能相似。
- 遗忘模型与重训练模型的比较:通过比较遗忘模型和重训练模型,确保遗忘过程的有效性。
3.1.2 请求
(1)特征删除
常见的机器遗忘请求是删除训练数据集中的特定样本。隐私泄露可能由单个数据项或具有相似特征或标签的数据集引起。提出了基于影响函数的特征移除技术,通过估计和公式化训练数据对模型参数的更新。
(2)类别删除
数据遗忘可能涉及训练模型中的一个或多个类别。类别删除比删除某些样本更具挑战性,因为数据按类别划分本身无助于训练模型。提出了基于数据增强的类别移除方法,通过引入噪声最大化目标类别的分类错误。
3.1.3 设计要求
- 可验证性:机器遗忘框架应提供认证机制,确保模型在遗忘后有效保护用户隐私。
- 一致性:遗忘后的模型和重新训练的模型应对任何可能的数据样本做出相同的预测。
- 准确性:遗忘后的模型应能够正确预测测试样本,或至少其准确性应与重新训练的模型相当。
3.2 机器遗忘验证指标
- 准确性:在遗忘集、保留集和测试集上测量模型的准确性。
- 完整性:确保被移除样本对遗忘模型的影响被完全消除,并测量遗忘模型与重训练模型的兼容性。
- 遗忘时间和重训练时间:量化使用遗忘而非重训练进行模型更新所节省的时间。
- 模型反演攻击:使用模型反演攻击来确定模型是否保留了关于被遗忘样本的信息。
- 成员推断攻击:使用成员推断攻击来确定模型是否保留了关于被遗忘样本的信息。
- 后门攻击:在数据中注入后门以欺骗机器学习模型。后门攻击被用来验证机器遗忘的有效性,特别是所有用户用混合了干净数据和有毒数据训练模型,一些用户希望删除他们的数据。
3.3 遗忘算法分类
3.3.1 模型不可知方法(Model-agnostic methods)
- 差分隐私:用于限制数据样本对机器学习模型的影响。
- 统计查询学习:通过查询训练数据的统计信息而非数据本身来训练模型。
- MCMC 遗忘(参数抽样):使用马尔可夫链蒙特卡洛方法对模型参数进行抽样。
文献
- Bourtoule, L., Chandrasekaran, V., Choquette-Choo, C.A., Jia, H., Travers, A., Zhang, B., Lie, D., Papernot, N., 2021.
- Nguyen, Q.P., Low, B.K.H., Jaillet, P., 2020.
3.3.2模型固有方法(Model-intrinsic methods )
- Softmax 分类器(逻辑基分类器)的机器遗忘:调整模型参数以确保被遗忘的数据不再影响模型的决策过程。
- 线性模型的机器遗忘:从训练的线性模型中移除特定数据点的影响。
- 基于树的模型的机器遗忘:如极端随机树,通过测量分割决策的鲁棒性来进行遗忘。
- 贝叶斯模型的机器遗忘:需要特殊处理,因为训练已经涉及优化模型参数的后验分布。
- 基于 DNN 模型的机器遗忘:自动从数据中学习特征的模型,需要特定方法来遗忘数据。
文献:
- Baumhauer, T., Schöttle, P., Zeppelzauer, M., 2022.
- Izzo, Z., Anne Smart, M., Chaudhuri, K., Zou, J.Y., 2021.
- Schelter, S., Grafberger, S., Dunning, T., 2021.
- Golatkar, A., Achille, A., Ravichandran, A., Polito, M., Soatto, S., 2021.
3.3.3 数据驱动方法(Data-driven methods )
- 数据分区(高效重训练):使用数据分区机制加速重训练过程。
- 数据增强:通过添加更多数据来支持模型训练,这种方法也可用于机器遗忘。
- 数据影响:研究训练数据变化如何影响模型参数。
文献:
- Bourtoule, L., Chandrasekaran, V., Choquette-Choo, C.A., Jia, H., Travers, A., Zhang, B., Lie, D., Papernot, N., 2021.
- Huang, H., Ma, X., Erfani, S.M., Bailey, J., Wang, Y., 2021.
- Wu, G., Hashemi, M., Srinivasa, C., 2022.
3.4 机器遗忘应用
(1)联邦学习中的机器遗忘
- 数据隐私和商业机密:由于隐私和法规限制,组织和机构无法整合原始数据共同训练大型模型。
- 联邦学习:一种新的机器学习范式,允许参与者在不共享数据的情况下共同建模。
- 机器遗忘在联邦学习中的挑战:全球权重是通过聚合而非原始梯度计算得到的,且客户端可能拥有重叠数据。
文献:
- Liu, G., Ma, X., Yang, Y., Wang, C., Liu, J., 2021.
- Wu, C., Zhu, S., Mitra, P., 2022.
- Liu, Y., Xu, L., Yuan, X., Wang, C., Li, B., 2022b.
(2)终身学习中的机器遗忘
- 终身学习:也称为持续学习或增量学习,探索模型在多个任务上的表现。
- 机器遗忘在终身学习中的应用:
- 防止灾难性遗忘:通过遗忘有害样本并更新模型以保持性能。
- 处理爆炸性损失:通过遗忘方法调节极端情况以减轻问题。
- 增量模型中的动态遗忘:如决策树和朴素贝叶斯,允许模型动态遗忘数据样本。
文献:
- Du, M., Chen, Z., Liu, C., Oak, R., Song, D., 2019. Lifelong anomaly detection through unlearning, in: Proceedings of the 2019 ACM SIGSAC conference on computer and communications security, pp. 1283–1297.
- Liu, B., Liu, Q., Stone, P., 2022a. Continual learning and private unlearning, in: Conference on Lifelong Learning Agents, PMLR. pp. 243–254
4 思考
在终身学习上的应用很有启发性。