【论文速递】ICCCS2022 - FedMMD:基于多教师和多特征蒸馏的异构联邦学习

简介: 【论文速递】ICCCS2022 - FedMMD:基于多教师和多特征蒸馏的异构联邦学习

【论文速递】ICCCS2022 - FedMMD:基于多教师和多特征蒸馏的异构联邦学习

【论文原文】:FedMMD: Heterogenous Federated Learning based on Multi-teacher and Multi-feature Distillation

获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9846843

image.gif

博主关键词:异构系统,联邦学习,联邦蒸馏,知识迁移。

推荐相关论文:

- 无

image.gif

摘要:

联邦蒸馏是联邦学习中的一种新的算法范式,使客户端能够训练不同的网络架构。在联邦蒸馏中,学生可以通过提取客户端对公共服务器数据的平均预测来学习他人的信息,而不会牺牲他们的个人数据隐私。然而,仅使用平均软标签作为所有学生的老师的方法会受到客户端草案的影响,尤其是当本地数据是异构时。软标签是模型之间的平均分类分数。在本文中,我们提出了一个新的框架FedMMD(基于多教师和多特征蒸馏的联邦学习),该框架对客户端之间的不同数据分布具有鲁棒性。FedMMD扩展了FD训练程序中的聚集阶段和蒸馏阶段。与在所有学生中共享同一教师的方法相反,FedMMD 为每个需要进行多次独立蒸馏的学生分配不同的教师。由于每个模型都可以单独视为教师,FedMMD解决了共享教师仅具有平均性能由平均软标签引起的问题。同时,在每次蒸馏中,FedMMD没有使用模型在公共数据上的平均软标签作为教师,而是引入了中间表示和软标签的组合作为蒸馏目标,以了解教师的更多信息细节。我们在两个公共数据集(CIFAR10和MINIST)上的广泛实验证明了所提出的方法的性能。特别是在异构数据中,FedMMD在非IID(独立和相同分布)情况下准确性提高了20%。

简介:

最近,使用传统神经网络的深度学习在生活的各个方面都取得了成功。性能良好的模型通常需要大量数据样本进行训练。事实上,由于隐私保护和物理设备的问题,尽可能多地获取数据具有挑战性。在标准联邦学习问题中,服务器中的集中式模型基于来自各种客户端(如手机、计算机和传感器)的本地数据,使用名为 FedAVG 的局部梯度下降算法。在 FedAVG 中,每个客户端中的网络结构应该相同。只有这样,服务器才能使用平均算法来聚合所有模型参数。联邦学习通常应用于具有不同带宽和计算能力的移动和物联网 (IoT) 设备。此外,每个客户端私有数据的复杂性也不同,这就是系统异构性,这是联邦学习中最大的挑战之一。为了应对这一挑战,在高效联邦学习的保护伞下,提出了一种新的算法方法,即联邦蒸馏。联邦蒸馏(FD)是一种异构联邦学习算法,它使每个客户能够在保护参与者隐私的情况下从客户的私人数据中学习信息。研究表明,基于训练的FD具有良好的通信特性和良好的性能。但是,当每个客户端的数据不服从独立相同分布(IID)时,传统的FedAVG或FedKD将很难具有良好的性能。

我们的方法旨在通过探索CNN的核心假设,即模型可以分为特征提取器和分类器,更有效地聚合联邦学习中的各种局部分类器。我们做出以下贡献:

    • 为了缩小客户吃水造成的性能差距,我们创新性地提出了一种新的联邦蒸馏框架FedMMDF,该框架结合了FedAVG和FedFD的优点。
    • 为了增强泛化能力,缓解灾难性遗忘问题,我们将多特征标签和块蒸馏纳入FedMMDF。在存在数据异质性的情况下,所提出的方法使学生模型能够从教师的不同语义空间中学习信息。
    • 利用所提出的方法和同构模型的基线,我们进行了实验以验证我们方法的优越性。显然,我们的方法在现实环境中的性能优于理想环境中的FedAVG。

      fb566422b304f1cf254d9ef88ecfa52.png

    Fig. 1. Training procedure of FedMMD. The models with different shapes in the figure represent various network structures.

    Fig. 1.联邦医学博士的培训程序。图中不同形状的模型代表各种网络结构。

    c7d2e097ff51118339c38423a723657.png

    Fig. 2. A schematic of Multi-feature distillation. In the distillation, the output of the previous teacher block is regarded as the input of the current student block. That ensures that each student block has a similar input size with the teacher’s, improving the performance of each student block independently.

    Fig. 2.多功能蒸馏示意图。在蒸馏中,前一个教师块的输出被视为当前学生块的输入。这确保了每个学生块与教师的输入大小相似,从而独立地提高了每个学生块的性能。


    目录
    相关文章
    |
    6月前
    |
    人工智能 自然语言处理 网络架构
    单一作者论文,谷歌提出百万专家Mixture,超越密集前馈、稀疏MoE
    【7月更文挑战第27天】谷歌提出了一种名为“百万专家Mixture”的神经网络架构,旨在解决Transformer模型处理大规模数据时面临的计算和内存效率问题。该架构通过利用“产品键”技术实现从大规模专家池中的高效检索,相较于传统密集前馈网络和稀疏MoE模型,在性能-计算权衡方面展现出明显优势。尽管如此,模型训练的复杂性和大规模模型的有效管理仍然是挑战。[链接](https://arxiv.org/abs/2407.04153)
    75 2
    |
    8月前
    多水平模型、分层线性模型HLM、混合效应模型研究教师的受欢迎程度
    多水平模型、分层线性模型HLM、混合效应模型研究教师的受欢迎程度
    |
    8月前
    |
    存储 搜索推荐 算法
    ICLR 2024:UTS提出全新联邦推荐算法
    【2月更文挑战第17天】ICLR 2024:UTS提出全新联邦推荐算法
    305 2
    ICLR 2024:UTS提出全新联邦推荐算法
    |
    机器学习/深度学习 人工智能 安全
    隐语小课丨「论文研究」隐私保护纵向联邦图神经网络
    隐语小课丨「论文研究」隐私保护纵向联邦图神经网络
    239 0
    |
    8月前
    |
    机器学习/深度学习 人工智能 关系型数据库
    南京大学提出量化特征蒸馏方法QFD | 完美结合量化与蒸馏,让AI落地更进一步!!!
    南京大学提出量化特征蒸馏方法QFD | 完美结合量化与蒸馏,让AI落地更进一步!!!
    225 0
    |
    8月前
    |
    机器学习/深度学习 传感器 算法
    【论文速递】ICCCS2022 - FedMMD:基于多教师和多特征蒸馏的异构联邦学习
    【论文速递】ICCCS2022 - FedMMD:基于多教师和多特征蒸馏的异构联邦学习
    |
    8月前
    |
    机器学习/深度学习 Shell 计算机视觉
    【论文速递】CCDC2021 - 轻量级网络的结构化注意知识蒸馏
    【论文速递】CCDC2021 - 轻量级网络的结构化注意知识蒸馏
    |
    机器学习/深度学习 人工智能 算法
    NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
    NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
    119 0
    NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
    |
    机器学习/深度学习 数据采集 算法
    「隐语小课」联邦学习之“隐私保护图神经网络”
    「隐语小课」联邦学习之“隐私保护图神经网络”
    323 0
    |
    机器学习/深度学习 人工智能 自然语言处理
    NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(2)
    NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
    248 0