【论文速递】ISBI2022 - 通过点对点相互学习增强知识蒸馏

简介: 【论文速递】ISBI2022 - 通过点对点相互学习增强知识蒸馏

【论文速递】ISBI2022 - 通过点对点相互学习增强知识蒸馏

【论文原文】:Augmenting Knowledge Distillation with Peer-to-Peer Mutual Learning for Model Compression

获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9761511

image.gif

博主关键词:知识蒸馏,相互学习,师生网络,在线蒸馏。

推荐相关论文:

- 无

image.gif

摘要:

知识蒸馏(KD)是一种有效的模型压缩技术,是教授紧凑的学生网络来模仿复杂且训练有素的教师网络的行为。相比之下,相互学习(ML)提供了一种替代策略,即使没有强大但静态的教师网络,也可以从共享知识中使多个简单的学生网络受益。在这些发现的激励下,我们提出了一个单教师、多学生的框架,该框架利用 KD 和 ML 来实现更好的表现。此外,我们还利用在线蒸馏策略同时培训教师和学生。为了评估所提出的方法的性能,我们使用三种不同版本的师生网络对基准生物医学分类(MSI与MSS)和目标检测(息肉检测)任务进行了广泛的实验。以提议的方式训练的学生网络集合比单独使用 KD 或 ML 训练的学生集合取得了更好的结果,从而确立了通过学生之间的点对点学习增强教师向学生的知识转移的好处。

简介:

深度学习在过去十年中引起了医疗保健部门的极大兴趣。在医学专家和研究人员的协助下,它在药物发现、医学图像分析、机器人手术等多个领域取得了可喜的成果。虽然深度学习技术表现得非常好,但它们需要在大型数据集上训练大型模型才能实现这一壮举。然而,由于与训练它们相关的计算成本以及它们无法扩展到资源有限的医疗设备,大型模型并不总是实际可行的。因此,人们转向开发更小、更快、更高效的深度学习模型,而不会显着影响性能。最近,知识蒸馏(KD)已成为创建这种更小和高效架构的潜在候选者。它涉及将庞大的预训练教师网络获得的知识转移到紧凑的学生模型中。师生互动机制旨是在逐步使学生能够复制训练有素的教师模式的行为。

知识蒸馏现在被认为是一种成熟且有效的模型压缩技术。其应用包括各种计算机视觉任务,包括分割,目标检测和识别自成立以来,已经提出了几种KD变体,以加强知识转移。传统上,师生网络在被称为离线 KD 的两阶段过程中进行训练。预先训练的教师网络保持固定,同时提供结构化知识来指导学生的学习过程。相比之下,在线蒸馏将所有网络视为对等体,并在一步过程中协作训练它们。深度互学习(DML)通过提炼两个学生网络之间的对数信息,取得了有希望的结果。一般来说,知识的转移是使用对数实现的,但也探索了中级表示的转移。FitNet 从预先训练的教师网络中传输特征图,以改善学生网络的监督学习。此外,所有学生生成的对数集合已被证明优于直接使用对数信息的方法。进化蒸馏被提出,其通过在教师和学生网络之间引入引导模块来转移中间级表示。除了计算机视觉,KD的优势也被用于医学图像分析。提出了互知蒸馏(MKD),以将知识从一种模态(MR图像)转移到另一种模态(CT图像)以进行分割任务。知识从训练多模态数据的教师网络蒸馏到用于阿尔茨海默病预测的单模态学生网络。

从在线动态学习中汲取灵感,我们探索了通过多个学生之间的相互学习来增强教师对学生的知识蒸馏的想法。我们的主要贡献是:

    • 我们建议使用单教师、多学生的框架将知识蒸馏的好处与相互学习相结合。
    • 我们的在线训练框架包括将老师的预测传递给每个学生,并在同一培训步骤中同时在学生之间共享日志信息。
    • 我们证明了我们提出的方法使用三种不同的网络配置在基准生物医学分类和检测任务上的有效性。

    35d56c9cc14fb0c3b69d67f9d5157db.png

    Fig. 1. Overview of the combined knowledge distillation and mutual learning technique with one teacher and two student networks.

    Fig. 1.结合知识蒸馏和相互学习技术与一个教师和两个学生网络概述。



    目录
    相关文章
    |
    18天前
    |
    自然语言处理 测试技术 计算机视觉
    ICLR 2024:谁说大象不能起舞! 重编程大语言模型实现跨模态交互的时序预测
    【4月更文挑战第22天】**TIME-LLM** 论文提出将大型语言模型重编程用于时序预测,克服数据稀疏性问题。通过文本原型重编码和Prompt-as-Prefix策略,使LLMs能处理连续时序数据。在多基准测试中超越专业模型,尤其在少量样本场景下效果突出。但面临跨领域泛化、模型调整复杂性和计算资源需求的挑战。[论文链接](https://openreview.net/pdf?id=Unb5CVPtae)
    30 2
    |
    18天前
    |
    机器学习/深度学习
    YOLOv8改进 | 注意力篇 | 实现级联群体注意力机制CGAttention (全网首发)
    YOLOv8改进 | 注意力篇 | 实现级联群体注意力机制CGAttention (全网首发)
    204 0
    |
    18天前
    |
    机器学习/深度学习 Shell 计算机视觉
    【论文速递】CCDC2021 - 轻量级网络的结构化注意知识蒸馏
    【论文速递】CCDC2021 - 轻量级网络的结构化注意知识蒸馏
    |
    18天前
    |
    机器学习/深度学习 传感器 算法
    【论文速递】ICCCS2022 - FedMMD:基于多教师和多特征蒸馏的异构联邦学习
    【论文速递】ICCCS2022 - FedMMD:基于多教师和多特征蒸馏的异构联邦学习
    |
    机器学习/深度学习 人工智能 搜索推荐
    AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
    AAAI 2023 | 超越SOTA 3.27%,上交大等提出自适应本地聚合新方法
    151 0
    |
    机器学习/深度学习 人工智能 算法
    NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
    NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
    NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(1)
    |
    机器学习/深度学习 人工智能 自然语言处理
    NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习(2)
    NeurIPS 2022 | 直面图的复杂性,港中文等提出面向图数据分布外泛化的因果表示学习
    178 0
    |
    机器学习/深度学习 存储 缓存
    VLDB 2022最佳研究论文:克服通信挑战,新框架SANCUS实现GNN高效训练
    VLDB 2022最佳研究论文:克服通信挑战,新框架SANCUS实现GNN高效训练
    |
    机器学习/深度学习 编解码 算法
    CVPR 2022 | 提高小数据集利用效率,复旦等提出分层级联ViT网络
    CVPR 2022 | 提高小数据集利用效率,复旦等提出分层级联ViT网络
    115 0
    |
    机器学习/深度学习 计算机视觉 网络架构
    即插即用系列 | 清华提出最新移动端高效网络架构 CloFormer: 注意力机制与卷积的完美融合!
    即插即用系列 | 清华提出最新移动端高效网络架构 CloFormer: 注意力机制与卷积的完美融合!
    745 0

    热门文章

    最新文章