【论文速递】ISBI2022 - 通过点对点相互学习增强知识蒸馏

简介: 【论文速递】ISBI2022 - 通过点对点相互学习增强知识蒸馏

【论文速递】ISBI2022 - 通过点对点相互学习增强知识蒸馏

【论文原文】:Augmenting Knowledge Distillation with Peer-to-Peer Mutual Learning for Model Compression

获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9761511

image.gif

博主关键词:知识蒸馏,相互学习,师生网络,在线蒸馏。

推荐相关论文:

- 无

image.gif

摘要:

知识蒸馏(KD)是一种有效的模型压缩技术,是教授紧凑的学生网络来模仿复杂且训练有素的教师网络的行为。相比之下,相互学习(ML)提供了一种替代策略,即使没有强大但静态的教师网络,也可以从共享知识中使多个简单的学生网络受益。在这些发现的激励下,我们提出了一个单教师、多学生的框架,该框架利用 KD 和 ML 来实现更好的表现。此外,我们还利用在线蒸馏策略同时培训教师和学生。为了评估所提出的方法的性能,我们使用三种不同版本的师生网络对基准生物医学分类(MSI与MSS)和目标检测(息肉检测)任务进行了广泛的实验。以提议的方式训练的学生网络集合比单独使用 KD 或 ML 训练的学生集合取得了更好的结果,从而确立了通过学生之间的点对点学习增强教师向学生的知识转移的好处。

简介:

深度学习在过去十年中引起了医疗保健部门的极大兴趣。在医学专家和研究人员的协助下,它在药物发现、医学图像分析、机器人手术等多个领域取得了可喜的成果。虽然深度学习技术表现得非常好,但它们需要在大型数据集上训练大型模型才能实现这一壮举。然而,由于与训练它们相关的计算成本以及它们无法扩展到资源有限的医疗设备,大型模型并不总是实际可行的。因此,人们转向开发更小、更快、更高效的深度学习模型,而不会显着影响性能。最近,知识蒸馏(KD)已成为创建这种更小和高效架构的潜在候选者。它涉及将庞大的预训练教师网络获得的知识转移到紧凑的学生模型中。师生互动机制旨是在逐步使学生能够复制训练有素的教师模式的行为。

知识蒸馏现在被认为是一种成熟且有效的模型压缩技术。其应用包括各种计算机视觉任务,包括分割,目标检测和识别自成立以来,已经提出了几种KD变体,以加强知识转移。传统上,师生网络在被称为离线 KD 的两阶段过程中进行训练。预先训练的教师网络保持固定,同时提供结构化知识来指导学生的学习过程。相比之下,在线蒸馏将所有网络视为对等体,并在一步过程中协作训练它们。深度互学习(DML)通过提炼两个学生网络之间的对数信息,取得了有希望的结果。一般来说,知识的转移是使用对数实现的,但也探索了中级表示的转移。FitNet 从预先训练的教师网络中传输特征图,以改善学生网络的监督学习。此外,所有学生生成的对数集合已被证明优于直接使用对数信息的方法。进化蒸馏被提出,其通过在教师和学生网络之间引入引导模块来转移中间级表示。除了计算机视觉,KD的优势也被用于医学图像分析。提出了互知蒸馏(MKD),以将知识从一种模态(MR图像)转移到另一种模态(CT图像)以进行分割任务。知识从训练多模态数据的教师网络蒸馏到用于阿尔茨海默病预测的单模态学生网络。

从在线动态学习中汲取灵感,我们探索了通过多个学生之间的相互学习来增强教师对学生的知识蒸馏的想法。我们的主要贡献是:

    • 我们建议使用单教师、多学生的框架将知识蒸馏的好处与相互学习相结合。
    • 我们的在线训练框架包括将老师的预测传递给每个学生,并在同一培训步骤中同时在学生之间共享日志信息。
    • 我们证明了我们提出的方法使用三种不同的网络配置在基准生物医学分类和检测任务上的有效性。

    35d56c9cc14fb0c3b69d67f9d5157db.png

    Fig. 1. Overview of the combined knowledge distillation and mutual learning technique with one teacher and two student networks.

    Fig. 1.结合知识蒸馏和相互学习技术与一个教师和两个学生网络概述。



    目录
    相关文章
    |
    数据挖掘 数据安全/隐私保护 开发者
    使用Spire.PDF for Python插件从PDF文件提取文字和图片信息
    使用Spire.PDF for Python插件从PDF文件提取文字和图片信息
    1646 0
    |
    自然语言处理 算法 数据挖掘
    自蒸馏:一种简单高效的优化方式
    背景知识蒸馏(knowledge distillation)指的是将预训练好的教师模型的知识通过蒸馏的方式迁移至学生模型,一般来说,教师模型会比学生模型网络容量更大,模型结构更复杂。对于学生而言,主要增益信息来自于更强的模型产出的带有更多可信信息的soft_label。例如下右图中,两个“2”对应的hard_label都是一样的,即0-9分类中,仅“2”类别对应概率为1.0,而soft_label
    自蒸馏:一种简单高效的优化方式
    |
    人工智能 Linux iOS开发
    Linux下搭建本地deepseek(附文档下载)
    本文介绍了在Linux上搭建本地DeepSeek的步骤。主要涉及安装ollama、下载deepseek模型(1.5b参数版本)和配置ChatboxAI客户端。通过命令行安装ollama后,使用`ollama run deepseek-r1:1.5b`下载模型,并配置环境变量以确保服务正常运行。最后,通过ChatboxAI与模型进行交互。整个过程适合初学者,服务器配置为4核CPU和8GB内存,无GPU,响应速度稍有延迟但可接受。相关资源链接已提供。
    2126 2
    |
    存储 弹性计算 数据处理
    【云故事探索】NO.6:云端生物,自服务用云的溯源精微
    在北京溯源精微科技有限公司的故事里,云计算成为了驱动生物科技革新的核心力量。自2011年成立以来,溯源精微深耕生物信息分析领域,利用自主研发的BinBash科学计算平台及阿里云的弹性计算与存储解决方案,成功克服了数据处理上的瓶颈。通过与阿里云的合作,公司实现了大规模数据的高效处理,将原本耗时数月的任务缩短至几天乃至几小时。此外,灵活的资源调配能力和按需付费模式极大地降低了计算成本,使溯源精微得以提供精准高效的基因组分析服务。展望未来,溯源精微将继续深化与阿里云的合作,推动生物科技领域智能化发展,携手行业伙伴共创辉煌。
    【云故事探索】NO.6:云端生物,自服务用云的溯源精微
    |
    机器学习/深度学习 PyTorch 算法框架/工具
    深度学习实践篇 第五章:模型保存与加载
    简要介绍pytorch中模型的保存与加载。
    718 0
    python并发执行request请求
    选择哪种并发方式取决于我们的具体需求。对于I/O密集型任务,多线程或异步I/O通常是更好的选择;对于CPU密集型任务,多进程可能是更好的选择。此外,异步I/O通常比多线程具有更好的性能,特别是在高并发的网络应用中。
    |
    数据采集 前端开发 JavaScript
    HTML + CSS + JS 利用邮编查询 API 实现邮编查询工具
    邮政编码是地址信息的重要组成部分,可以帮助快递公司、物流公司等对地址进行快速、准确的识别和派送。因此,邮编查询工具应用在许多业务场景中都有广泛的应用,例如:电商平台、物流公司、金融机构等。通过使用邮编查询 API,我们可以快速实现一个邮编查询工具应用,方便用户查询地址对应的邮政编码,提高业务流程的效率。
    1283 0
    |
    机器学习/深度学习 算法 计算机视觉
    【博士每天一篇文献-算法】持续学习经典算法之LwF: Learning without forgetting
    LwF(Learning without Forgetting)是一种机器学习方法,通过知识蒸馏损失来在训练新任务时保留旧任务的知识,无需旧任务数据,有效解决了神经网络学习新任务时可能发生的灾难性遗忘问题。
    1596 9
    【数据结构】二叉树的三种遍历(非递归讲解)
    【数据结构】二叉树的三种遍历(非递归讲解)
    364 1
    |
    算法 Go vr&ar
    YOLOv8模型yaml结构图理解(逐层分析)
    YOLOv8模型yaml结构图理解(逐层分析)
    22857 1