【论文速递】ISBI2022 - 通过点对点相互学习增强知识蒸馏

简介: 【论文速递】ISBI2022 - 通过点对点相互学习增强知识蒸馏

【论文速递】ISBI2022 - 通过点对点相互学习增强知识蒸馏

【论文原文】:Augmenting Knowledge Distillation with Peer-to-Peer Mutual Learning for Model Compression

获取地址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=9761511

image.gif

博主关键词:知识蒸馏,相互学习,师生网络,在线蒸馏。

推荐相关论文:

- 无

image.gif

摘要:

知识蒸馏(KD)是一种有效的模型压缩技术,是教授紧凑的学生网络来模仿复杂且训练有素的教师网络的行为。相比之下,相互学习(ML)提供了一种替代策略,即使没有强大但静态的教师网络,也可以从共享知识中使多个简单的学生网络受益。在这些发现的激励下,我们提出了一个单教师、多学生的框架,该框架利用 KD 和 ML 来实现更好的表现。此外,我们还利用在线蒸馏策略同时培训教师和学生。为了评估所提出的方法的性能,我们使用三种不同版本的师生网络对基准生物医学分类(MSI与MSS)和目标检测(息肉检测)任务进行了广泛的实验。以提议的方式训练的学生网络集合比单独使用 KD 或 ML 训练的学生集合取得了更好的结果,从而确立了通过学生之间的点对点学习增强教师向学生的知识转移的好处。

简介:

深度学习在过去十年中引起了医疗保健部门的极大兴趣。在医学专家和研究人员的协助下,它在药物发现、医学图像分析、机器人手术等多个领域取得了可喜的成果。虽然深度学习技术表现得非常好,但它们需要在大型数据集上训练大型模型才能实现这一壮举。然而,由于与训练它们相关的计算成本以及它们无法扩展到资源有限的医疗设备,大型模型并不总是实际可行的。因此,人们转向开发更小、更快、更高效的深度学习模型,而不会显着影响性能。最近,知识蒸馏(KD)已成为创建这种更小和高效架构的潜在候选者。它涉及将庞大的预训练教师网络获得的知识转移到紧凑的学生模型中。师生互动机制旨是在逐步使学生能够复制训练有素的教师模式的行为。

知识蒸馏现在被认为是一种成熟且有效的模型压缩技术。其应用包括各种计算机视觉任务,包括分割,目标检测和识别自成立以来,已经提出了几种KD变体,以加强知识转移。传统上,师生网络在被称为离线 KD 的两阶段过程中进行训练。预先训练的教师网络保持固定,同时提供结构化知识来指导学生的学习过程。相比之下,在线蒸馏将所有网络视为对等体,并在一步过程中协作训练它们。深度互学习(DML)通过提炼两个学生网络之间的对数信息,取得了有希望的结果。一般来说,知识的转移是使用对数实现的,但也探索了中级表示的转移。FitNet 从预先训练的教师网络中传输特征图,以改善学生网络的监督学习。此外,所有学生生成的对数集合已被证明优于直接使用对数信息的方法。进化蒸馏被提出,其通过在教师和学生网络之间引入引导模块来转移中间级表示。除了计算机视觉,KD的优势也被用于医学图像分析。提出了互知蒸馏(MKD),以将知识从一种模态(MR图像)转移到另一种模态(CT图像)以进行分割任务。知识从训练多模态数据的教师网络蒸馏到用于阿尔茨海默病预测的单模态学生网络。

从在线动态学习中汲取灵感,我们探索了通过多个学生之间的相互学习来增强教师对学生的知识蒸馏的想法。我们的主要贡献是:

    • 我们建议使用单教师、多学生的框架将知识蒸馏的好处与相互学习相结合。
    • 我们的在线训练框架包括将老师的预测传递给每个学生,并在同一培训步骤中同时在学生之间共享日志信息。
    • 我们证明了我们提出的方法使用三种不同的网络配置在基准生物医学分类和检测任务上的有效性。

    35d56c9cc14fb0c3b69d67f9d5157db.png

    Fig. 1. Overview of the combined knowledge distillation and mutual learning technique with one teacher and two student networks.

    Fig. 1.结合知识蒸馏和相互学习技术与一个教师和两个学生网络概述。



    目录
    相关文章
    |
    自然语言处理 算法 数据挖掘
    自蒸馏:一种简单高效的优化方式
    背景知识蒸馏(knowledge distillation)指的是将预训练好的教师模型的知识通过蒸馏的方式迁移至学生模型,一般来说,教师模型会比学生模型网络容量更大,模型结构更复杂。对于学生而言,主要增益信息来自于更强的模型产出的带有更多可信信息的soft_label。例如下右图中,两个“2”对应的hard_label都是一样的,即0-9分类中,仅“2”类别对应概率为1.0,而soft_label
    自蒸馏:一种简单高效的优化方式
    |
    运维 监控 算法
    从定时任务-到任务调度系统xxl-job
    定时任务的今生前世以及xxl-job调度系统
    2806 0
    从定时任务-到任务调度系统xxl-job
    |
    5月前
    |
    人工智能 自然语言处理 测试技术
    通义灵码入选 “2025 年值得关注的 AIGC 产品”,是唯一入选的 AI 编程产品
    阿里云的通义灵码是一款基于通义大模型的AI编程助手,能够智能生成代码、优化结构、排查错误并自动生成测试用例,支持多种主流编程语言。在2025年入选《值得关注的AIGC产品》榜单,凭借卓越技术与广泛应用场景成为国内开发者首选。通义灵码已在国内多个行业落地,大幅提升开发效率与代码质量,同时针对中文编程场景优化,支持企业内网部署保障数据安全,推动AI编程技术在教育与科研领域的创新应用。
    |
    存储 Serverless C语言
    【C语言基础考研向】11 gets函数与puts函数及str系列字符串操作函数
    本文介绍了C语言中的`gets`和`puts`函数,`gets`用于从标准输入读取字符串直至换行符,并自动添加字符串结束标志`\0`。`puts`则用于向标准输出打印字符串并自动换行。此外,文章还详细讲解了`str`系列字符串操作函数,包括统计字符串长度的`strlen`、复制字符串的`strcpy`、比较字符串的`strcmp`以及拼接字符串的`strcat`。通过示例代码展示了这些函数的具体应用及注意事项。
    591 7
    |
    8月前
    |
    存储 数据采集 大数据
    AllData数据中台技术架构升级演进
    杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
    AllData数据中台技术架构升级演进
    |
    11月前
    |
    机器学习/深度学习 人工智能 算法
    【MM2024】面向 StableDiffusion 的多目标图像编辑算法 VICTORIA
    阿里云人工智能平台 PAI 团队与华南理工大学合作在国际多媒体顶级会议 ACM MM2024 上发表 VICTORIA 算法,这是一种面向 StableDiffusion 的多目标图像编辑算法。VICTORIA 通过文本依存关系来修正图像编辑过程中的交叉注意力图,从而确保关系对象的一致性,支持用户通过修改描述性提示一次性编辑多个目标。
    |
    10月前
    |
    数据采集 机器学习/深度学习 数据挖掘
    10种数据预处理中的数据泄露模式解析:识别与避免策略
    在机器学习中,数据泄露是一个常见问题,指的是测试数据在数据准备阶段无意中混入训练数据,导致模型在测试集上的表现失真。本文详细探讨了数据预处理步骤中的数据泄露问题,包括缺失值填充、分类编码、数据缩放、离散化和重采样,并提供了具体的代码示例,展示了如何避免数据泄露,确保模型的测试结果可靠。
    640 2
    |
    人工智能 云栖大会
    央视《赢在AI+》正式发布!首场路演将于2024云栖大会亮相
    刚刚,在中央广播电视总台举办的央视频金秋创新活动发布会上,聚焦AI领域的大型纪实创投节目——《赢在AI+》正式启动。同时,节目正式吹响集结令,向广大创业者、投资人发出邀请,成为AI领域的创新先锋!
    572 21
    |
    SQL 安全 数据处理
    揭秘数据脱敏神器:Flink SQL的神秘力量,守护你的数据宝藏!
    【8月更文挑战第9天】在大数据时代,Apache Flink以其强大的流处理能力脱颖而出,而Flink SQL则为数据处理带来了灵活性。本文介绍如何运用Flink SQL实现数据脱敏——一项关键的隐私保护技术。通过内置函数与表达式,在SQL查询中加入脱敏逻辑,可有效处理敏感信息,如个人身份与财务数据,以符合GDPR等数据保护法规。示例展示了如何对信用卡号进行脱敏,采用`CASE`语句检查并替换敏感数据。此外,Flink SQL支持自定义函数,适用于更复杂的脱敏需求。掌握此技能对于保障数据安全至关重要。
    187 5
    |
    11月前
    |
    Python
    Python中tqdm模块的常用方法和示例
    `tqdm` 是一个快速、可扩展的Python进度条库,适用于长循环中添加进度提示。通过封装迭代器 `tqdm(iterator)`,可以轻松实现进度显示。支持自定义描述、宽度及嵌套进度条,适用于多种迭代对象。在Jupyter notebook中,可自动调整显示效果。
    523 0