积木式深度学习的正确玩法!新加坡国立大学发布全新迁移学习范式DeRy,把知识迁移玩成活字印刷|NeurIPS 2022()

简介: 积木式深度学习的正确玩法!新加坡国立大学发布全新迁移学习范式DeRy,把知识迁移玩成活字印刷|NeurIPS 2022

由于子模型的多样性,这种网络组装是一个搜索空间较大的组合优化问题,定义了一定的搜索条件:每次网络组合从同一个功能集拿出一个网络块,并按照其在原始网络中的位置进行放置;合成的网络需满足计算量的限制。这一过程被描述为一个0-1整数优化问题优化。

为了进一步减小每一次计算组合模型性能的训练开销,作者借鉴了NAS训练中一种无需训练的替代函数,称为NASWOT。由此,可以只是用网络在指定数据集上的推理,来近似网络的真实性能。通过上述的拆分-重组过程,就能将不同的预训练模型拼接融合起来,以得到全新且更强的模型。

实验结果

模型重组适用于迁移学习

作者将一个包涵30个不同预训练网络的模型库尽心拆解重组,并在ImageNet和其他9个下游分类任务上进行性能评估。实验中采用了两种不同的训练方式:Full-Tuning,表示对拼接之后的模型所有参数都进行训练;Freeze-Tuning,表示只对拼接后的连接层进行训练。此外,还选择了五种尺度的模型并进行比较,称为DeRy(, ,)。

可以再上图看到,在ImageNet数据集上,DeRy得到的不同尺度的模型都可以优于或持平模型库中大小相当的模型。

可以发现,即便只训练链接部分的参数,模型仍然可以获得较强的性能增益。例如DeRy(4,90,20)的模型在只训练1.27M参数的条件下达到了78.6%的Top1准确率。

同时在9个迁移学习的实验也验证了DeRy的有效性。可以看到在没有预训练的情况下,DeRy的模型在各个模型大小的比较中都能优于其他模型;通过对重新组装的模型进行持续预训练,模型性能还能够有较大幅度的提升,达到红色的曲线。相比于其他的一些从模型库做迁移学习的方法例如LEEP或LogME,DeRy可以超越模型库本身的性能限制,甚至优于原本模型库中的最佳模型。模型重组的性质探究作者也很好奇本文提出的模型重组的性质,例如「模型会按照什么样的模式进行拆分?」和「模型会按照何种规则进行重组?」。对此作者提供了实验进行分析。

功能相似性,重组位置与重组性能

作者探究了将同一个网络块被其他拥有不同功能相似度的网络块进行替换后,Freeze-Tuning 20个epoch的的性能对比。对在ImageNet上训练后的ResNet50, 将其第3和第4个stage的网络块, 与ResNet101, ResNeXt50和RegNetY8G的不同网络块进行替换。可以观察到,替换的位置对性能有极大的影响。比如将第3个stage换成其他网络的第3个stage,重组网络的性能会特别强。同时,功能相似性也是和重组性能正向匹配的。在同一深度的网络模型块有较大的相似度,导致了训练后有较强的模型能力。这指向了相似性-重组位置-重组性能三者的依存和正向关系。拆分结果的观察 下图中,作者画出了第一步拆分的结果。颜色代表网络块和美歌等价集中心网络块的相似性。可以看到,本文提出的划分倾向于将子网络按照深度聚类在一起并加以拆分。同时CNN和Transformer的功能相似性数据较小,但CNN与不同架构CNN之间功能相似性通常较大。使用NASWOT作为性能指标 由于本文第一次应用NASWOT来进行零训练迁移性预测,作者也对这一指标的可靠性进行了检验。在下图中,作者计算不同模型爱不同数据集上NASWOT的分数数值,并与迁移学习的准确的准确率加一对比。可以观察到,NASWOT分数得到了较准确的性能排序(Kendall's Tau相关性)。这表明本文使用的零训练指标能有效预测模型的在下游数据的性能。

总结

本文提出了一种新的知识迁移任务,称为深度模型重组 (Deep Model Reassembly, 简称DeRy)。他通过打散已有异质预训练模型并重新组装的方式,来构造与下游任务适配的模型。作者提出了一个简单的两阶段实现方式来完成这一任务。首先,DeRy求解一个覆盖集问题并对所有预训练网络按照功能级进行拆分;第二步中,DeRy将模型拼装形式化为一个0-1整数规划问题,保证组装后模型在特定任务上性能最佳。该工作不但收获了较强的性能提升,同时也映射出了不同神经网络之间可能存在的连接性。参考资料:https://arxiv.org/abs/2210.17409

相关文章
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的迁移学习:从理论到实践
科技进步不断推动人工智能的发展,其中深度学习已成为最炙手可热的领域。然而,训练深度学习模型通常需要大量的数据和计算资源,这对于许多实际应用来说是一个显著的障碍。迁移学习作为一种有效的方法,通过利用已有模型在新任务上的再训练,大大减少了数据和计算资源的需求。本文将详细探讨迁移学习的理论基础、各种实现方法以及其在实际应用中的优势和挑战。
|
5天前
|
机器学习/深度学习 自然语言处理 算法
深度学习中的迁移学习应用与挑战
在现代深度学习应用中,迁移学习作为一种有效的模型训练技术,逐渐成为研究和实践中的热门话题。本文探讨了迁移学习的基本原理、常见应用领域以及面临的挑战。通过详细分析现有文献和实例,揭示了在不同领域应用迁移学习的潜力与限制,并探讨了未来可能的发展方向。 【7月更文挑战第15天】
|
7天前
|
机器学习/深度学习 TensorFlow 算法框架/工具
使用Python实现深度学习模型:图像风格迁移与生成
【7月更文挑战第13天】 使用Python实现深度学习模型:图像风格迁移与生成
12 2
|
14天前
|
机器学习/深度学习 自然语言处理 语音技术
深度学习中的迁移学习:优势与应用探索
传统深度学习模型在数据不足或特定任务下表现不佳,迁移学习则通过利用预训练模型的知识来解决这一问题。本文探讨了迁移学习的基本原理、不同方法以及在实际应用中的案例分析,旨在帮助读者更好地理解和应用迁移学习技术。 【7月更文挑战第6天】
|
18天前
|
机器学习/深度学习 算法 PyTorch
深度学习中的图像风格迁移技术探析
图像风格迁移是近年来深度学习领域备受关注的研究方向之一。本文将从算法原理、实现步骤到应用案例,全面分析和探讨几种主流的图像风格迁移技术,为读者深入理解和应用这一技术提供详实的指南。 【7月更文挑战第2天】
|
1月前
|
机器学习/深度学习 PyTorch 算法框架/工具
【从零开始学习深度学习】47. Pytorch图片样式迁移实战:将一张图片样式迁移至另一张图片,创作自己喜欢风格的图片【含完整源码】
【从零开始学习深度学习】47. Pytorch图片样式迁移实战:将一张图片样式迁移至另一张图片,创作自己喜欢风格的图片【含完整源码】
|
17天前
|
机器学习/深度学习 TensorFlow 算法框架/工具
使用Python实现深度学习模型:迁移学习与领域自适应教程
【7月更文挑战第3天】 使用Python实现深度学习模型:迁移学习与领域自适应教程
14 0
|
2月前
|
机器学习/深度学习 设计模式 计算机视觉
深度学习在图像识别中的应用与挑战构建高效微服务架构:后端开发的新范式
【5月更文挑战第30天】 随着计算机视觉技术的飞速发展,深度学习已成为推动该领域进步的关键力量。本文旨在探讨深度学习在图像识别任务中的核心技术和面临的挑战,通过分析卷积神经网络(CNN)的结构和优化策略,以及新兴的对抗性网络和迁移学习等技术,揭示深度学习如何提高图像识别的准确性和效率。同时,文章还将讨论数据偏差、模型泛化能力和计算资源限制等问题对实际应用的影响。 【5月更文挑战第30天】 在本文中,我们将探讨一种现代软件工程实践——微服务架构。通过分析其核心原则和设计模式,我们旨在为开发者提供一个关于如何构建可扩展、灵活且高效的后端系统的指导。文章将详细讨论微服务的优势,挑战以及如何克服这些
|
1月前
|
机器学习/深度学习 算法 数据可视化
【深度学习实战】基于深度学习的图片风格快速迁移软件(Python源码+UI界面)
【深度学习实战】基于深度学习的图片风格快速迁移软件(Python源码+UI界面)
|
1月前
|
机器学习/深度学习 算法 PyTorch
【从零开始学习深度学习】45. Pytorch迁移学习微调方法实战:使用微调技术进行2分类图片热狗识别模型训练【含源码与数据集】
【从零开始学习深度学习】45. Pytorch迁移学习微调方法实战:使用微调技术进行2分类图片热狗识别模型训练【含源码与数据集】