积木式深度学习的正确玩法!新加坡国立大学发布全新迁移学习范式DeRy,把知识迁移玩成活字印刷|NeurIPS 2022()

简介: 积木式深度学习的正确玩法!新加坡国立大学发布全新迁移学习范式DeRy,把知识迁移玩成活字印刷|NeurIPS 2022

由于子模型的多样性,这种网络组装是一个搜索空间较大的组合优化问题,定义了一定的搜索条件:每次网络组合从同一个功能集拿出一个网络块,并按照其在原始网络中的位置进行放置;合成的网络需满足计算量的限制。这一过程被描述为一个0-1整数优化问题优化。

为了进一步减小每一次计算组合模型性能的训练开销,作者借鉴了NAS训练中一种无需训练的替代函数,称为NASWOT。由此,可以只是用网络在指定数据集上的推理,来近似网络的真实性能。通过上述的拆分-重组过程,就能将不同的预训练模型拼接融合起来,以得到全新且更强的模型。

实验结果

模型重组适用于迁移学习

作者将一个包涵30个不同预训练网络的模型库尽心拆解重组,并在ImageNet和其他9个下游分类任务上进行性能评估。实验中采用了两种不同的训练方式:Full-Tuning,表示对拼接之后的模型所有参数都进行训练;Freeze-Tuning,表示只对拼接后的连接层进行训练。此外,还选择了五种尺度的模型并进行比较,称为DeRy(, ,)。

可以再上图看到,在ImageNet数据集上,DeRy得到的不同尺度的模型都可以优于或持平模型库中大小相当的模型。

可以发现,即便只训练链接部分的参数,模型仍然可以获得较强的性能增益。例如DeRy(4,90,20)的模型在只训练1.27M参数的条件下达到了78.6%的Top1准确率。

同时在9个迁移学习的实验也验证了DeRy的有效性。可以看到在没有预训练的情况下,DeRy的模型在各个模型大小的比较中都能优于其他模型;通过对重新组装的模型进行持续预训练,模型性能还能够有较大幅度的提升,达到红色的曲线。相比于其他的一些从模型库做迁移学习的方法例如LEEP或LogME,DeRy可以超越模型库本身的性能限制,甚至优于原本模型库中的最佳模型。模型重组的性质探究作者也很好奇本文提出的模型重组的性质,例如「模型会按照什么样的模式进行拆分?」和「模型会按照何种规则进行重组?」。对此作者提供了实验进行分析。

功能相似性,重组位置与重组性能

作者探究了将同一个网络块被其他拥有不同功能相似度的网络块进行替换后,Freeze-Tuning 20个epoch的的性能对比。对在ImageNet上训练后的ResNet50, 将其第3和第4个stage的网络块, 与ResNet101, ResNeXt50和RegNetY8G的不同网络块进行替换。可以观察到,替换的位置对性能有极大的影响。比如将第3个stage换成其他网络的第3个stage,重组网络的性能会特别强。同时,功能相似性也是和重组性能正向匹配的。在同一深度的网络模型块有较大的相似度,导致了训练后有较强的模型能力。这指向了相似性-重组位置-重组性能三者的依存和正向关系。拆分结果的观察 下图中,作者画出了第一步拆分的结果。颜色代表网络块和美歌等价集中心网络块的相似性。可以看到,本文提出的划分倾向于将子网络按照深度聚类在一起并加以拆分。同时CNN和Transformer的功能相似性数据较小,但CNN与不同架构CNN之间功能相似性通常较大。使用NASWOT作为性能指标 由于本文第一次应用NASWOT来进行零训练迁移性预测,作者也对这一指标的可靠性进行了检验。在下图中,作者计算不同模型爱不同数据集上NASWOT的分数数值,并与迁移学习的准确的准确率加一对比。可以观察到,NASWOT分数得到了较准确的性能排序(Kendall's Tau相关性)。这表明本文使用的零训练指标能有效预测模型的在下游数据的性能。

总结

本文提出了一种新的知识迁移任务,称为深度模型重组 (Deep Model Reassembly, 简称DeRy)。他通过打散已有异质预训练模型并重新组装的方式,来构造与下游任务适配的模型。作者提出了一个简单的两阶段实现方式来完成这一任务。首先,DeRy求解一个覆盖集问题并对所有预训练网络按照功能级进行拆分;第二步中,DeRy将模型拼装形式化为一个0-1整数规划问题,保证组装后模型在特定任务上性能最佳。该工作不但收获了较强的性能提升,同时也映射出了不同神经网络之间可能存在的连接性。参考资料:https://arxiv.org/abs/2210.17409

相关文章
|
2月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
深度学习中的图像风格迁移
【9月更文挑战第26天】本文将探讨如何利用深度学习技术,实现图像风格的转换。我们将从基础的理论出发,然后逐步深入到具体的实现过程,最后通过代码实例来展示这一技术的实际应用。无论你是初学者还是有经验的开发者,都能在这篇文章中找到有价值的信息。让我们一起探索深度学习的奥秘吧!
|
5月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的迁移学习:从理论到实践
科技进步不断推动人工智能的发展,其中深度学习已成为最炙手可热的领域。然而,训练深度学习模型通常需要大量的数据和计算资源,这对于许多实际应用来说是一个显著的障碍。迁移学习作为一种有效的方法,通过利用已有模型在新任务上的再训练,大大减少了数据和计算资源的需求。本文将详细探讨迁移学习的理论基础、各种实现方法以及其在实际应用中的优势和挑战。
|
1月前
|
机器学习/深度学习 人工智能 TensorFlow
利用深度学习实现图像风格迁移
【8月更文挑战第73天】本文通过深入浅出的方式,介绍了一种使用深度学习技术进行图像风格迁移的方法。我们将探讨如何将一张普通照片转化为具有著名画作风格的艺术作品。文章不仅解释了背后的技术原理,还提供了一个实际的代码示例,帮助读者理解如何实现这一过程。
|
26天前
|
机器学习/深度学习 自然语言处理 计算机视觉
深度学习中的迁移学习技术
【10月更文挑战第11天】 本文探讨了深度学习中的迁移学习技术,并深入分析了其原理、应用场景及实现方法。通过实例解析,展示了迁移学习如何有效提升模型性能和开发效率。同时,文章也讨论了迁移学习面临的挑战及其未来发展方向。
|
2月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的迁移学习技术
本文探讨了深度学习中的迁移学习技术,分析了其在提高模型训练效率和效果方面的优势。通过对迁移学习的定义、原理和应用案例的详细阐述,展示了如何有效利用预训练模型解决实际问题。
72 6
|
2月前
|
机器学习/深度学习 算法 搜索推荐
利用深度学习实现图像风格迁移
【9月更文挑战第21天】本文将介绍一种使用深度学习技术,特别是卷积神经网络(CNN)和生成对抗网络(GAN)来实现图像风格迁移的方法。我们将探索如何将这些技术应用于艺术创作,以及它们如何影响现代视觉艺术的发展。
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】机器学习、深度学习、强化学习和迁移学习简介、相互对比、区别与联系。
机器学习、深度学习、强化学习和迁移学习都是人工智能领域的子领域,它们之间有一定的联系和区别。下面分别对这四个概念进行解析,并给出相互对比、区别与联系以及应用场景案例分析。
81 1
|
4月前
|
机器学习/深度学习 自然语言处理 算法
深度学习中的迁移学习应用与挑战
在现代深度学习应用中,迁移学习作为一种有效的模型训练技术,逐渐成为研究和实践中的热门话题。本文探讨了迁移学习的基本原理、常见应用领域以及面临的挑战。通过详细分析现有文献和实例,揭示了在不同领域应用迁移学习的潜力与限制,并探讨了未来可能的发展方向。 【7月更文挑战第15天】
118 4
|
4月前
|
机器学习/深度学习 TensorFlow 算法框架/工具
使用Python实现深度学习模型:图像风格迁移与生成
【7月更文挑战第13天】 使用Python实现深度学习模型:图像风格迁移与生成
49 2
|
4月前
|
机器学习/深度学习 自然语言处理 语音技术
深度学习中的迁移学习:优势与应用探索
传统深度学习模型在数据不足或特定任务下表现不佳,迁移学习则通过利用预训练模型的知识来解决这一问题。本文探讨了迁移学习的基本原理、不同方法以及在实际应用中的案例分析,旨在帮助读者更好地理解和应用迁移学习技术。 【7月更文挑战第6天】
117 5
下一篇
无影云桌面