MIM方法为什么简单高效?可视化和大规模实验给出了答案

简介: MIM方法为什么简单高效?可视化和大规模实验给出了答案

来自清华大学、中科大和微软亚研的研究者找到 MIM 优异性能的关键所在了。


在过去的几年里,「信号掩码建模(Masked Signal Modeling)」成为了一个普遍而有效的自监督预训练任务,即去掉一部分输入信号并试图预测这些被去掉的信号,这个任务被广泛用于自然语言、视觉和语音等各种领域。近期,图像掩码建模(MIM)也被证明是计算机视觉中广泛使用的有监督预训练方法的有力竞争者,基于 MIM 的预训练模型在不同类型和复杂程度的广泛视觉任务上实现了非常高的微调精度。

然而,图像掩码建模有效性的来源缺乏进一步的解释。来自清华大学、中科大和微软亚研的研究者基于这一出发点,探究并解答了几个关键问题:
1. 促成 MIM 优异性能的关键机制是什么?2. 在公平的对比下,MIM 和有监督预训练模型在不同类型的任务中,如语义理解、几何和运动任务中的可迁移性如何?


论文地址:https://arxiv.org/pdf/2205.13543.pdf


为了研究这些问题,论文从可视化和实验的角度分别对 MIM 和有监督模型进行了比较。
总的来说,该研究的主要贡献包括:
1)从可视化中探索促成 MIM 优异性能的关键机制是什么,发现 MIM 预训练会给模型带来局部性的归纳偏置、注意力头上更大的多样性等,或许是该类方法帮助下游任务优化的关键;
2)从实验中,研究 MIM 和有监督模型在不同类型的任务中的表现,发现 MIM 模型在具有弱语义的几何和运动任务中表现出色。一个标准的 SimMIM 预训练的 SwinV2-L 可以在姿势估计(COCO test-dev 78.9 AP,CrowdPose 78.0 AP)、深度估计(NYUv2 0.287 RMSE,KITTI 1.966 RMSE)和视频物体跟踪(LaSOT 70.7 SUC)上取得SOTA性能。
研究者希望对 MIM 更为深入的理解能够激发这个方向新的、可靠的研究。

可视化


局部性 v.s. 全局性:首先,上图展示了有监督模型和 MIM 模型在不同层的平均注意力距离,发现 MIM 给训练后的模型带来了局部性的归纳偏置,即在所有层均在某些注意力头中倾向于关注附近的像素。但有监督的模型倾向于在较低层中关注局部像素,而在较深层中关注全局像素。对比学习模型和有监督模型的表现极其相似。


注意力头的多样性:上图展示了不同模型在每一层中的不同注意力头(Attention Head)关注的像素是否相同。在 MIM 模型中,对所有层,不同的注意力头均倾向于关注不同的像素,即 KL 散度较大。但是对于有监督模型来说,注意力头的多样性随着层数变深而减少,最后三层的多样性已经非常小了。对比学习模型和有监督模型的表现依然极其相似。


直观理解,注意力头多样性的损失一般会影响模型的表达能力。为了验证这一点,文中尝试了在微调过程中丢掉有监督模型的最后几层,并发现在丢掉合适层数的情况下,下游任务的微调性能不下降(右图)或甚至会上升(左图),然而在 MIM 模型中并没有观察到这一现象。这也进一步验证了注意力头多样性的损失会一定程度上损害下游任务的性能。


不同层特征之间的表示差异:上图使用 Centered Kernel Analysis (CKA) 展示了模型在不同层之间学到特征的相似程度。在 MIM 模型中,不同层的特征表示具有非常高的相似性,它们的 CKA 值都非常大([0.9, 1.0])。但对于有监督模型,不同的层学到的特征差异较大。

此外,论文还在附录中提供了关于 Swin Transformer 和 RepLKNet 的更多分析,上述对 ViT 的观察依然成立。对于 RepLKNet,文中发现 MIM 预训练能够帮助基于大卷积核的卷积网络在没有重参数化技巧的情况下进行优化。

实验


为了了解 MIM 模型对哪种类型的任务效果更好,文中进行了大规模的实验研究,比较了在三种类型的任务中 MIM 和有监督模型的微调性能,包括语义理解任务、几何和运动任务,以及同时执行这两种任务的组合任务。


对于语义理解任务,文中选择了几个代表性和多样性兼具的图像级分类任务。对于那些类别被 ImageNet 的一千类别充分覆盖的分类数据集(如 CIFAR-10/100),有监督模型可以取得比 MIM 模型更好的性能。然而,对于细粒度的分类数据集(如 Food、Birdsnap、iNat18 等)、或具有不同输出类别的数据集(如 CoG),有监督模型中的表示能力难以迁移,由此 MIM 模型的微调表现普遍优于有监督模型。


几何和运动任务对于语义的需要较弱,而更需要高分辨率的物体定位能力。在这一类任务中 MIM 模型可以大幅度领先于有监督模型。无需特殊设计,一个标准的 MIM 预训练的 SwinV2-L 可以在姿势估计、深度估计和视频物体跟踪这三个具有代表性的几何和运动任务中取得当前最先进的性能。


物体检测与语义分割任务较为特殊,需要同时进行语义理解(分类)和几何学习(定位)。对于 COCO 上的物体检测和分割任务,在 box/mask AP 指标中 MIM 模型优于有监督模型。为了进一步理解此过程,上图中展示了在训练过程中物体分类和定位的损失函数的变化情况,可以发现 MIM 模型可帮助定位任务更快地收敛,而有监督模型则由于 COCO 的类别被 ImageNet 完全覆盖而对物体分类任务帮助更大。

总体而言,MIM 模型在语义较弱的几何 / 运动任务或细粒度分类任务中的表现明显优于有监督模型。对于有监督模型擅长的任务(语义覆盖较好的语义理解任务),MIM 模型仍然可以取得极具竞争力的迁移性能。

相关文章
|
7月前
如何用公式化思维?几个经典公式收集
如何用公式化思维?几个经典公式收集
|
7月前
|
算法 搜索推荐 图计算
图计算中的社区发现算法是什么?请解释其作用和常用算法。
图计算中的社区发现算法是什么?请解释其作用和常用算法。
147 0
|
8天前
|
机器学习/深度学习 传感器 运维
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
本文探讨了时间序列分析中数据缺失的问题,并通过实际案例展示了如何利用机器学习技术进行缺失值补充。文章构建了一个模拟的能源生产数据集,采用线性回归和决策树回归两种方法进行缺失值补充,并从统计特征、自相关性、趋势和季节性等多个维度进行了详细评估。结果显示,决策树方法在处理复杂非线性模式和保持数据局部特征方面表现更佳,而线性回归方法则适用于简单的线性趋势数据。文章最后总结了两种方法的优劣,并给出了实际应用建议。
34 7
使用机器学习技术进行时间序列缺失数据填充:基础方法与入门案例
|
2月前
|
人工智能 人机交互 智能硬件
从大模型的原理到提示词优化
本文介绍了大语言模型(LLM)的基本概念及其工作原理,重点探讨了AI提示词(Prompt)的重要性和几种有效技巧,包括角色设定、One-shot/Few-shot、任务拆解和思维链。通过实例解析,展示了如何利用这些技巧提升LLM的输出质量和准确性,强调了提供高质量上下文信息对优化LLM表现的关键作用。
71 0
|
3月前
|
算法 搜索推荐 开发者
别再让复杂度拖你后腿!Python 算法设计与分析实战,教你如何精准评估与优化!
在 Python 编程中,算法的性能至关重要。本文将带您深入了解算法复杂度的概念,包括时间复杂度和空间复杂度。通过具体的例子,如冒泡排序算法 (`O(n^2)` 时间复杂度,`O(1)` 空间复杂度),我们将展示如何评估算法的性能。同时,我们还会介绍如何优化算法,例如使用 Python 的内置函数 `max` 来提高查找最大值的效率,或利用哈希表将查找时间从 `O(n)` 降至 `O(1)`。此外,还将介绍使用 `timeit` 模块等工具来评估算法性能的方法。通过不断实践,您将能更高效地优化 Python 程序。
69 4
|
机器学习/深度学习 算法 数据处理
ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略
ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略
ML之FE:数据处理—特征工程之稀疏特征的简介、如何处理、案例应用之详细攻略
|
机器学习/深度学习 并行计算 算法
像Transformer一样思考!DeepMind发布全新模型设计工具Tracr:从可解释逻辑反向搭建模型
像Transformer一样思考!DeepMind发布全新模型设计工具Tracr:从可解释逻辑反向搭建模型
205 0
|
机器学习/深度学习 数据可视化 PyTorch
【Pytorch神经网络实战案例】16 条件WGAN模型生成可控Fashon-MNST模拟数据
搭建条件GAN模型,实现向模型中输入标签,并使其生成与标签类别对应的模拟数据的功能,基于WGAN-gp模型改造实现带有条件的wGAN-gp模型。
261 0
|
决策智能
运筹优化学习01:Lingo入门与错误列表分析(三)
运筹优化学习01:Lingo入门与错误列表分析
运筹优化学习01:Lingo入门与错误列表分析(三)
|
决策智能 Windows
运筹优化学习01:Lingo入门与错误列表分析(二)
运筹优化学习01:Lingo入门与错误列表分析
运筹优化学习01:Lingo入门与错误列表分析(二)
下一篇
DataWorks