在ICLR 2024的Spotlight环节中,研究者们展示了一种创新的方法——CLIPSelf,这是一种自蒸馏技术,用于提升大型语言模型(LLMs)在开放词汇密集预测任务中的性能。这些任务包括目标检测和图像分割,它们在计算机视觉领域中具有重要意义。CLIPSelf的核心在于利用CLIP模型,尤其是那些结合了视觉变换器(ViTs)的模型,在零样本图像分类中展现出的卓越泛化能力。这些模型能够识别在训练数据中未见过的图像,但在将这种能力从全局图像表示转移到局部区域表示时,却面临着领域转移的挑战。
为了克服这一挑战,研究者们对CLIP模型中的区域-语言对齐进行了深入分析,并提出了CLIPSelf方法。这种方法无需依赖区域-文本对,就能将CLIP ViT的图像级识别能力适配到局部图像区域。CLIPSelf通过将从密集特征图中提取的区域表示与其对应图像裁剪的图像级表示对齐,实现了ViTs的自我蒸馏。这一过程不仅提高了模型在开放词汇目标检测和图像分割任务上的性能,而且在各种基准测试中取得了新的最佳性能。
CLIPSelf的有效性得到了实验验证。在开放词汇目标检测方面,研究者们构建了一个基于冻结CLIP ViT的两阶段检测器基线,并在OV-COCO和OV-LVIS基准测试上取得了最佳性能。在开放词汇语义和全景分割方面,CLIPSelf也显著提升了当前最佳方法的性能,如Cat-Seg和ODISE。
研究者们还比较了CLIPSelf与使用区域文本对的方法。结果显示,CLIPSelf在区域文本对的方法中表现出更大的优势。此外,研究者们还探索了CLIPSelf在不同模型架构上的适用性,包括在具有局部窗口注意力的ViTs上的应用,并在CC3M数据集上进行了自蒸馏。这些实验结果表明,CLIPSelf可以作为一种简单而有效的方法,增强CLIP ViTs的密集表示,这对于开放词汇密集预测任务至关重要。
CLIPSelf的研究不仅为如何将CLIP模型的视觉-语言对齐能力从全局图像转移到局部区域提供了新的视角,而且为开放词汇密集预测任务提供了一种有效的解决方案。