在人工智能领域,多模态模型正日益成为研究的热点。其中,CLIP(Contrastive Language-Image Pre-training)作为一款重要的多模态基础模型,通过在大规模图像-文本对上使用简单的对比学习损失来对齐视觉和文本信号,取得了显著的成果。然而,随着大型语言模型(LLM)如GPT-4和LLaMA的快速发展,语言理解和生成的边界不断被突破,这引发了一个有趣的问题:能否利用LLM的能力来进一步改进多模态表示学习?
将LLM引入CLIP的潜在好处是显而易见的。LLM强大的文本理解能力可以从根本上改善CLIP处理图像标题的能力,大大增强其处理长而复杂文本的能力——这是原始CLIP的一个众所周知的局限性。此外,LLM在大量文本语料库上进行训练,拥有开放世界的知识,这使它们能够在训练期间扩展标题信息,提高学习过程的效率。
然而,实现这一潜力面临挑战。尽管LLM具有强大的内部理解能力,但其自回归性质将这种能力隐藏在模型内部,导致输出特征的判别性较差。实验表明,直接将LLM集成到CLIP中会导致性能灾难性下降。
为了解决这些挑战,研究者们提出了一种名为LLM2CLIP的新颖方法,旨在利用LLM的力量来释放CLIP的潜力。该方法的核心思想是通过在标题空间中使用对比学习对LLM进行微调,将其文本能力提取到输出嵌入中,从而显著提高输出层的文本判别性。然后,设计一个高效的训练过程,其中微调后的LLM作为CLIP视觉编码器的强大教师。由于LLM的存在,现在可以合并更长和更复杂的标题,而不受原始CLIP文本编码器的上下文窗口和能力限制。
实验结果表明,这种方法在跨模态任务中带来了显著的改进。该方法直接将之前最先进的EVA02模型在长文本和短文本检索任务上的性能提高了16.5%,将一个仅用英语数据训练的CLIP模型转变为最先进的跨语言模型。此外,当与Llava 1.5等模型集成到多模态训练中时,它在几乎所有基准测试中都一致地优于CLIP,展示了全面的性能改进。
LLM2CLIP方法的贡献主要体现在三个方面:
分析LLM在多模态表示学习中的局限性:通过设计实验,研究者们分析了阻止LLM直接参与多模态表示学习的关键原因——其输出特征的弱判别性。
引入标题对比微调方法:为了提高LLM输出特征在标题文本上的判别性,研究者们引入了标题对比(CC)微调方法。该方法通过将同一图像的不同标题视为正样本,其余标题视为负样本,对LLM的输出特征进行微调。
开发LLM2CLIP训练框架:基于前两个贡献,研究者们开发了LLM2CLIP训练框架,该框架已被证明是一种高效且有效的方法,可以利用LLM为预训练的CLIP模型带来显著的性能改进。
从正面来看,LLM2CLIP方法通过引入LLM作为CLIP的文本编码器,显著提高了CLIP在处理长而复杂文本时的能力。这不仅解决了原始CLIP的局限性,还利用了LLM的开放世界知识,使CLIP能够学习到更结构化、更全局的视觉表示。此外,该方法还实现了高效的训练,使得在保持与原始CLIP训练成本相近的同时,能够获得更强大的性能。
然而,从反面来看,LLM2CLIP方法也存在一些潜在的问题和挑战。首先,尽管该方法在实验中取得了显著的性能改进,但其在实际应用中的鲁棒性和泛化能力仍需进一步验证。其次,由于LLM的引入,该方法可能面临更高的计算和存储需求,这可能会限制其在资源受限环境中的应用。最后,该方法的成功在很大程度上依赖于LLM的强大能力,如果LLM的性能或可用性受到限制,可能会对LLM2CLIP方法的效果产生影响。