在人工智能领域,图像匹配技术一直是一个重要的研究方向。这项技术能够为计算机视觉系统提供精确的视觉对应关系,对于实现准确的相机姿态估计和3D重建至关重要。随着深度学习技术的不断进步,学习型图像特征匹配技术应运而生,它们在传统基准测试上的表现也在不断提高。然而,这些技术在现实世界应用中的潜力受到了其泛化能力的严重限制,尤其是在面对未在训练时见过的新图像域时。
为了解决这一问题,来自德克萨斯大学奥斯汀分校和谷歌研究院的研究人员共同提出了一种名为OmniGlue的新型图像匹配器。OmniGlue是首个以泛化为核心原则设计的可学习图像匹配器。它利用视觉基础模型的广泛知识来指导特征匹配过程,从而提升对训练时未见过的图像域的泛化能力。此外,研究人员还提出了一种新颖的关键点位置引导注意力机制,该机制能够分离空间和外观信息,从而增强匹配描述符的性能。
OmniGlue的提出,标志着图像匹配技术在泛化能力上迈出了重要的一步。它通过结合基础模型的广泛视觉知识和关键点位置信息,有效地提升了模型在未知图像域中的匹配性能。在7个不同图像域的全面实验中,包括场景级、以对象为中心的和航空图像,OmniGlue相对于直接可比的参考模型,在未见过的域中实现了20.9%的相对增益,同时也比最近提出的LightGlue方法提高了9.5%。
OmniGlue的核心思想是利用基础模型的指导和关键点位置引导的注意力机制来提升图像匹配的泛化能力。基础模型DINOv2通过在大规模数据上的训练,在多种任务上展现出了在不同图像域中的鲁棒性。尽管基础模型提供的匹配结果粒度有限,但它们能够为潜在的匹配区域提供泛化指导,这在专业匹配器无法处理域转移时尤为重要。通过使用DINO来引导图像间特征传播过程,可以降低不相关关键点的影响,并鼓励模型从潜在可匹配区域融合信息。
此外,OmniGlue还引入了一种新颖的关键点位置引导注意力机制,该机制设计用来避免在训练分布中过于专业化。这种设计使得模型在传播特征时,能够同时考虑关键点的空间排列和它们的特征相似性,而不会受到位置信息的干扰,从而提高了泛化能力。
在实验部分,研究人员对OmniGlue在不同视觉域的泛化能力进行了评估,涵盖了合成和真实图像,从场景级到以对象为中心和航空数据集,以及小基线和宽基线相机。实验结果表明,与以往的工作相比,OmniGlue在各个领域都有显著的改进。
尽管OmniGlue在图像匹配的泛化能力上取得了显著的成果,但在某些方面仍有改进的空间。例如,基础模型DINOv2虽然提供了广泛的视觉知识,但其粗粒度的匹配结果可能限制了在某些复杂图像域中的性能。此外,OmniGlue在处理与训练数据分布显著不同的图像对时,可能仍需要进一步优化以提高其泛化能力。