在2024年的ICLR上,研究者们提出了一个新的框架GIM(Generalizable Image Matcher),这是一个从互联网视频中学习通用图像匹配器的自训练框架。这个框架旨在解决现有基于学习的图像匹配方法在野外图像上泛化能力差的问题。GIM通过利用互联网视频这一丰富且多样化的数据源,训练出一个能够在不同场景下通用的图像匹配模型。
研究者们首先在标准的领域特定数据集上训练图像匹配架构,然后结合多种互补的图像匹配方法,在新视频的邻近帧上生成密集标签。这些标签通过鲁棒拟合进行过滤,并通过对标签进行传播以增强自训练信号。最终模型在传播数据上进行训练,并应用强数据增强。GIM的这种方法不依赖于复杂的3D重建,使其比基于标准结构从运动(SfM)和多视图立体(MVS)的框架更高效,且更不容易失败。
为了全面评估不同方法的泛化性能,研究者们还构建了第一个零样本评估基准ZEB(Zero-Shot Evaluation Benchmark),它由来自8个真实世界和4个模拟领域的数据混合而成。ZEB能够彻底评估不同方法在跨领域数据上的泛化性能。实验表明,GIM在零样本性能上显著提高了3种最先进的图像匹配架构的性能,随着下载视频数量的增加,相对零样本性能提高了8.4%至18.1%。
GIM框架的关键贡献包括:一是提出了GIM,这是第一个能够从互联网视频中学习通用图像匹配器的框架。二是提出了ZEB,这是第一个零样本图像匹配评估基准。三是实验展示了GIM在图像匹配和各种下游任务中的有效性和通用性。
在实验部分,研究者们首先展示了GIM在基本图像匹配任务——相对姿态估计上的有效性。他们在ZEB基准和标准领域特定基准上评估了不同方法。通过消融研究,他们验证了GIM设计选择的有效性。最后,他们将训练好的图像匹配模型应用于各种下游任务,如视觉定位、单应性估计和3D重建。
GIM在多视图几何、多视图重建、视觉定位等下游任务上的表现也得到了验证。例如,在多视图重建中,GIM显著提高了重建覆盖率和准确性。在视觉定位任务中,GIM在室内外场景中均表现出色,即使在没有领域特定训练的情况下,也能有效地部署到不同环境中。
研究者们还对GIM进行了详细的消融研究,分析了GIM各个组成部分的效果。他们发现,随着视频数据量的减少,GIM的性能会持续下降。仅使用RootSIFT生成视频标签时,GIM的性能略有下降。这表明在更多样化的图像上生成标签比拥有先进的基础标签生成器更重要。去除标签传播比缺乏数据增强和基础标签生成方法对性能的影响更大。
GIM框架通过自训练和利用互联网视频的多样性,成功地提高了图像匹配模型在野外数据上的泛化能力。这一成果不仅在图像匹配领域具有重要意义,也为其他计算机视觉任务提供了新的研究方向和方法。