ICLR 2024:首个从互联网视频中学习通用图像匹配器的框架

简介: 【2月更文挑战第16天】ICLR 2024:首个从互联网视频中学习通用图像匹配器的框架

c8f4069627ff1a7bf4fc4483acbc5a9e.jpeg
在2024年的ICLR上,研究者们提出了一个新的框架GIM(Generalizable Image Matcher),这是一个从互联网视频中学习通用图像匹配器的自训练框架。这个框架旨在解决现有基于学习的图像匹配方法在野外图像上泛化能力差的问题。GIM通过利用互联网视频这一丰富且多样化的数据源,训练出一个能够在不同场景下通用的图像匹配模型。

研究者们首先在标准的领域特定数据集上训练图像匹配架构,然后结合多种互补的图像匹配方法,在新视频的邻近帧上生成密集标签。这些标签通过鲁棒拟合进行过滤,并通过对标签进行传播以增强自训练信号。最终模型在传播数据上进行训练,并应用强数据增强。GIM的这种方法不依赖于复杂的3D重建,使其比基于标准结构从运动(SfM)和多视图立体(MVS)的框架更高效,且更不容易失败。

为了全面评估不同方法的泛化性能,研究者们还构建了第一个零样本评估基准ZEB(Zero-Shot Evaluation Benchmark),它由来自8个真实世界和4个模拟领域的数据混合而成。ZEB能够彻底评估不同方法在跨领域数据上的泛化性能。实验表明,GIM在零样本性能上显著提高了3种最先进的图像匹配架构的性能,随着下载视频数量的增加,相对零样本性能提高了8.4%至18.1%。

GIM框架的关键贡献包括:一是提出了GIM,这是第一个能够从互联网视频中学习通用图像匹配器的框架。二是提出了ZEB,这是第一个零样本图像匹配评估基准。三是实验展示了GIM在图像匹配和各种下游任务中的有效性和通用性。

在实验部分,研究者们首先展示了GIM在基本图像匹配任务——相对姿态估计上的有效性。他们在ZEB基准和标准领域特定基准上评估了不同方法。通过消融研究,他们验证了GIM设计选择的有效性。最后,他们将训练好的图像匹配模型应用于各种下游任务,如视觉定位、单应性估计和3D重建。

GIM在多视图几何、多视图重建、视觉定位等下游任务上的表现也得到了验证。例如,在多视图重建中,GIM显著提高了重建覆盖率和准确性。在视觉定位任务中,GIM在室内外场景中均表现出色,即使在没有领域特定训练的情况下,也能有效地部署到不同环境中。

研究者们还对GIM进行了详细的消融研究,分析了GIM各个组成部分的效果。他们发现,随着视频数据量的减少,GIM的性能会持续下降。仅使用RootSIFT生成视频标签时,GIM的性能略有下降。这表明在更多样化的图像上生成标签比拥有先进的基础标签生成器更重要。去除标签传播比缺乏数据增强和基础标签生成方法对性能的影响更大。

GIM框架通过自训练和利用互联网视频的多样性,成功地提高了图像匹配模型在野外数据上的泛化能力。这一成果不仅在图像匹配领域具有重要意义,也为其他计算机视觉任务提供了新的研究方向和方法。

目录
相关文章
|
2天前
|
人工智能 自然语言处理 测试技术
巨擘之舞:探索AI大模型的发展历程与特性比较
巨擘之舞:探索AI大模型的发展历程与特性比较
|
1月前
|
机器学习/深度学习 语音技术 数据库
ICLR 2024:为音视频分离提供新视角,清华大学胡晓林团队推出RTFS-Net
【2月更文挑战第17天】ICLR 2024:为音视频分离提供新视角,清华大学胡晓林团队推出RTFS-Net
53 1
ICLR 2024:为音视频分离提供新视角,清华大学胡晓林团队推出RTFS-Net
|
1月前
|
人工智能 自然语言处理
浙大联合微软等提出全新视频编辑统一框架UniEdit
【2月更文挑战第13天】浙大联合微软等提出全新视频编辑统一框架UniEdit
34 2
浙大联合微软等提出全新视频编辑统一框架UniEdit
|
1月前
|
数据采集 人工智能 自然语言处理
中科院国产多语言大模型-YAYI2开源!家族AI应用场景全覆盖!
中科院国产多语言大模型-YAYI2开源!家族AI应用场景全覆盖!
|
1月前
|
人工智能 自然语言处理 数据可视化
书生·浦语 2.0 开源!回归语言建模本质,综合性能领先开源社区,魔搭最佳实践来啦!
1月17日,上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式发布新一代大语言模型书生·浦语2.0(InternLM2),模型开源可商用,魔搭社区作为首发平台,支持大家第一时间下载体验。
|
人工智能 自然语言处理 搜索推荐
40多位学者联合发布基础模型工具学习综述,开源BMTools平台(1)
40多位学者联合发布基础模型工具学习综述,开源BMTools平台
208 0
|
机器学习/深度学习 人工智能 搜索推荐
40多位学者联合发布基础模型工具学习综述,开源BMTools平台(2)
40多位学者联合发布基础模型工具学习综述,开源BMTools平台
189 0
|
机器学习/深度学习 人工智能 自然语言处理
业界首个支持9种语言的文图生成模型!智源AltDiffusion开源技术解读
业界首个支持9种语言的文图生成模型!智源AltDiffusion开源技术解读
111 0
|
数据采集 人工智能 自然语言处理
大规模、高性能,清华、聆心智能推出中文开放域对话预训练开源模型OPD
大规模、高性能,清华、聆心智能推出中文开放域对话预训练开源模型OPD
279 0
|
机器学习/深度学习 人工智能 算法
固定参数的模型有多大潜力?港中文、上海AI Lab等提出高效视频理解框架EVL
固定参数的模型有多大潜力?港中文、上海AI Lab等提出高效视频理解框架EVL
126 0