ICLR 2024:首个从互联网视频中学习通用图像匹配器的框架

简介: 【2月更文挑战第16天】ICLR 2024:首个从互联网视频中学习通用图像匹配器的框架

c8f4069627ff1a7bf4fc4483acbc5a9e.jpeg
在2024年的ICLR上,研究者们提出了一个新的框架GIM(Generalizable Image Matcher),这是一个从互联网视频中学习通用图像匹配器的自训练框架。这个框架旨在解决现有基于学习的图像匹配方法在野外图像上泛化能力差的问题。GIM通过利用互联网视频这一丰富且多样化的数据源,训练出一个能够在不同场景下通用的图像匹配模型。

研究者们首先在标准的领域特定数据集上训练图像匹配架构,然后结合多种互补的图像匹配方法,在新视频的邻近帧上生成密集标签。这些标签通过鲁棒拟合进行过滤,并通过对标签进行传播以增强自训练信号。最终模型在传播数据上进行训练,并应用强数据增强。GIM的这种方法不依赖于复杂的3D重建,使其比基于标准结构从运动(SfM)和多视图立体(MVS)的框架更高效,且更不容易失败。

为了全面评估不同方法的泛化性能,研究者们还构建了第一个零样本评估基准ZEB(Zero-Shot Evaluation Benchmark),它由来自8个真实世界和4个模拟领域的数据混合而成。ZEB能够彻底评估不同方法在跨领域数据上的泛化性能。实验表明,GIM在零样本性能上显著提高了3种最先进的图像匹配架构的性能,随着下载视频数量的增加,相对零样本性能提高了8.4%至18.1%。

GIM框架的关键贡献包括:一是提出了GIM,这是第一个能够从互联网视频中学习通用图像匹配器的框架。二是提出了ZEB,这是第一个零样本图像匹配评估基准。三是实验展示了GIM在图像匹配和各种下游任务中的有效性和通用性。

在实验部分,研究者们首先展示了GIM在基本图像匹配任务——相对姿态估计上的有效性。他们在ZEB基准和标准领域特定基准上评估了不同方法。通过消融研究,他们验证了GIM设计选择的有效性。最后,他们将训练好的图像匹配模型应用于各种下游任务,如视觉定位、单应性估计和3D重建。

GIM在多视图几何、多视图重建、视觉定位等下游任务上的表现也得到了验证。例如,在多视图重建中,GIM显著提高了重建覆盖率和准确性。在视觉定位任务中,GIM在室内外场景中均表现出色,即使在没有领域特定训练的情况下,也能有效地部署到不同环境中。

研究者们还对GIM进行了详细的消融研究,分析了GIM各个组成部分的效果。他们发现,随着视频数据量的减少,GIM的性能会持续下降。仅使用RootSIFT生成视频标签时,GIM的性能略有下降。这表明在更多样化的图像上生成标签比拥有先进的基础标签生成器更重要。去除标签传播比缺乏数据增强和基础标签生成方法对性能的影响更大。

GIM框架通过自训练和利用互联网视频的多样性,成功地提高了图像匹配模型在野外数据上的泛化能力。这一成果不仅在图像匹配领域具有重要意义,也为其他计算机视觉任务提供了新的研究方向和方法。

目录
相关文章
|
网络性能优化
【AXI】解读AXI协议的额外信号(QOS信号,REGION信号,与USER信号)
【AXI】解读AXI协议的额外信号(QOS信号,REGION信号,与USER信号)
【AXI】解读AXI协议的额外信号(QOS信号,REGION信号,与USER信号)
|
11月前
|
并行计算 Python
Python错误笔记(一):CUDA initialization: CUDA unknown error - this may be due to an incorrectly set up env
这篇文章讨论了CUDA初始化时出现的未知错误及其解决方案,包括重启系统和安装nvidia-modprobe。
1399 0
|
8月前
|
存储 搜索推荐 大数据
数据大爆炸:解析大数据的起源及其对未来的启示
数据大爆炸:解析大数据的起源及其对未来的启示
395 15
数据大爆炸:解析大数据的起源及其对未来的启示
|
12月前
|
文字识别 自然语言处理 数据可视化
Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
在 Qwen2 发布后的过去三个月里,许多开发者基于 Qwen2 语言模型构建了新的模型,并提供了宝贵的反馈。在这段时间里,通义千问团队专注于创建更智能、更博学的语言模型。今天,Qwen 家族的最新成员:Qwen2.5系列正式开源
Qwen2.5 全链路模型体验、下载、推理、微调、部署实战!
YOLOv8打印模型结构配置信息并查看网络模型详细参数:参数量、计算量(GFLOPS)
YOLOv8打印模型结构配置信息并查看网络模型详细参数:参数量、计算量(GFLOPS)
|
11月前
|
Java
Java“缺少返回语句”解决
在 Java 中,错误信息“缺少返回语句”表示方法应返回某种类型但未在所有路径中提供返回值,导致编译错误。解决方法包括:确保每个控制路径中有返回值;处理所有分支和异常情况;或将方法声明为 `void` 类型以避免返回值需求。
372 3
|
10月前
|
监控 算法 安全
视频实景三维---实时视频与三维融合,数字孪生的升级版
实时视频与三维融合技术将监控视频与三维模型有机结合,实现室内外连续、实时、动态的三维全景展示。该技术通过先进算法,将视频内容精准映射到三维场景中,提供直观、立体的监控视角,增强场景理解与感知,广泛应用于安防、智慧城市、建筑设计、应急救援和工业生产等领域,提升监控效率和决策准确性。
827 0