ICLR 2024:首个从互联网视频中学习通用图像匹配器的框架

简介: 【2月更文挑战第16天】ICLR 2024:首个从互联网视频中学习通用图像匹配器的框架

c8f4069627ff1a7bf4fc4483acbc5a9e.jpeg
在2024年的ICLR上,研究者们提出了一个新的框架GIM(Generalizable Image Matcher),这是一个从互联网视频中学习通用图像匹配器的自训练框架。这个框架旨在解决现有基于学习的图像匹配方法在野外图像上泛化能力差的问题。GIM通过利用互联网视频这一丰富且多样化的数据源,训练出一个能够在不同场景下通用的图像匹配模型。

研究者们首先在标准的领域特定数据集上训练图像匹配架构,然后结合多种互补的图像匹配方法,在新视频的邻近帧上生成密集标签。这些标签通过鲁棒拟合进行过滤,并通过对标签进行传播以增强自训练信号。最终模型在传播数据上进行训练,并应用强数据增强。GIM的这种方法不依赖于复杂的3D重建,使其比基于标准结构从运动(SfM)和多视图立体(MVS)的框架更高效,且更不容易失败。

为了全面评估不同方法的泛化性能,研究者们还构建了第一个零样本评估基准ZEB(Zero-Shot Evaluation Benchmark),它由来自8个真实世界和4个模拟领域的数据混合而成。ZEB能够彻底评估不同方法在跨领域数据上的泛化性能。实验表明,GIM在零样本性能上显著提高了3种最先进的图像匹配架构的性能,随着下载视频数量的增加,相对零样本性能提高了8.4%至18.1%。

GIM框架的关键贡献包括:一是提出了GIM,这是第一个能够从互联网视频中学习通用图像匹配器的框架。二是提出了ZEB,这是第一个零样本图像匹配评估基准。三是实验展示了GIM在图像匹配和各种下游任务中的有效性和通用性。

在实验部分,研究者们首先展示了GIM在基本图像匹配任务——相对姿态估计上的有效性。他们在ZEB基准和标准领域特定基准上评估了不同方法。通过消融研究,他们验证了GIM设计选择的有效性。最后,他们将训练好的图像匹配模型应用于各种下游任务,如视觉定位、单应性估计和3D重建。

GIM在多视图几何、多视图重建、视觉定位等下游任务上的表现也得到了验证。例如,在多视图重建中,GIM显著提高了重建覆盖率和准确性。在视觉定位任务中,GIM在室内外场景中均表现出色,即使在没有领域特定训练的情况下,也能有效地部署到不同环境中。

研究者们还对GIM进行了详细的消融研究,分析了GIM各个组成部分的效果。他们发现,随着视频数据量的减少,GIM的性能会持续下降。仅使用RootSIFT生成视频标签时,GIM的性能略有下降。这表明在更多样化的图像上生成标签比拥有先进的基础标签生成器更重要。去除标签传播比缺乏数据增强和基础标签生成方法对性能的影响更大。

GIM框架通过自训练和利用互联网视频的多样性,成功地提高了图像匹配模型在野外数据上的泛化能力。这一成果不仅在图像匹配领域具有重要意义,也为其他计算机视觉任务提供了新的研究方向和方法。

目录
相关文章
|
网络性能优化
【AXI】解读AXI协议的额外信号(QOS信号,REGION信号,与USER信号)
【AXI】解读AXI协议的额外信号(QOS信号,REGION信号,与USER信号)
【AXI】解读AXI协议的额外信号(QOS信号,REGION信号,与USER信号)
|
容器
关于在容器通过apt安装程序碰到的问题
记录容器安装程序的问题
2597 0
|
人工智能 数据管理 API
阿里云百炼又获大奖!阿里云百炼入选 2024 最受开发者欢迎的 AI 应用开发平台榜15强
2024年最受开发者欢迎的AI应用开发平台榜单发布,阿里云百炼入选15强。持续推动AI开发者生态建设,提供开放平台、培训支持、行业解决方案,注重数据安全与合规,致力于生态合作与共赢,加速企业数智化转型。
1361 0
|
自然语言处理 并行计算 C++
FlashTokenizer: 基于C++的高性能分词引擎,速度可以提升8-15倍
FlashTokenizer是一款高性能CPU分词引擎,专为BERT等Transformer架构优化。基于高效C++实现与多线程并行处理,性能较传统分词器提升8-15倍,显著加速文本预处理。支持跨平台安装,适用于大规模文本处理、实时NLP应用及资源受限场景,助力开发者提升模型推理效率、降低硬件成本。
455 13
FlashTokenizer: 基于C++的高性能分词引擎,速度可以提升8-15倍
|
网络协议 应用服务中间件 网络安全
阿里云环境中TLS/SSL握手失败的场景分析
TLS/SSL握手是一个相对复杂的过程,在阿里云环境中结合产品,安全等特性,可能会让TLS/SSL握手过程的不定性更多。本文来总结下各种握手失败的场景。
阿里云环境中TLS/SSL握手失败的场景分析
|
计算机视觉 网络架构
CVPR 2024:基于MoE的通用图像融合模型,添加2.8%参数完成多项任务
【5月更文挑战第9天】CVPR 2024上的TC-MoA模型通过MoE策略改进通用图像融合,添加少量参数实现多任务处理。该模型使用适配器共享和相互信息正则化提升跨任务兼容性,动态路由网络适应不同任务需求。实验显示其在多模态、多曝光和多聚焦融合中表现出色,但依赖预训练基础模型且可能无法完全捕捉所有任务特定信息。[[arxiv.org/abs/2403.12494](https://arxiv.org/abs/2403.12494)]
644 1
|
数据采集 前端开发 数据安全/隐私保护
使用 urllib.parse 模块优雅地处理 URL
使用 urllib.parse 模块优雅地处理 URL
517 9
|
Python
python中3种获取cookie解决方案
python中3种获取cookie解决方案
260 0
|
安全 小程序 Linux
Linux中信号是什么?Ctrl + c后到底为什么会中断程序?
信号在进程的学习中是一个非常好用的存在,它是软件层次上对中断机制的一种模拟,是异步通信方式,同时也可以用来检测用户空间到底发生了什么情况,然后系统知道后就可以做出相应的对策。
803 6
|
编解码 前端开发 JavaScript
纯前端也能实现视频转GIF
纯前端也能实现视频转GIF

热门文章

最新文章