ICLR 2024:首个从互联网视频中学习通用图像匹配器的框架

简介: 【2月更文挑战第16天】ICLR 2024:首个从互联网视频中学习通用图像匹配器的框架

c8f4069627ff1a7bf4fc4483acbc5a9e.jpeg
在2024年的ICLR上,研究者们提出了一个新的框架GIM(Generalizable Image Matcher),这是一个从互联网视频中学习通用图像匹配器的自训练框架。这个框架旨在解决现有基于学习的图像匹配方法在野外图像上泛化能力差的问题。GIM通过利用互联网视频这一丰富且多样化的数据源,训练出一个能够在不同场景下通用的图像匹配模型。

研究者们首先在标准的领域特定数据集上训练图像匹配架构,然后结合多种互补的图像匹配方法,在新视频的邻近帧上生成密集标签。这些标签通过鲁棒拟合进行过滤,并通过对标签进行传播以增强自训练信号。最终模型在传播数据上进行训练,并应用强数据增强。GIM的这种方法不依赖于复杂的3D重建,使其比基于标准结构从运动(SfM)和多视图立体(MVS)的框架更高效,且更不容易失败。

为了全面评估不同方法的泛化性能,研究者们还构建了第一个零样本评估基准ZEB(Zero-Shot Evaluation Benchmark),它由来自8个真实世界和4个模拟领域的数据混合而成。ZEB能够彻底评估不同方法在跨领域数据上的泛化性能。实验表明,GIM在零样本性能上显著提高了3种最先进的图像匹配架构的性能,随着下载视频数量的增加,相对零样本性能提高了8.4%至18.1%。

GIM框架的关键贡献包括:一是提出了GIM,这是第一个能够从互联网视频中学习通用图像匹配器的框架。二是提出了ZEB,这是第一个零样本图像匹配评估基准。三是实验展示了GIM在图像匹配和各种下游任务中的有效性和通用性。

在实验部分,研究者们首先展示了GIM在基本图像匹配任务——相对姿态估计上的有效性。他们在ZEB基准和标准领域特定基准上评估了不同方法。通过消融研究,他们验证了GIM设计选择的有效性。最后,他们将训练好的图像匹配模型应用于各种下游任务,如视觉定位、单应性估计和3D重建。

GIM在多视图几何、多视图重建、视觉定位等下游任务上的表现也得到了验证。例如,在多视图重建中,GIM显著提高了重建覆盖率和准确性。在视觉定位任务中,GIM在室内外场景中均表现出色,即使在没有领域特定训练的情况下,也能有效地部署到不同环境中。

研究者们还对GIM进行了详细的消融研究,分析了GIM各个组成部分的效果。他们发现,随着视频数据量的减少,GIM的性能会持续下降。仅使用RootSIFT生成视频标签时,GIM的性能略有下降。这表明在更多样化的图像上生成标签比拥有先进的基础标签生成器更重要。去除标签传播比缺乏数据增强和基础标签生成方法对性能的影响更大。

GIM框架通过自训练和利用互联网视频的多样性,成功地提高了图像匹配模型在野外数据上的泛化能力。这一成果不仅在图像匹配领域具有重要意义,也为其他计算机视觉任务提供了新的研究方向和方法。

目录
相关文章
|
10月前
|
机器学习/深度学习 人工智能 自动驾驶
ICLR 2024:国内高校打造类Sora模型VDT,通用视频扩散Transformer
【2月更文挑战第18天】ICLR 2024:国内高校打造类Sora模型VDT,通用视频扩散Transformer
163 1
ICLR 2024:国内高校打造类Sora模型VDT,通用视频扩散Transformer
|
3月前
|
人工智能
GenMAC:港大、清华联合微软推出文本到视频生成的多代理协作框架
GenMAC是由香港大学、清华大学和微软研究院联合推出的文本到视频生成的多代理协作框架。该框架通过任务分解、迭代循环和多代理协作,解决了复杂场景生成问题,显著提高了视频生成的准确性和文本对齐度。
52 5
GenMAC:港大、清华联合微软推出文本到视频生成的多代理协作框架
|
8月前
|
人工智能
ACM最新论文戳破大公司开源谎言,GenAI时代到底如何定义开源模型
【7月更文挑战第2天】ACM论文揭示GenAI开源真相,指出开源模型常缺乏开放数据集、完整代码与功能,质疑大公司仅借开源名义吸引利益。论文倡导重新定义开源,提议全面评估框架、加强监管及教育,确保真开源,促进领域健康发展。[链接:https://dl.acm.org/doi/3630106.3659005]
105 16
|
9月前
|
机器学习/深度学习 人工智能 vr&ar
通用世界模型问世:不学习就能生成新领域视频,可实时控制
【6月更文挑战第2天】通用世界模型,一种无需额外学习即可生成新领域视频的AI技术,通过理解并模拟现实世界,实现跨领域视频生成。利用生成式对抗网络(GAN)和条件生成技术,该模型支持实时控制,广泛应用前景广阔,但面临计算资源消耗、伦理隐私及局限性等问题。论文链接:https://world-model.maitrix.org/assets/pandora.pdf
90 7
|
10月前
|
人工智能 自动驾驶 机器人
Sora是世界模拟器吗?全球首篇综述全面解析通用世界模型
【5月更文挑战第23天】Sora模型是通用世界模拟器的里程碑,展示出在物理法则理解及多领域应用的潜力,尤其在视频生成和自动驾驶中。然而,它仍面临预测能力、模拟复杂物理现象、计算效率及评估体系的挑战。未来研究将聚焦3D模拟、智能体现和安全问题,旨在提升机器对物理世界的理解和适应性,同时应对信息失真、偏见和隐私问题。[论文链接](https://arxiv.org/abs/2405.03520)
183 2
|
10月前
|
人工智能 自然语言处理 开发者
首个基于SSM-Transformer混合架构,开源商业大模型Jamba
【4月更文挑战第13天】AI模型部署与优化迎来新解决方案,ai21labs推出的SSM-Transformer混合架构大模型Jamba结合英伟达NVIDIA NIM服务。Jamba模型在自然语言处理上表现出色,开源特性促进AI技术普及,而NIM提供跨平台、高性能的部署支持。不过,技术门槛、资源需求及优化挑战仍需考虑。
153 6
首个基于SSM-Transformer混合架构,开源商业大模型Jamba
|
人工智能 自然语言处理 搜索推荐
40多位学者联合发布基础模型工具学习综述,开源BMTools平台(1)
40多位学者联合发布基础模型工具学习综述,开源BMTools平台
359 0
|
机器学习/深度学习 人工智能 搜索推荐
40多位学者联合发布基础模型工具学习综述,开源BMTools平台(2)
40多位学者联合发布基础模型工具学习综述,开源BMTools平台
296 0
|
机器学习/深度学习 人工智能 自然语言处理
业界首个支持9种语言的文图生成模型!智源AltDiffusion开源技术解读
业界首个支持9种语言的文图生成模型!智源AltDiffusion开源技术解读
158 0
|
人工智能 算法 数据可视化
ECCV 2022 | 字节提出业内首个通用视频转场方案AutoTransition,数据集和代码已开源
ECCV 2022 | 字节提出业内首个通用视频转场方案AutoTransition,数据集和代码已开源
225 0