用基础模型指导特征传播,首个泛化型图像匹配器OmniGlue搞定未见过域

简介: 【6月更文挑战第3天】研究人员提出OmniGlue,首个以泛化为中心的图像匹配器,利用基础模型DINOv2的广泛知识和关键点位置引导的注意力机制,提升未见过图像域的匹配性能。在7个不同图像域的实验中,OmniGlue相对其他模型表现出20.9%的相对增益,优于LightGlue 9.5%。尽管有改进空间,OmniGlue标志着图像匹配技术泛化能力的重要进步。论文链接:https://arxiv.org/pdf/2405.12979

在人工智能领域,图像匹配技术一直是一个重要的研究方向。这项技术能够为计算机视觉系统提供精确的视觉对应关系,对于实现准确的相机姿态估计和3D重建至关重要。随着深度学习技术的不断进步,学习型图像特征匹配技术应运而生,它们在传统基准测试上的表现也在不断提高。然而,这些技术在现实世界应用中的潜力受到了其泛化能力的严重限制,尤其是在面对未在训练时见过的新图像域时。

为了解决这一问题,来自德克萨斯大学奥斯汀分校和谷歌研究院的研究人员共同提出了一种名为OmniGlue的新型图像匹配器。OmniGlue是首个以泛化为核心原则设计的可学习图像匹配器。它利用视觉基础模型的广泛知识来指导特征匹配过程,从而提升对训练时未见过的图像域的泛化能力。此外,研究人员还提出了一种新颖的关键点位置引导注意力机制,该机制能够分离空间和外观信息,从而增强匹配描述符的性能。

OmniGlue的提出,标志着图像匹配技术在泛化能力上迈出了重要的一步。它通过结合基础模型的广泛视觉知识和关键点位置信息,有效地提升了模型在未知图像域中的匹配性能。在7个不同图像域的全面实验中,包括场景级、以对象为中心的和航空图像,OmniGlue相对于直接可比的参考模型,在未见过的域中实现了20.9%的相对增益,同时也比最近提出的LightGlue方法提高了9.5%。

OmniGlue的核心思想是利用基础模型的指导和关键点位置引导的注意力机制来提升图像匹配的泛化能力。基础模型DINOv2通过在大规模数据上的训练,在多种任务上展现出了在不同图像域中的鲁棒性。尽管基础模型提供的匹配结果粒度有限,但它们能够为潜在的匹配区域提供泛化指导,这在专业匹配器无法处理域转移时尤为重要。通过使用DINO来引导图像间特征传播过程,可以降低不相关关键点的影响,并鼓励模型从潜在可匹配区域融合信息。

此外,OmniGlue还引入了一种新颖的关键点位置引导注意力机制,该机制设计用来避免在训练分布中过于专业化。这种设计使得模型在传播特征时,能够同时考虑关键点的空间排列和它们的特征相似性,而不会受到位置信息的干扰,从而提高了泛化能力。

在实验部分,研究人员对OmniGlue在不同视觉域的泛化能力进行了评估,涵盖了合成和真实图像,从场景级到以对象为中心和航空数据集,以及小基线和宽基线相机。实验结果表明,与以往的工作相比,OmniGlue在各个领域都有显著的改进。

尽管OmniGlue在图像匹配的泛化能力上取得了显著的成果,但在某些方面仍有改进的空间。例如,基础模型DINOv2虽然提供了广泛的视觉知识,但其粗粒度的匹配结果可能限制了在某些复杂图像域中的性能。此外,OmniGlue在处理与训练数据分布显著不同的图像对时,可能仍需要进一步优化以提高其泛化能力。

论文地址:https://arxiv.org/pdf/2405.12979

目录
相关文章
|
1月前
|
机器学习/深度学习 编解码 文字识别
视频生成领域的发展概述:从多级扩散到LLM
2023年是语言模型(llm)和图像生成技术激增的一年,但是视频生成受到的关注相对较少。今年刚到2月份,OpenAI就发布了一个惊人的视频生成模型Sora。虽然它的架构没有披露,但是通过总结现有的视频生成领域可能能对Sora的构架有所理解。
87 0
|
1月前
|
物联网 网络架构
PHATGOOSE:使用LoRA Experts创建低成本混合专家模型实现零样本泛化
这篇2月的新论文介绍了Post-Hoc Adaptive Tokenwise Gating Over an Ocean of Specialized Experts (PHATGOOSE),这是一种通过利用一组专门的PEFT模块(如LoRA)实现零样本泛化的新方法
40 0
|
1月前
|
存储 机器学习/深度学习 人工智能
论文介绍:InfLLM——揭示大型语言模型在无需训练的情况下处理极长序列的内在能力
【5月更文挑战第18天】InfLLM是一种新方法,无需额外训练即可增强大型语言模型处理极长序列的能力。通过使用记忆单元存储长序列的远距离上下文,InfLLM能更准确地捕捉长距离依赖,提高对长文本理解。实验表明,InfLLM使预训练在短序列上的模型在处理极长序列时表现媲美甚至超过专门训练的模型。尽管有挑战,如动态上下文分割和记忆单元效率,InfLLM为长序列处理提供了有效且未经训练的解决方案。论文链接:https://arxiv.org/abs/2402.04617
50 3
|
1月前
|
机器学习/深度学习 人工智能 缓存
Contextual发布生成式表征指导调整模型
【2月更文挑战第17天】Contextual发布生成式表征指导调整模型
52 1
Contextual发布生成式表征指导调整模型
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
【机器学习】样本、特征、标签:构建智能模型的三大基石
【机器学习】样本、特征、标签:构建智能模型的三大基石
762 0
|
1月前
|
计算机视觉
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
70 0
|
7月前
|
SQL 机器学习/深度学习 开发框架
【网安AIGC专题10.25】8 CoLeFunDa华为团队:静默漏洞检测(识别+多分类)+数据增强、样本扩充+对比学习+微调+结果分析(降维空间,分类错误样本归纳,应用场景优势,有效性威胁分析)
【网安AIGC专题10.25】8 CoLeFunDa华为团队:静默漏洞检测(识别+多分类)+数据增强、样本扩充+对比学习+微调+结果分析(降维空间,分类错误样本归纳,应用场景优势,有效性威胁分析)
174 0
|
10月前
|
机器学习/深度学习 数据采集 人工智能
ONE-PEACE:探索通往无限模态的通用表征模型
过去几年里,表征模型在自然语言处理、计算机视觉、语音处理等领域取得了巨大的成功。经过大量数据学习的表征模型,不仅可以在各种下游任务上取得良好的效果,还可以作为大规模语言模型(LLM)的基座模型,为LLM提供多模态理解能力。随着多模态技术的发展,尤其CLIP[1]之后大家都意识到一个好的多模态表征模型在很多单模态任务上都会发挥着至关重要的基础模型的作用。学习了大量模态alignment的数据之后的模型逐渐在学会去理解各个模态和模态间蕴含的知识,甚至通过对大量模态的学习促进对其它模态的理解。
21700 7
|
11月前
|
计算机视觉
ONE-PEACE: 更好的通用表征模型
ONE-PEACE: 更好的通用表征模型
|
11月前
|
机器学习/深度学习 算法 计算机视觉
在对比学习中引入显式跨图像相似度建模能力,中南大学显著提高无监督表征的泛化能力(1)
在对比学习中引入显式跨图像相似度建模能力,中南大学显著提高无监督表征的泛化能力
127 0