用基础模型指导特征传播,首个泛化型图像匹配器OmniGlue搞定未见过域

简介: 【6月更文挑战第3天】研究人员提出OmniGlue,首个以泛化为中心的图像匹配器,利用基础模型DINOv2的广泛知识和关键点位置引导的注意力机制,提升未见过图像域的匹配性能。在7个不同图像域的实验中,OmniGlue相对其他模型表现出20.9%的相对增益,优于LightGlue 9.5%。尽管有改进空间,OmniGlue标志着图像匹配技术泛化能力的重要进步。论文链接:https://arxiv.org/pdf/2405.12979

在人工智能领域,图像匹配技术一直是一个重要的研究方向。这项技术能够为计算机视觉系统提供精确的视觉对应关系,对于实现准确的相机姿态估计和3D重建至关重要。随着深度学习技术的不断进步,学习型图像特征匹配技术应运而生,它们在传统基准测试上的表现也在不断提高。然而,这些技术在现实世界应用中的潜力受到了其泛化能力的严重限制,尤其是在面对未在训练时见过的新图像域时。

为了解决这一问题,来自德克萨斯大学奥斯汀分校和谷歌研究院的研究人员共同提出了一种名为OmniGlue的新型图像匹配器。OmniGlue是首个以泛化为核心原则设计的可学习图像匹配器。它利用视觉基础模型的广泛知识来指导特征匹配过程,从而提升对训练时未见过的图像域的泛化能力。此外,研究人员还提出了一种新颖的关键点位置引导注意力机制,该机制能够分离空间和外观信息,从而增强匹配描述符的性能。

OmniGlue的提出,标志着图像匹配技术在泛化能力上迈出了重要的一步。它通过结合基础模型的广泛视觉知识和关键点位置信息,有效地提升了模型在未知图像域中的匹配性能。在7个不同图像域的全面实验中,包括场景级、以对象为中心的和航空图像,OmniGlue相对于直接可比的参考模型,在未见过的域中实现了20.9%的相对增益,同时也比最近提出的LightGlue方法提高了9.5%。

OmniGlue的核心思想是利用基础模型的指导和关键点位置引导的注意力机制来提升图像匹配的泛化能力。基础模型DINOv2通过在大规模数据上的训练,在多种任务上展现出了在不同图像域中的鲁棒性。尽管基础模型提供的匹配结果粒度有限,但它们能够为潜在的匹配区域提供泛化指导,这在专业匹配器无法处理域转移时尤为重要。通过使用DINO来引导图像间特征传播过程,可以降低不相关关键点的影响,并鼓励模型从潜在可匹配区域融合信息。

此外,OmniGlue还引入了一种新颖的关键点位置引导注意力机制,该机制设计用来避免在训练分布中过于专业化。这种设计使得模型在传播特征时,能够同时考虑关键点的空间排列和它们的特征相似性,而不会受到位置信息的干扰,从而提高了泛化能力。

在实验部分,研究人员对OmniGlue在不同视觉域的泛化能力进行了评估,涵盖了合成和真实图像,从场景级到以对象为中心和航空数据集,以及小基线和宽基线相机。实验结果表明,与以往的工作相比,OmniGlue在各个领域都有显著的改进。

尽管OmniGlue在图像匹配的泛化能力上取得了显著的成果,但在某些方面仍有改进的空间。例如,基础模型DINOv2虽然提供了广泛的视觉知识,但其粗粒度的匹配结果可能限制了在某些复杂图像域中的性能。此外,OmniGlue在处理与训练数据分布显著不同的图像对时,可能仍需要进一步优化以提高其泛化能力。

论文地址:https://arxiv.org/pdf/2405.12979

目录
相关文章
|
10月前
|
机器学习/深度学习 存储 计算机视觉
北京大学提出 PTQ4ViT | 双均匀量化+Hessian引导度量,推进Transformer模型落地
北京大学提出 PTQ4ViT | 双均匀量化+Hessian引导度量,推进Transformer模型落地
227 1
|
10月前
|
物联网 网络架构
PHATGOOSE:使用LoRA Experts创建低成本混合专家模型实现零样本泛化
这篇2月的新论文介绍了Post-Hoc Adaptive Tokenwise Gating Over an Ocean of Specialized Experts (PHATGOOSE),这是一种通过利用一组专门的PEFT模块(如LoRA)实现零样本泛化的新方法
114 0
|
5月前
|
编解码 人工智能 运维
南加大提出全新通用时间序列基础模型TimeDiT!基于扩散模型创新物理约束机制
 【10月更文挑战第10天】南加大提出TimeDiT模型,创新融合扩散模型与Transformer架构,针对真实世界时间序列数据的复杂性,如多分辨率、缺失值等问题,提供高效解决方案。该模型通过新颖的掩码机制和无微调编辑策略,实现多任务处理及物理知识集成,显著提升预测和异常检测的准确性和鲁棒性。
148 3
|
2月前
|
人工智能 数据安全/隐私保护
深度揭秘CoT!普林斯顿耶鲁发布最新报告:大模型既有记忆推理、也有概率推理
普林斯顿大学和耶鲁大学研究人员发布报告,探讨链式思维(CoT)提示对大型语言模型(LLM)推理能力的影响。研究通过移位密码任务,揭示了三个关键因素:任务输出概率、预训练阶段的隐性学习及中间操作数量(噪声推理)。实验使用GPT-4、Claude 3和Llama 3.1模型,发现CoT提示可显著提升模型准确性,但也存在局限性。论文地址:https://arxiv.org/abs/2407.01687。
142 29
|
3月前
|
人工智能 搜索推荐 决策智能
不靠更复杂的策略,仅凭和大模型训练对齐,零样本零经验单LLM调用,成为网络任务智能体新SOTA
近期研究通过调整网络智能体的观察和动作空间,使其与大型语言模型(LLM)的能力对齐,显著提升了基于LLM的网络智能体性能。AgentOccam智能体在WebArena基准上超越了先前方法,成功率提升26.6个点(+161%)。该研究强调了与LLM训练目标一致的重要性,为网络任务自动化提供了新思路,但也指出其性能受限于LLM能力及任务复杂度。论文链接:https://arxiv.org/abs/2410.13825。
81 12
|
4月前
|
机器学习/深度学习
NeurIPS 2024:标签噪声下图神经网络有了首个综合基准库,还开源
NoisyGL是首个针对标签噪声下图神经网络(GLN)的综合基准库,由浙江大学和阿里巴巴集团的研究人员开发。该基准库旨在解决现有GLN研究中因数据集选择、划分及预处理技术差异导致的缺乏统一标准问题,提供了一个公平、用户友好的平台,支持多维分析,有助于深入理解GLN方法在处理标签噪声时的表现。通过17种代表性方法在8个常用数据集上的广泛实验,NoisyGL揭示了多个关键发现,推动了GLN领域的进步。尽管如此,NoisyGL目前主要适用于同质图,对异质图的支持有限。
96 7
|
6月前
|
人工智能 负载均衡 网络架构
混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合
【9月更文挑战第3天】在人工智能领域,多模态学习备受关注。Meta AI提出了一种名为模态感知型专家混合(MoMa)的新架构,通过模态特定的专家模块组合处理图像和文本,提升了多模态早期融合语言模型的预训练效率。MoMa在1万亿令牌训练下,实现了3.7倍的FLOPs节省,优于标准混合专家方案。尽管存在因果推理性能和负载平衡方面的局限性,MoMa仍为多模态预训练提供了高效新方法。论文详细内容见:https://arxiv.org/pdf/2407.21770
92 3
|
10月前
|
存储 机器学习/深度学习 人工智能
论文介绍:InfLLM——揭示大型语言模型在无需训练的情况下处理极长序列的内在能力
【5月更文挑战第18天】InfLLM是一种新方法,无需额外训练即可增强大型语言模型处理极长序列的能力。通过使用记忆单元存储长序列的远距离上下文,InfLLM能更准确地捕捉长距离依赖,提高对长文本理解。实验表明,InfLLM使预训练在短序列上的模型在处理极长序列时表现媲美甚至超过专门训练的模型。尽管有挑战,如动态上下文分割和记忆单元效率,InfLLM为长序列处理提供了有效且未经训练的解决方案。论文链接:https://arxiv.org/abs/2402.04617
251 3
|
10月前
|
机器学习/深度学习 人工智能 缓存
Contextual发布生成式表征指导调整模型
【2月更文挑战第17天】Contextual发布生成式表征指导调整模型
160 1
Contextual发布生成式表征指导调整模型
|
10月前
|
机器学习/深度学习 数据采集 数据可视化
【机器学习】样本、特征、标签:构建智能模型的三大基石
【机器学习】样本、特征、标签:构建智能模型的三大基石
3859 0