用基础模型指导特征传播,首个泛化型图像匹配器OmniGlue搞定未见过域

简介: 【6月更文挑战第3天】研究人员提出OmniGlue,首个以泛化为中心的图像匹配器,利用基础模型DINOv2的广泛知识和关键点位置引导的注意力机制,提升未见过图像域的匹配性能。在7个不同图像域的实验中,OmniGlue相对其他模型表现出20.9%的相对增益,优于LightGlue 9.5%。尽管有改进空间,OmniGlue标志着图像匹配技术泛化能力的重要进步。论文链接:https://arxiv.org/pdf/2405.12979

在人工智能领域,图像匹配技术一直是一个重要的研究方向。这项技术能够为计算机视觉系统提供精确的视觉对应关系,对于实现准确的相机姿态估计和3D重建至关重要。随着深度学习技术的不断进步,学习型图像特征匹配技术应运而生,它们在传统基准测试上的表现也在不断提高。然而,这些技术在现实世界应用中的潜力受到了其泛化能力的严重限制,尤其是在面对未在训练时见过的新图像域时。

为了解决这一问题,来自德克萨斯大学奥斯汀分校和谷歌研究院的研究人员共同提出了一种名为OmniGlue的新型图像匹配器。OmniGlue是首个以泛化为核心原则设计的可学习图像匹配器。它利用视觉基础模型的广泛知识来指导特征匹配过程,从而提升对训练时未见过的图像域的泛化能力。此外,研究人员还提出了一种新颖的关键点位置引导注意力机制,该机制能够分离空间和外观信息,从而增强匹配描述符的性能。

OmniGlue的提出,标志着图像匹配技术在泛化能力上迈出了重要的一步。它通过结合基础模型的广泛视觉知识和关键点位置信息,有效地提升了模型在未知图像域中的匹配性能。在7个不同图像域的全面实验中,包括场景级、以对象为中心的和航空图像,OmniGlue相对于直接可比的参考模型,在未见过的域中实现了20.9%的相对增益,同时也比最近提出的LightGlue方法提高了9.5%。

OmniGlue的核心思想是利用基础模型的指导和关键点位置引导的注意力机制来提升图像匹配的泛化能力。基础模型DINOv2通过在大规模数据上的训练,在多种任务上展现出了在不同图像域中的鲁棒性。尽管基础模型提供的匹配结果粒度有限,但它们能够为潜在的匹配区域提供泛化指导,这在专业匹配器无法处理域转移时尤为重要。通过使用DINO来引导图像间特征传播过程,可以降低不相关关键点的影响,并鼓励模型从潜在可匹配区域融合信息。

此外,OmniGlue还引入了一种新颖的关键点位置引导注意力机制,该机制设计用来避免在训练分布中过于专业化。这种设计使得模型在传播特征时,能够同时考虑关键点的空间排列和它们的特征相似性,而不会受到位置信息的干扰,从而提高了泛化能力。

在实验部分,研究人员对OmniGlue在不同视觉域的泛化能力进行了评估,涵盖了合成和真实图像,从场景级到以对象为中心和航空数据集,以及小基线和宽基线相机。实验结果表明,与以往的工作相比,OmniGlue在各个领域都有显著的改进。

尽管OmniGlue在图像匹配的泛化能力上取得了显著的成果,但在某些方面仍有改进的空间。例如,基础模型DINOv2虽然提供了广泛的视觉知识,但其粗粒度的匹配结果可能限制了在某些复杂图像域中的性能。此外,OmniGlue在处理与训练数据分布显著不同的图像对时,可能仍需要进一步优化以提高其泛化能力。

论文地址:https://arxiv.org/pdf/2405.12979

目录
相关文章
|
4月前
|
编解码 人工智能 运维
南加大提出全新通用时间序列基础模型TimeDiT!基于扩散模型创新物理约束机制
 【10月更文挑战第10天】南加大提出TimeDiT模型,创新融合扩散模型与Transformer架构,针对真实世界时间序列数据的复杂性,如多分辨率、缺失值等问题,提供高效解决方案。该模型通过新颖的掩码机制和无微调编辑策略,实现多任务处理及物理知识集成,显著提升预测和异常检测的准确性和鲁棒性。
115 3
|
2月前
|
机器学习/深度学习 算法 数据可视化
基于深度混合架构的智能量化交易系统研究: 融合SSDA与LSTM自编码器的特征提取与决策优化方法
本文探讨了在量化交易中结合时序特征和静态特征的混合建模方法。通过整合堆叠稀疏降噪自编码器(SSDA)和基于LSTM的自编码器(LSTM-AE),构建了一个能够全面捕捉市场动态特性的交易系统。SSDA通过降噪技术提取股票数据的鲁棒表示,LSTM-AE则专注于捕捉市场的时序依赖关系。系统采用A2C算法进行强化学习,通过多维度的奖励计算机制,实现了在可接受的风险水平下最大化收益的目标。实验结果显示,该系统在不同波动特征的股票上表现出差异化的适应能力,特别是在存在明确市场趋势的情况下,决策准确性较高。
85 5
基于深度混合架构的智能量化交易系统研究: 融合SSDA与LSTM自编码器的特征提取与决策优化方法
|
3月前
|
机器学习/深度学习
NeurIPS 2024:标签噪声下图神经网络有了首个综合基准库,还开源
NoisyGL是首个针对标签噪声下图神经网络(GLN)的综合基准库,由浙江大学和阿里巴巴集团的研究人员开发。该基准库旨在解决现有GLN研究中因数据集选择、划分及预处理技术差异导致的缺乏统一标准问题,提供了一个公平、用户友好的平台,支持多维分析,有助于深入理解GLN方法在处理标签噪声时的表现。通过17种代表性方法在8个常用数据集上的广泛实验,NoisyGL揭示了多个关键发现,推动了GLN领域的进步。尽管如此,NoisyGL目前主要适用于同质图,对异质图的支持有限。
79 7
|
5月前
|
人工智能 负载均衡 网络架构
混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合
【9月更文挑战第3天】在人工智能领域,多模态学习备受关注。Meta AI提出了一种名为模态感知型专家混合(MoMa)的新架构,通过模态特定的专家模块组合处理图像和文本,提升了多模态早期融合语言模型的预训练效率。MoMa在1万亿令牌训练下,实现了3.7倍的FLOPs节省,优于标准混合专家方案。尽管存在因果推理性能和负载平衡方面的局限性,MoMa仍为多模态预训练提供了高效新方法。论文详细内容见:https://arxiv.org/pdf/2407.21770
82 3
|
9月前
|
存储 机器学习/深度学习 人工智能
论文介绍:InfLLM——揭示大型语言模型在无需训练的情况下处理极长序列的内在能力
【5月更文挑战第18天】InfLLM是一种新方法,无需额外训练即可增强大型语言模型处理极长序列的能力。通过使用记忆单元存储长序列的远距离上下文,InfLLM能更准确地捕捉长距离依赖,提高对长文本理解。实验表明,InfLLM使预训练在短序列上的模型在处理极长序列时表现媲美甚至超过专门训练的模型。尽管有挑战,如动态上下文分割和记忆单元效率,InfLLM为长序列处理提供了有效且未经训练的解决方案。论文链接:https://arxiv.org/abs/2402.04617
227 3
|
9月前
|
机器学习/深度学习 人工智能 缓存
Contextual发布生成式表征指导调整模型
【2月更文挑战第17天】Contextual发布生成式表征指导调整模型
152 1
Contextual发布生成式表征指导调整模型
|
9月前
|
计算机视觉
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
模型落地必备 | 南开大学提出CrossKD蒸馏方法,同时兼顾特征和预测级别的信息
188 0
|
SQL 机器学习/深度学习 开发框架
【网安AIGC专题10.25】8 CoLeFunDa华为团队:静默漏洞检测(识别+多分类)+数据增强、样本扩充+对比学习+微调+结果分析(降维空间,分类错误样本归纳,应用场景优势,有效性威胁分析)
【网安AIGC专题10.25】8 CoLeFunDa华为团队:静默漏洞检测(识别+多分类)+数据增强、样本扩充+对比学习+微调+结果分析(降维空间,分类错误样本归纳,应用场景优势,有效性威胁分析)
328 0
|
计算机视觉
ONE-PEACE: 更好的通用表征模型
ONE-PEACE: 更好的通用表征模型
|
机器学习/深度学习 算法 计算机视觉
在对比学习中引入显式跨图像相似度建模能力,中南大学显著提高无监督表征的泛化能力(1)
在对比学习中引入显式跨图像相似度建模能力,中南大学显著提高无监督表征的泛化能力
169 0