DFNet: Enhance Absolute Pose Regression withDirect Feature Matching

简介: DFNet: Enhance Absolute Pose Regression withDirect Feature Matching

论文:https://arxiv.org/abs/2204.00559

Oxford Active Vision Lab Code

代码:https://code.active.vision.

https://github.com/ActiveVisionLab/DFNet

摘要:

3c1ab74886654ecfb18f5f5710c9cbd7.png

本文研究了一种结合绝对位姿回归和直接特征匹配的相机定位方法,通过结合曝光-自适应新视图合成,我们的方法成功地解决了室外环境中的光度失真问题,这是现有基于光度的方法无法处理的。通过域不变特征匹配,我们的解决方案在未标记数据上使用半监督学习提高了位姿回归精度。特别地,该管道由两个组件组成:Novel View synizer和DFNet。前者合成补偿曝光变化的新视图,后者回归相机姿态并提取鲁棒特征,缩小真实图像和合成图像之间的域差距。此外,我们还介绍了一种在线合成数据生成方案。我们展示了这些方法有效地提高了室内和室外场景的相机姿态估计。因此,我们的方法 超过现有的单幅图像APR方法,达到了最先进的准确性,相比基于3D结构的方法提升了56%的准确率。

整体框架:

e2785232c66a4ea99465b718f9a615e7.png

输入一张图片I,一个位姿回归头估计相机的位姿p*,基于该位姿,一个光度先验NVS 系统H渲染出一张同步图像I*,使用特征提取器G提取M和M*的域不变特征,并提供了 特征-度量直接匹配信号Ldm来优化位姿回归量。

e72e4e7eb51848bfa1f56c7dd014ac6b.png

Method

(1)DFNet Structure

DFNet由两个网络组成姿态估计器F和特征提取器G,位姿估计器类似于普通的PoseNet,它预测6-DoF相机姿态P̂=F(I),它可以通过输入图像I姿态估计P̂及其GT姿态P之间的L1或者L2损失监督学习。DFNet中的特征提取器G将从各种卷积块中提取的特征图输入姿态估计器中,然后将它们喂入几个卷积块,产生最终的特征图M=G(I),该特征图是特征度量直接匹配阶段的关键成分。

我们寻求学习的特征提取器G的两个关键特性是 1)域不变性,即对真实图像和合成图像的域保持一致 ; 2)变换敏感,即对与由几何变换引起的图像差异敏感。用这些属性学习,我们的特征提取器可以提取域不变特征, 同时保留几何敏感信息,从而在特征度量直接匹配过程中学习位姿输出。

(2)Direct Feature Matching

APR中中的直接匹配在direct-PN中首次提出,该方法最大限度地降低了真实图像与通过估计位姿和真实图像渲染得到的合成图像之间的光度差异。 理想情况下,如果预测姿态P̂接近其地面真实姿态P,新的视图渲染器生成逼真的图像,渲染的图像Iˆ应该是与真实图像无法区分。

在实践中,我们发现当场景内容的一部分改变时基于光度的监控信号可能有噪声,例如,随机汽车和行人可能会随着时间出现而NeRF渲染质量并不是完美的。因此,我们建议在要素空间而不是光度空间来度量距离,鉴于深层要素是通常对外观变化和不完美的渲染更加鲁棒。

(3)Closing the Domain Gap

我们注意到来自NeRF的合成图像由于渲染瑕疵或缺乏动态内容的自适应的不完美,这导致渲染图像和真实图像之间的域间隙。这种域差距给我们的特征提取器带来了困难,这是我们预期的如果两个视图的姿势不同,则生成远处的特征渲染视图和来自相同姿势的真实图像之间的相似特征。直观地说,我们可以简单地执行特征提取器来生成类似的距离函数,训练渲染图像Iˆ和真实图像I的特征d(·)。然而,这种方法会导致模型崩溃,这也促使我们探索原始的损失。

ac5debbf12b94f3b9eafd107e777747b.png

24cca42b036b4878bfb6f90df41673b3.png

目录
相关文章
|
存储 自然语言处理 运维
服务发现比较:Consul vs Zookeeper vs Etcd vs Eureka
这里就平时经常用到的服务发现的产品进行特性的对比,总的来看,目前Consul 自身功能,和 spring cloud 对其集成的支持都相对较为完善,而且运维的复杂度较为简单,Eureka 设计上比较符合场景,但还需持续的完善。
5939 0
|
算法 PyTorch 算法框架/工具
昇腾 msmodelslim w8a8量化代码解析
msmodelslim w8a8量化算法原理和代码解析
1281 5
|
监控 安全 网络安全
深入解析PDCERF:网络安全应急响应的六阶段方法
PDCERF是网络安全应急响应的六阶段方法,涵盖准备、检测、抑制、根除、恢复和跟进。本文详细解析各阶段目标与操作步骤,并附图例,助读者理解与应用,提升组织应对安全事件的能力。
2538 89
|
传感器 机器学习/深度学习 编解码
一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(下)
目前3D目标检测领域方案主要包括基于单目、双目、激光雷达点云、多模态数据融合等方式,本文主要介绍基于激光雷达雷达点云、多模态数据的相关算法,下面展开讨论下~
一文尽览 | 基于点云、多模态的3D目标检测算法综述!(Point/Voxel/Point-Voxel)(下)
|
人工智能 搜索推荐 定位技术
AddressCLIP:一张照片就能准确定位!中科院联合阿里云推出街道级图像地理定位模型
AddressCLIP 是由中科院和阿里云联合开发的端到端图像地理定位模型,通过图像-文本对齐和地理匹配技术,实现街道级精度的定位,适用于城市管理、社交媒体、旅游导航等场景。
2464 30
AddressCLIP:一张照片就能准确定位!中科院联合阿里云推出街道级图像地理定位模型
|
计算机视觉
RT-DETR改进策略【卷积层】| CVPR-2024 利用DynamicConv 动态卷积 结合ResNetLayer进行二次创新,提高精度
RT-DETR改进策略【卷积层】| CVPR-2024 利用DynamicConv 动态卷积 结合ResNetLayer进行二次创新,提高精度
518 9
|
机器学习/深度学习 人工智能 编解码
【AI系统】SqueezeNet 系列
本文概述了SqueezeNet及其后续版本SqueezeNext,两者均致力于设计轻量级的神经网络模型。SqueezeNet通过引入Fire模块,显著减少了模型参数量,实现了与AlexNet相当的精度,但参数量仅为后者1/50。SqueezeNext则进一步优化,不仅减少了参数量,还提升了模型运行速度和能效,特别适合在资源受限的设备上部署。文中详细介绍了这两个模型的核心设计理念、关键组件以及其实现方式,为理解和应用轻量化模型提供了宝贵资料。
480 5
|
机器学习/深度学习 数据采集 算法
如何在一夜之间成为模型微调大师?——从零开始的深度学习修炼之旅,让你的算法功力飙升!
【10月更文挑战第5天】在机器学习领域,预训练模型具有强大的泛化能力,但直接使用可能效果不佳,尤其在特定任务上。此时,模型微调显得尤为重要。本文通过图像分类任务,详细介绍如何利用PyTorch对ResNet-50模型进行微调,包括环境搭建、数据预处理、模型加载与训练等步骤,并提供完整Python代码。通过调整超参数和采用早停策略等技巧,可进一步优化模型性能。适合初学者快速上手模型微调。
1101 8
|
监控 Java Maven
使用AspectJ实现Java代码的运行时织入
使用AspectJ实现Java代码的运行时织入
|
安全 Linux 文件存储
在Linux中,服务器开不了机怎么解决⼀步步的排查?
在Linux中,服务器开不了机怎么解决⼀步步的排查?