DFNet: Enhance Absolute Pose Regression withDirect Feature Matching

简介: DFNet: Enhance Absolute Pose Regression withDirect Feature Matching

论文:https://arxiv.org/abs/2204.00559

Oxford Active Vision Lab Code

代码:https://code.active.vision.

https://github.com/ActiveVisionLab/DFNet

摘要:

3c1ab74886654ecfb18f5f5710c9cbd7.png

本文研究了一种结合绝对位姿回归和直接特征匹配的相机定位方法,通过结合曝光-自适应新视图合成,我们的方法成功地解决了室外环境中的光度失真问题,这是现有基于光度的方法无法处理的。通过域不变特征匹配,我们的解决方案在未标记数据上使用半监督学习提高了位姿回归精度。特别地,该管道由两个组件组成:Novel View synizer和DFNet。前者合成补偿曝光变化的新视图,后者回归相机姿态并提取鲁棒特征,缩小真实图像和合成图像之间的域差距。此外,我们还介绍了一种在线合成数据生成方案。我们展示了这些方法有效地提高了室内和室外场景的相机姿态估计。因此,我们的方法 超过现有的单幅图像APR方法,达到了最先进的准确性,相比基于3D结构的方法提升了56%的准确率。

整体框架:

e2785232c66a4ea99465b718f9a615e7.png

输入一张图片I,一个位姿回归头估计相机的位姿p*,基于该位姿,一个光度先验NVS 系统H渲染出一张同步图像I*,使用特征提取器G提取M和M*的域不变特征,并提供了 特征-度量直接匹配信号Ldm来优化位姿回归量。

e72e4e7eb51848bfa1f56c7dd014ac6b.png

Method

(1)DFNet Structure

DFNet由两个网络组成姿态估计器F和特征提取器G,位姿估计器类似于普通的PoseNet,它预测6-DoF相机姿态P̂=F(I),它可以通过输入图像I姿态估计P̂及其GT姿态P之间的L1或者L2损失监督学习。DFNet中的特征提取器G将从各种卷积块中提取的特征图输入姿态估计器中,然后将它们喂入几个卷积块,产生最终的特征图M=G(I),该特征图是特征度量直接匹配阶段的关键成分。

我们寻求学习的特征提取器G的两个关键特性是 1)域不变性,即对真实图像和合成图像的域保持一致 ; 2)变换敏感,即对与由几何变换引起的图像差异敏感。用这些属性学习,我们的特征提取器可以提取域不变特征, 同时保留几何敏感信息,从而在特征度量直接匹配过程中学习位姿输出。

(2)Direct Feature Matching

APR中中的直接匹配在direct-PN中首次提出,该方法最大限度地降低了真实图像与通过估计位姿和真实图像渲染得到的合成图像之间的光度差异。 理想情况下,如果预测姿态P̂接近其地面真实姿态P,新的视图渲染器生成逼真的图像,渲染的图像Iˆ应该是与真实图像无法区分。

在实践中,我们发现当场景内容的一部分改变时基于光度的监控信号可能有噪声,例如,随机汽车和行人可能会随着时间出现而NeRF渲染质量并不是完美的。因此,我们建议在要素空间而不是光度空间来度量距离,鉴于深层要素是通常对外观变化和不完美的渲染更加鲁棒。

(3)Closing the Domain Gap

我们注意到来自NeRF的合成图像由于渲染瑕疵或缺乏动态内容的自适应的不完美,这导致渲染图像和真实图像之间的域间隙。这种域差距给我们的特征提取器带来了困难,这是我们预期的如果两个视图的姿势不同,则生成远处的特征渲染视图和来自相同姿势的真实图像之间的相似特征。直观地说,我们可以简单地执行特征提取器来生成类似的距离函数,训练渲染图像Iˆ和真实图像I的特征d(·)。然而,这种方法会导致模型崩溃,这也促使我们探索原始的损失。

ac5debbf12b94f3b9eafd107e777747b.png

24cca42b036b4878bfb6f90df41673b3.png

目录
相关文章
|
数据建模 计算机视觉
SiMBA:基于Mamba的跨图像和多元时间序列的预测模型
微软研究者提出了SiMBA,一种融合Mamba与EinFFT的新架构,用于高效处理图像和时间序列。SiMBA解决了Mamba在大型网络中的不稳定性,结合了卷积、Transformer、频谱方法和状态空间模型的优点。在ImageNet 1K上表现优越,达到84.0%的Top-1准确率,并在多变量长期预测中超越SOTA,降低了MSE和MAE。代码开源,适用于复杂任务的高性能建模。[[论文链接]](https//avoid.overfit.cn/post/c21aa5ca480b47198ee3daefdc7254bb)
1944 3
|
传感器 机器学习/深度学习 人工智能
苏黎世理工最新!maplab2.0:模块化的多模态建图定位框架
将多传感器模态和深度学习集成到同时定位和mapping(SLAM)系统中是当前研究的重要领域。多模态是在具有挑战性的环境中实现鲁棒性和具有不同传感器设置的异构多机器人系统的互操作性的一块垫脚石。借助maplab 2.0,这个多功能的开源平台,可帮助开发、测试新模块和功能,并将其集成到一个成熟的SLAM系统中。
苏黎世理工最新!maplab2.0:模块化的多模态建图定位框架
|
9月前
|
监控 安全 网络安全
深入解析PDCERF:网络安全应急响应的六阶段方法
PDCERF是网络安全应急响应的六阶段方法,涵盖准备、检测、抑制、根除、恢复和跟进。本文详细解析各阶段目标与操作步骤,并附图例,助读者理解与应用,提升组织应对安全事件的能力。
1188 89
|
数据采集 并行计算 PyTorch
【已解决】RuntimeError: DataLoader worker (pid 263336) is killed by signal: Terminated.
【已解决】RuntimeError: DataLoader worker (pid 263336) is killed by signal: Terminated.
|
监控 Java Maven
使用AspectJ实现Java代码的运行时织入
使用AspectJ实现Java代码的运行时织入
|
安全 Linux 文件存储
在Linux中,服务器开不了机怎么解决⼀步步的排查?
在Linux中,服务器开不了机怎么解决⼀步步的排查?
|
SQL 开发框架 前端开发
技术笔记:TPL详解、使用
技术笔记:TPL详解、使用
241 0
|
JavaScript 开发工具
Electron 开发过程中主进程的无法看到 console.log 输出怎么办
Electron 开发过程中主进程的无法看到 console.log 输出怎么办
|
存储 资源调度 Kubernetes
最新干货!如何深入集群调度与管理?
云时代的集群调度与管理怎么做?《深入集群:大型数据中心调度与管理》来支招!阿里云技术专家李雨前结合自己在云上集群调度与管理的多年实战经验,匠心发表此书,带你避坑、少踩雷。
最新干货!如何深入集群调度与管理?
|
Ubuntu C语言
【Ubuntu20.04】安装gcc11 g++11, Ubuntu18.04
以上就是在Ubuntu 20.04和Ubuntu 18.04上安装gcc11和g++11的步骤。
2289 0