NeRF-Pose: A First-Reconstruct-Then-Regress Approach for Weakly-supervised 6D Object Pose Estimation

简介: NeRF-Pose: A First-Reconstruct-Then-Regress Approach for Weakly-supervised 6D Object Pose Estimation

论文解读:NeRF-Pose:一种先重建再回归的弱监督6D物体姿态估计方法

论文:https://arxiv.org/abs/2203.04802

《NeRF-Pose: 一种先重建再回归的弱监督6D物体姿态估计方法》是一篇关于物体姿态估计的论文。该方法采用先重建物体再回归姿态的策略,通过弱监督学习实现6D物体姿态的估计。论文的主要思想是利用神经场重建物体的隐式表示,称为OBJ-NeRF,并使用相对相机姿态进行重建。为了将OBJ-NeRF与基于稠密2D-3D对应关系的6D姿态估计相结合,需要将其与某个参考坐标系恢复关联。为此,论文提出了同时进行NeRF重建和回归物体姿态的方法,以得到相对于所选参考帧的姿态估计。这些估计的姿态将用于生成训练所需的对应关系图。该方法在弱监督的条件下实现了准确的6D物体姿态估计,并在LineMod、LineMod-Occlusion和Homebrewed DB等数据集上展现了出色的性能。

c84e221bf04e49ebb3e7f63f9214ed60.png

1 Abstract:

3D物体在单目图像中的位姿估计是计算机视觉中一个基础且长期存在的问题。现有的深度学习方法用于6D位姿估计通常依赖于拥有3D物体模型和6D位姿注释的假设。然而,真实数据中精确标注6D位姿是复杂、耗时且不可扩展的,而合成数据可扩展性强但缺乏真实性。为了避免这些问题,我们提出了一种弱监督的基于重建的流程,称为NeRF-Pose,在训练过程中只需2D物体分割和已知的相机相对位姿。遵循先重建再回归的思路,我们首先用隐式神经表示的形式从多个视角重建物体。然后,我们训练一个姿态回归网络,预测图像和重建模型之间的像素级2D-3D对应关系。推断时,该方法只需要单张图像作为输入。我们使用了基于NeRF的PnP+RANSAC算法从预测的对应关系中估计稳定且准确的位姿。在LineMod和LineMod-Occlusion数据集上的实验证明,尽管仅使用弱标签进行训练,所提出的方法在6D位姿估计方面具有最先进的准确性。此外,我们还扩展了Homebrewed DB数据集,增加了更多真实的训练图像以支持弱监督任务,并在该数据集上取得了令人满意的结果。

10b3f4a3fec24bffbaa2439240c5c824.png

2 NeRF-Pose Pipeline:

NeRF-Pose流程。

阶段1:多视角神经物体重建。在训练过程中,我们首先从多个视角重建神经物体模型。从不同视点生成的射线被采样,以在射线上产生沿着射线的3D点(左上方)。然后,根据估计的物体姿态Pˆ0和相对相机姿态P∆,将采样的点和方向(x,d)转换到物体中心坐标系中。转换后的3D点和方向(x0,d0)通过可学习的NeRF模型进行处理。我们可以通过NeRF渲染过程获得图像的RGB值和掩码。图像渲染损失和分割掩码损失用于指导神经物体模型的学习。

阶段2:单视角物体姿态估计。在第二阶段,我们直接通过神经物体模型的渲染结果回归物体坐标图和分割掩码。推断时,我们首先从2D图像中检测和裁剪物体(左下方)。坐标和分割掩码由姿态回归网络预测。最后,使用基于NeRF的PnP+RANSAC算法在重建阶段定义的规范物体空间中恢复精确的物体姿态。

3 Methods

3.1 OBJ-NeRF

NeRF 及其后续工作可以从已知相机姿态的多个视角恢复三维场景。由于我们处理的是6D物体姿态估计问题,我们的目标是计算以物体为中心的NeRF,并将其用作隐式的三维模型表示,用于物体姿态估计。因此,我们提出修改原始的NeRF方法。我们将图像、分割掩码和相对相机姿态作为输入,并输出隐式的物体特定的NeRF表示,称为OBJ-NeRF。由于OBJ-NeRF的重建仅依赖于相对相机姿态,它将在某些不确定的坐标系统中产生一个三维模型。为了利用OBJ-NeRF进行基于密集2D-3D对应关系的6D姿态估计,需要将其恢复到某个参考坐标系统中。为了实现这一点,在NeRF重建的同时,我们提出使用某个选定的参考帧对NeRF重建物体的姿态进行回归估计。这些估计的姿态将在后续用于生成用于训练对应关系估计网络所需的对应关系图。

3.2 Pose Estimation

整体的三步流程如图2的第二阶段所示。前两个步骤依赖于分别训练的卷积神经网络。第三步是纯优化的过程,不需要进行训练。第一步表示使用预训练的2D检测器,该检测器在感兴趣对象的真实裁剪图上进行训练。在实践中,我们使用YOLOv3 [10]。第二步是训练一个姿态回归网络,该网络基于图像I来预测对象的坐标O和分割掩码M。第三步是我们的NeRF-PnP+RANSAC算法,通过引入NeRF-Mask渲染器来改善姿态计算的性能。

坐标回归。我们的姿态回归网络受到DPoD [65]和CDPN [32]的启发,它们是基于密集对应的最先进的间接姿态估计方法。我们使用ResNet[15]作为编码器的主干网络,解码器包含四个上采样层。我们的姿态回归网络输出预测的分割掩码ˆM和对象坐标ˆO,它编码了输入图像像素与OBJ-NeRF 3D模型表示之间的对应关系。

3.3 NeRF-enabled PnP+RANSAC

9f5a1231a0d54678bf7336d392995368.png

图3. NeRF增强的RANSAC的单次迭代示意图。与标准的PnP+RANSAC过程类似(上方),首先通过PnP算法从采样的2D-3D对应关系计算出姿态假设。通过内点比率进行评分,选择具有最多内点的姿态假设作为估计结果。与标准的PnP+RANSAC不同,我们进一步将召回率和精确率纳入姿态选择的标准(下方)。具体而言,我们首先使用经过训练的八叉树-NeRF在该姿态假设下渲染物体掩码。然后,通过渲染掩码与姿态回归网络生成的掩码之间的交集(红色)与并集(蓝色+红色+绿色)计算精确率。召回率定义为交集(红色)与回归掩码区域(红色+绿色)的比率。最后,选择分数通过内点比率、精确率和召回率的加权求和计算得出。

通过预测的密集2D-3D对应关系,通常使用基于PnP+RANSAC的方法来估计物体姿态ˆP。如图3所示,PnP+RANSAC[11]算法迭代选择最小对应数进行姿态估计,并使用PnP方法计算目标姿态。选择支持最多内层的位姿假设作为计算的位姿结果。

3 Limitations

虽然我们以弱监督的方式提出了NeRF-Pose,但考虑到OBJ-NeRF网络和我们的姿态回归网络之间的训练差异,未能实现端到端优化有时会导致局部最小值。 如表2所示,当在由Blender生成的具有高质量的pbr图像(来自BOP [20, 19]、GDR [56]和SO-Pose [7])上进行训练时,ADD(-S)度量指标上的改进约为10%。这些完全监督的方法受益于pbr图像,这些图像涵盖了更多的姿态,并在不同光照条件下具有更真实的遮挡。这启发我们使用经过良好训练的OBJ-NeRF生成更多的合成训练数据,以获得更好的性能。

4 Conclusion

本文提出了NeRF-Pose,一种用于弱监督目标姿态估计的先重建后回归的方法。NeRF-Pose首先通过所提出的神经网络(OBJ-NeRF)以隐式方式重建目标,并生成用于监督姿态回归网络预测的对应关系信号。在推断阶段,我们使用NeRF增强的PnP+RANSAC算法根据预测的对应关系估计姿态。最后,在LineMod、LineMod-Occlusion和Homebrewed DB数据集上进行了全面评估,展示了我们在弱监督目标姿态估计任务上的领先性能。


目录
相关文章
|
3月前
|
机器学习/深度学习 编解码 人工智能
【文献学习】Deep Learning for Joint Channel Estimation and Signal Detection in OFDM Systems
该文章提出了一种基于深度学习的方法,用于OFDM系统中的联合信道估计和信号检测,通过信道估计网络(CENet)和信号检测网络(CCRNet)改善了传统方法的性能。
58 2
|
5月前
|
机器学习/深度学习 算法 关系型数据库
Hierarchical Attention-Based Age Estimation and Bias Analysis
【6月更文挑战第8天】Hierarchical Attention-Based Age Estimation论文提出了一种深度学习方法,利用层次注意力和图像增强来估计面部年龄。通过Transformer和CNN,它学习局部特征并进行序数分类和回归,提高在CACD和MORPH II数据集上的准确性。论文还包括对种族和性别偏倚的分析。方法包括自我注意的图像嵌入和层次概率年龄回归,优化多损失函数。实验表明,该方法在RS和SE协议下表现优越,且在消融研究中验证了增强聚合和编码器设计的有效性。
37 2
|
6月前
|
算法 计算机视觉
2017cvpr论文解读——Nasal Patches and Curves for Expression-Robust 3D Face Recognition
2017cvpr论文解读——Nasal Patches and Curves for Expression-Robust 3D Face Recognition
41 1
|
机器学习/深度学习 数据挖掘
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
57 1
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
|
编解码 计算机视觉
NeRF系列(3): Semantic-aware Occlusion Filtering Neural Radiance Fields in the Wild 论文解读
NeRF系列(3): Semantic-aware Occlusion Filtering Neural Radiance Fields in the Wild 论文解读
222 2
|
监控
DFNet: Enhance Absolute Pose Regression withDirect Feature Matching
DFNet: Enhance Absolute Pose Regression withDirect Feature Matching
143 0
|
机器学习/深度学习 开发框架 数据建模
HiCLRE: A Hierarchical Contrastive Learning Framework for Distantly Supervised Relation Extraction
远程监督假设任何包含相同实体对的句子都反映了相同的关系。先前的远程监督关系抽取(DSRE)任务通常独立地关注sentence-level或bag-level去噪技术
176 0
|
机器学习/深度学习 编解码 数据可视化
Speech Emotion Recognition With Local-Global aware Deep Representation Learning论文解读
语音情感识别(SER)通过从语音信号中推断人的情绪和情感状态,在改善人与机器之间的交互方面发挥着至关重要的作用。尽管最近的工作主要集中于从手工制作的特征中挖掘时空信息,但我们探索如何从动态时间尺度中建模语音情绪的时间模式。
140 0
|
机器学习/深度学习 移动开发 编解码
【论文阅读】A Three-Stage Self-Training Framework for Semi-Supervised Semantic Segmentation
【论文阅读】A Three-Stage Self-Training Framework for Semi-Supervised Semantic Segmentation
203 0
【论文阅读】A Three-Stage Self-Training Framework for Semi-Supervised Semantic Segmentation
|
数据挖掘
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation-ppt版学习笔记
PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation-ppt版学习笔记
129 0