NeRF-Pose: A First-Reconstruct-Then-Regress Approach for Weakly-supervised 6D Object Pose Estimation-阿里云开发者社区

NeRF-Pose: A First-Reconstruct-Then-Regress Approach for Weakly-supervised 6D Object Pose Estimation

2023-08-03 262

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： NeRF-Pose: A First-Reconstruct-Then-Regress Approach for Weakly-supervised 6D Object Pose Estimation

论文解读：NeRF-Pose:一种先重建再回归的弱监督6D物体姿态估计方法

论文：https://arxiv.org/abs/2203.04802

《NeRF-Pose: 一种先重建再回归的弱监督6D物体姿态估计方法》是一篇关于物体姿态估计的论文。该方法采用先重建物体再回归姿态的策略，通过弱监督学习实现6D物体姿态的估计。论文的主要思想是利用神经场重建物体的隐式表示，称为OBJ-NeRF，并使用相对相机姿态进行重建。为了将OBJ-NeRF与基于稠密2D-3D对应关系的6D姿态估计相结合，需要将其与某个参考坐标系恢复关联。为此，论文提出了同时进行NeRF重建和回归物体姿态的方法，以得到相对于所选参考帧的姿态估计。这些估计的姿态将用于生成训练所需的对应关系图。该方法在弱监督的条件下实现了准确的6D物体姿态估计，并在LineMod、LineMod-Occlusion和Homebrewed DB等数据集上展现了出色的性能。

1 Abstract：

3D物体在单目图像中的位姿估计是计算机视觉中一个基础且长期存在的问题。现有的深度学习方法用于6D位姿估计通常依赖于拥有3D物体模型和6D位姿注释的假设。然而，真实数据中精确标注6D位姿是复杂、耗时且不可扩展的，而合成数据可扩展性强但缺乏真实性。为了避免这些问题，我们提出了一种弱监督的基于重建的流程，称为NeRF-Pose，在训练过程中只需2D物体分割和已知的相机相对位姿。遵循先重建再回归的思路，我们首先用隐式神经表示的形式从多个视角重建物体。然后，我们训练一个姿态回归网络，预测图像和重建模型之间的像素级2D-3D对应关系。推断时，该方法只需要单张图像作为输入。我们使用了基于NeRF的PnP+RANSAC算法从预测的对应关系中估计稳定且准确的位姿。在LineMod和LineMod-Occlusion数据集上的实验证明，尽管仅使用弱标签进行训练，所提出的方法在6D位姿估计方面具有最先进的准确性。此外，我们还扩展了Homebrewed DB数据集，增加了更多真实的训练图像以支持弱监督任务，并在该数据集上取得了令人满意的结果。

2 NeRF-Pose Pipeline：

NeRF-Pose流程。

阶段1：多视角神经物体重建。在训练过程中，我们首先从多个视角重建神经物体模型。从不同视点生成的射线被采样，以在射线上产生沿着射线的3D点（左上方）。然后，根据估计的物体姿态Pˆ0和相对相机姿态P∆，将采样的点和方向（x，d）转换到物体中心坐标系中。转换后的3D点和方向（x0，d0）通过可学习的NeRF模型进行处理。我们可以通过NeRF渲染过程获得图像的RGB值和掩码。图像渲染损失和分割掩码损失用于指导神经物体模型的学习。

阶段2：单视角物体姿态估计。在第二阶段，我们直接通过神经物体模型的渲染结果回归物体坐标图和分割掩码。推断时，我们首先从2D图像中检测和裁剪物体（左下方）。坐标和分割掩码由姿态回归网络预测。最后，使用基于NeRF的PnP+RANSAC算法在重建阶段定义的规范物体空间中恢复精确的物体姿态。

3 Methods

3.1 OBJ-NeRF

NeRF 及其后续工作可以从已知相机姿态的多个视角恢复三维场景。由于我们处理的是6D物体姿态估计问题，我们的目标是计算以物体为中心的NeRF，并将其用作隐式的三维模型表示，用于物体姿态估计。因此，我们提出修改原始的NeRF方法。我们将图像、分割掩码和相对相机姿态作为输入，并输出隐式的物体特定的NeRF表示，称为OBJ-NeRF。由于OBJ-NeRF的重建仅依赖于相对相机姿态，它将在某些不确定的坐标系统中产生一个三维模型。为了利用OBJ-NeRF进行基于密集2D-3D对应关系的6D姿态估计，需要将其恢复到某个参考坐标系统中。为了实现这一点，在NeRF重建的同时，我们提出使用某个选定的参考帧对NeRF重建物体的姿态进行回归估计。这些估计的姿态将在后续用于生成用于训练对应关系估计网络所需的对应关系图。

3.2 Pose Estimation

整体的三步流程如图2的第二阶段所示。前两个步骤依赖于分别训练的卷积神经网络。第三步是纯优化的过程，不需要进行训练。第一步表示使用预训练的2D检测器，该检测器在感兴趣对象的真实裁剪图上进行训练。在实践中，我们使用YOLOv3 [10]。第二步是训练一个姿态回归网络，该网络基于图像I来预测对象的坐标O和分割掩码M。第三步是我们的NeRF-PnP+RANSAC算法，通过引入NeRF-Mask渲染器来改善姿态计算的性能。

坐标回归。我们的姿态回归网络受到DPoD [65]和CDPN [32]的启发，它们是基于密集对应的最先进的间接姿态估计方法。我们使用ResNet[15]作为编码器的主干网络，解码器包含四个上采样层。我们的姿态回归网络输出预测的分割掩码ˆM和对象坐标ˆO，它编码了输入图像像素与OBJ-NeRF 3D模型表示之间的对应关系。

3.3 NeRF-enabled PnP+RANSAC

图3. NeRF增强的RANSAC的单次迭代示意图。与标准的PnP+RANSAC过程类似（上方），首先通过PnP算法从采样的2D-3D对应关系计算出姿态假设。通过内点比率进行评分，选择具有最多内点的姿态假设作为估计结果。与标准的PnP+RANSAC不同，我们进一步将召回率和精确率纳入姿态选择的标准（下方）。具体而言，我们首先使用经过训练的八叉树-NeRF在该姿态假设下渲染物体掩码。然后，通过渲染掩码与姿态回归网络生成的掩码之间的交集（红色）与并集（蓝色+红色+绿色）计算精确率。召回率定义为交集（红色）与回归掩码区域（红色+绿色）的比率。最后，选择分数通过内点比率、精确率和召回率的加权求和计算得出。

通过预测的密集2D-3D对应关系，通常使用基于PnP+RANSAC的方法来估计物体姿态ˆP。如图3所示，PnP+RANSAC[11]算法迭代选择最小对应数进行姿态估计，并使用PnP方法计算目标姿态。选择支持最多内层的位姿假设作为计算的位姿结果。

3 Limitations

虽然我们以弱监督的方式提出了NeRF-Pose，但考虑到OBJ-NeRF网络和我们的姿态回归网络之间的训练差异，未能实现端到端优化有时会导致局部最小值。如表2所示，当在由Blender生成的具有高质量的pbr图像（来自BOP [20, 19]、GDR [56]和SO-Pose [7]）上进行训练时，ADD(-S)度量指标上的改进约为10%。这些完全监督的方法受益于pbr图像，这些图像涵盖了更多的姿态，并在不同光照条件下具有更真实的遮挡。这启发我们使用经过良好训练的OBJ-NeRF生成更多的合成训练数据，以获得更好的性能。

4 Conclusion

本文提出了NeRF-Pose，一种用于弱监督目标姿态估计的先重建后回归的方法。NeRF-Pose首先通过所提出的神经网络（OBJ-NeRF）以隐式方式重建目标，并生成用于监督姿态回归网络预测的对应关系信号。在推断阶段，我们使用NeRF增强的PnP+RANSAC算法根据预测的对应关系估计姿态。最后，在LineMod、LineMod-Occlusion和Homebrewed DB数据集上进行了全面评估，展示了我们在弱监督目标姿态估计任务上的领先性能。

NeRF-Pose: A First-Reconstruct-Then-Regress Approach for Weakly-supervised 6D Object Pose Estimation

1 Abstract：

2 NeRF-Pose Pipeline：