在计算机视觉和图形学的交叉领域中,3D场景编辑技术一直是研究者们关注的焦点。随着神经网络技术的不断进步,如何利用这些先进的工具来实现对3D场景的精准编辑,成为了一个热门的研究方向。在即将召开的CVPR 2024会议上,一项名为CustomNeRF的新型框架引起了广泛关注。该框架通过结合文本描述或参考图像作为编辑提示,实现了对3D场景的自适应源驱动编辑。
CustomNeRF框架的核心在于它能够识别并编辑3D场景中的前景区域,同时保留背景内容不变。这一技术的实现,得益于两个主要的挑战的解决:一是精确编辑前景区域,二是在单视角参考图像的情况下保持多视角的一致性。为了解决这些挑战,研究者们提出了一种局部-全局迭代编辑(LGIE)训练方案,以及一种利用类别先验的正则化方法。
在局部-全局迭代编辑(LGIE)训练方案中,研究者们设计了一个交替进行前景区域编辑和完整图像编辑的过程。在局部编辑阶段,框架只对前景区域进行渲染和编辑,而在全局编辑阶段,则在背景内容的线索下进行前景区域的编辑。这种交替进行的过程,使得框架能够在保持背景不变的情况下,对前景进行精确的编辑。此外,为了解决单视角参考图像带来的视角一致性问题,研究者们还引入了类别指导的正则化方法。这种方法利用文本到图像(T2I)模型中的类别先验,来引导新的主体对象在不同视角下的几何一致性编辑。
CustomNeRF框架的提出,为3D场景编辑领域带来了新的突破。它不仅能够处理文本驱动的编辑任务,还能够应对图像驱动的编辑场景。在实验中,CustomNeRF展示了其在多种真实世界场景中进行精确编辑的能力,无论是在文本描述还是参考图像的引导下,都能够产生与编辑提示一致的结果。
然而,CustomNeRF框架并非没有局限性。首先,它依赖于预训练的文本到图像生成模型,这意味着在处理参考图像时,可能无法完全复制图像的细节,导致最终编辑结果在某些细节上与参考图像存在差异。此外,当前的CustomNeRF框架仅限于文本和图像提示,未来可能需要扩展到其他类型的编辑源,如音频、草图等。