在计算机视觉领域,动态场景的重建和渲染一直是一个挑战性的问题。传统方法通常需要多个视角的同步视频输入,这在实际应用中可能并不总是可行的。为了解决这个问题,研究人员提出了一种名为"4D Motion Scaffolds"(摩斯卡)的系统,它能够从单视角的视频中重建和渲染动态场景。
摩斯卡的核心思想是将动态场景表示为一个4D的"Motion Scaffold",其中包含场景的几何信息、外观信息以及运动信息。通过将视频输入转换为这种表示,摩斯卡能够利用强大的2D视觉基础模型和物理启发的约束来重建和渲染动态场景。
具体来说,摩斯卡首先使用2D视觉基础模型(如深度估计、像素轨迹、语义特征等)来增强输入视频的信息。然后,它将这些信息提升到3D空间,并使用物理启发的优化算法(如ARAP)来初始化和优化Motion Scaffold。最后,摩斯卡使用动态高斯模型来完成场景的重建,并使用高斯渲染技术来生成新的视角和时间步长下的渲染结果。
摩斯卡在动态场景的重建和渲染方面具有几个独特的优势。首先,它能够从单视角的视频中重建和渲染动态场景,这在实际应用中非常有用,因为多视角的同步视频输入通常很难获得。其次,摩斯卡能够利用强大的2D视觉基础模型来增强输入视频的信息,从而提高重建和渲染的质量。此外,摩斯卡还具有可解释性和可控性,可以通过调整Motion Scaffold的参数来控制场景的重建和渲染结果。
尽管摩斯卡在动态场景的重建和渲染方面取得了显著的成果,但它仍然存在一些局限性。首先,摩斯卡的性能取决于输入视频的质量和复杂性,对于一些复杂的动态场景(如高频率运动或大量遮挡的情况),摩斯卡可能无法达到预期的性能。其次,摩斯卡的优化算法可能需要大量的计算资源和时间,这可能会限制其在实际应用中的可扩展性。
ArXiv地址: https://arxiv.org/pdf/2405.17421