在计算机视觉和图形学领域,三维数字人的生成一直是一个备受关注的研究方向。近期,南洋理工大学的研究团队提出了一种名为StructLDM(Structured Latent Diffusion for 3D Human Generation)的新型三维数字人生成方法,该方法有望在ECCV 2024上展示其潜力。
三维数字人的生成面临着诸多挑战,包括高质量的图像合成、精细的细节捕捉以及对复杂人体结构的准确建模。现有的三维数字人生成方法主要依赖于3D-aware GAN(Generative Adversarial Networks)从2D图像中学习,但这些方法往往在生成质量和控制能力方面存在不足。
StructLDM是一种基于扩散模型的三维数字人生成方法,它通过以下三个关键设计来解决现有方法的局限性:
- 结构化潜在空间:StructLDM定义了一个基于统计人体模板的密集表面流形上的语义结构化潜在空间。这种结构化表示能够更好地捕捉人体的精细细节和语义信息。
- 结构化3D感知解码器:该解码器将全局潜在空间分解为几个语义身体部分,并使用一组条件结构化局部NeRF(Neural Radiance Fields)锚定到身体模板上。这种设计能够嵌入从2D训练数据中学习到的属性,并解码出在不同姿态和服装风格下具有一致视角的三维数字人。
- 结构化潜在扩散模型:为了生成人体外观,StructLDM使用了一个结构化潜在扩散模型。由于潜在空间是结构化的且语义上对齐的,该模型通过使用结构对齐的归一化来进一步调整扩散过程,以更好地捕捉数据的分布。
研究人员在三个不同的数据集上进行了广泛的实验,包括UBCFashion、RenderPeople和THUman2.0,以验证StructLDM的性能。实验结果表明,StructLDM在生成质量和多样性方面都取得了显著的提升,并能够实现不同级别的控制性三维数字人生成和编辑,如姿态、视角、形状控制,以及高层次的任务,如组合生成、局部服装编辑和三维虚拟试穿等。
StructLDM的提出为三维数字人的生成提供了一种新的范式,它通过结构化表示和扩散模型的结合,实现了高质量的三维数字人生成和编辑。然而,该方法也存在一些局限性,如训练数据的多样性和准确性对生成结果的影响较大。未来,研究人员可以进一步探索如何提高模型的鲁棒性和泛化能力,以应对更广泛的应用场景。