ECCV 2024:南洋理工三维数字人生成新范式:结构扩散模型

简介: 【9月更文挑战第6天】南洋理工大学团队提出了一种名为StructLDM的新型三维数字人生成方法,旨在克服现有技术在图像合成质量、细节捕捉及人体结构建模等方面的不足。该方法通过结构化潜在空间、结构化3D感知解码器及结构化潜在扩散模型三项关键技术,实现了高质量的三维数字人生成与编辑,并在多个数据集上展示了卓越的性能和多样性。未来研究将进一步提升模型的鲁棒性和泛化能力。论文预计在ECCV 2024上展示。论文地址:https://arxiv.org/pdf/2404.01241。

在计算机视觉和图形学领域,三维数字人的生成一直是一个备受关注的研究方向。近期,南洋理工大学的研究团队提出了一种名为StructLDM(Structured Latent Diffusion for 3D Human Generation)的新型三维数字人生成方法,该方法有望在ECCV 2024上展示其潜力。

三维数字人的生成面临着诸多挑战,包括高质量的图像合成、精细的细节捕捉以及对复杂人体结构的准确建模。现有的三维数字人生成方法主要依赖于3D-aware GAN(Generative Adversarial Networks)从2D图像中学习,但这些方法往往在生成质量和控制能力方面存在不足。

StructLDM是一种基于扩散模型的三维数字人生成方法,它通过以下三个关键设计来解决现有方法的局限性:

  1. 结构化潜在空间:StructLDM定义了一个基于统计人体模板的密集表面流形上的语义结构化潜在空间。这种结构化表示能够更好地捕捉人体的精细细节和语义信息。
  2. 结构化3D感知解码器:该解码器将全局潜在空间分解为几个语义身体部分,并使用一组条件结构化局部NeRF(Neural Radiance Fields)锚定到身体模板上。这种设计能够嵌入从2D训练数据中学习到的属性,并解码出在不同姿态和服装风格下具有一致视角的三维数字人。
  3. 结构化潜在扩散模型:为了生成人体外观,StructLDM使用了一个结构化潜在扩散模型。由于潜在空间是结构化的且语义上对齐的,该模型通过使用结构对齐的归一化来进一步调整扩散过程,以更好地捕捉数据的分布。

研究人员在三个不同的数据集上进行了广泛的实验,包括UBCFashion、RenderPeople和THUman2.0,以验证StructLDM的性能。实验结果表明,StructLDM在生成质量和多样性方面都取得了显著的提升,并能够实现不同级别的控制性三维数字人生成和编辑,如姿态、视角、形状控制,以及高层次的任务,如组合生成、局部服装编辑和三维虚拟试穿等。

StructLDM的提出为三维数字人的生成提供了一种新的范式,它通过结构化表示和扩散模型的结合,实现了高质量的三维数字人生成和编辑。然而,该方法也存在一些局限性,如训练数据的多样性和准确性对生成结果的影响较大。未来,研究人员可以进一步探索如何提高模型的鲁棒性和泛化能力,以应对更广泛的应用场景。

论文地址:https://arxiv.org/pdf/2404.01241

目录
相关文章
|
6月前
|
机器学习/深度学习 定位技术
ICLR 2024 Spotlight:连续数值分布式表征加持,浙大UIUC让语言模型擅长表格预测
【6月更文挑战第23天】在ICLR 2024会议上,浙大和UIUC的研究团队推出TP-BERTa,一种改进的BERT模型,专为表格预测。通过将连续数值特征转为文本并利用自注意力机制,TP-BERTa能有效处理高维、异构表格数据,提高预测性能。预训练和微调策略使其在XGBoost等传统方法及FT-Transformer等深度学习模型中脱颖而出。论文链接:[anzIzGZuLi](https://openreview.net/pdf?id=anzIzGZuLi)
131 5
|
6月前
|
数据采集 人工智能 算法
ICLR 2024 Spotlight:单模型斩获蛋白质突变预测榜一!西湖大学提出基于结构词表方法
【6月更文挑战第1天】西湖大学团队研发的蛋白质语言模型SaProt,在结构词表方法下,于蛋白质突变预测任务中荣登榜首。SaProt利用Foldseek编码的结构标记理解蛋白质行为,超越现有基准模型,在10个下游任务中表现出色。尽管训练资源需求大,且有特定任务优化空间,但该模型为生物医学研究带来新工具,促进科学理解与合作。论文链接:[https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4](https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4)
218 7
|
7月前
|
机器学习/深度学习 自然语言处理 图形学
CVPR 2024:文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架
【5月更文挑战第12天】CVPR 2024将展出阿尔伯塔大学的MoMask框架,该框架创新性地将文本转化为3D数字人骨骼动画,推动计算机图形学和动画制作的发展。MoMask结合NLP和计算机视觉,由文本编码器解析输入文本,动作生成器则将其转化为骨骼动画。该技术提升动画制作效率,降低门槛,但面临训练数据需求大和生成动画可能有偏差的挑战。[论文链接](https://arxiv.org/abs/2312.00063)
128 2
|
7月前
|
人工智能 计算机视觉
CVPR 2024:跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
【5月更文挑战第6天】南洋理工大学研究团队在CVPR 2024会议上提出SurMo,一种动态人体渲染新方法,能高度还原视频中的人物动作和细节,如飞扬的裙摆。SurMo通过4D运动建模,结合表面运动编码、物理运动解码和4D外观解码,实现动态图像的精确合成。尽管面临复杂动作捕捉和计算资源需求的挑战,SurMo在动态人体渲染任务上表现出色,展现了表面基运动三角平面的强大表达能力。[论文链接](https://arxiv.org/pdf/2404.01225.pdf)
169 1
|
7月前
|
机器学习/深度学习 人工智能 算法
CVPR 2023 Highlight | 西湖大学提出一种全新的对比多模态变换范式
CVPR 2023 Highlight | 西湖大学提出一种全新的对比多模态变换范式
91 0
|
人工智能 数据库
世间几乎所有已知蛋白质结构,都被DeepMind开源了
世间几乎所有已知蛋白质结构,都被DeepMind开源了
|
机器学习/深度学习 数据可视化 图形学
GAN「一生万物」, ETH、谷歌用单个序列玩转神经动作合成,入选SIGGRAPH
GAN「一生万物」, ETH、谷歌用单个序列玩转神经动作合成,入选SIGGRAPH
103 0
|
机器学习/深度学习 量子技术 计算机视觉
CVPR 2022 | 图像也是德布罗意波!华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
CVPR 2022 | 图像也是德布罗意波!华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
201 0
|
机器学习/深度学习 编解码 自然语言处理
CVPR 2022|快手联合中科院自动化所提出基于Transformer的图像风格化方法
CVPR 2022|快手联合中科院自动化所提出基于Transformer的图像风格化方法
215 0
|
机器学习/深度学习 人工智能 前端开发
AI教父Hinton胶囊模型又出新作——胶囊如何表示视觉层次结构
AI教父Hinton胶囊模型又出新作——胶囊如何表示视觉层次结构
289 0
AI教父Hinton胶囊模型又出新作——胶囊如何表示视觉层次结构