ECCV 2024:南洋理工三维数字人生成新范式:结构扩散模型

简介: 【9月更文挑战第6天】南洋理工大学团队提出了一种名为StructLDM的新型三维数字人生成方法,旨在克服现有技术在图像合成质量、细节捕捉及人体结构建模等方面的不足。该方法通过结构化潜在空间、结构化3D感知解码器及结构化潜在扩散模型三项关键技术,实现了高质量的三维数字人生成与编辑,并在多个数据集上展示了卓越的性能和多样性。未来研究将进一步提升模型的鲁棒性和泛化能力。论文预计在ECCV 2024上展示。论文地址:https://arxiv.org/pdf/2404.01241。

在计算机视觉和图形学领域,三维数字人的生成一直是一个备受关注的研究方向。近期,南洋理工大学的研究团队提出了一种名为StructLDM(Structured Latent Diffusion for 3D Human Generation)的新型三维数字人生成方法,该方法有望在ECCV 2024上展示其潜力。

三维数字人的生成面临着诸多挑战,包括高质量的图像合成、精细的细节捕捉以及对复杂人体结构的准确建模。现有的三维数字人生成方法主要依赖于3D-aware GAN(Generative Adversarial Networks)从2D图像中学习,但这些方法往往在生成质量和控制能力方面存在不足。

StructLDM是一种基于扩散模型的三维数字人生成方法,它通过以下三个关键设计来解决现有方法的局限性:

  1. 结构化潜在空间:StructLDM定义了一个基于统计人体模板的密集表面流形上的语义结构化潜在空间。这种结构化表示能够更好地捕捉人体的精细细节和语义信息。
  2. 结构化3D感知解码器:该解码器将全局潜在空间分解为几个语义身体部分,并使用一组条件结构化局部NeRF(Neural Radiance Fields)锚定到身体模板上。这种设计能够嵌入从2D训练数据中学习到的属性,并解码出在不同姿态和服装风格下具有一致视角的三维数字人。
  3. 结构化潜在扩散模型:为了生成人体外观,StructLDM使用了一个结构化潜在扩散模型。由于潜在空间是结构化的且语义上对齐的,该模型通过使用结构对齐的归一化来进一步调整扩散过程,以更好地捕捉数据的分布。

研究人员在三个不同的数据集上进行了广泛的实验,包括UBCFashion、RenderPeople和THUman2.0,以验证StructLDM的性能。实验结果表明,StructLDM在生成质量和多样性方面都取得了显著的提升,并能够实现不同级别的控制性三维数字人生成和编辑,如姿态、视角、形状控制,以及高层次的任务,如组合生成、局部服装编辑和三维虚拟试穿等。

StructLDM的提出为三维数字人的生成提供了一种新的范式,它通过结构化表示和扩散模型的结合,实现了高质量的三维数字人生成和编辑。然而,该方法也存在一些局限性,如训练数据的多样性和准确性对生成结果的影响较大。未来,研究人员可以进一步探索如何提高模型的鲁棒性和泛化能力,以应对更广泛的应用场景。

论文地址:https://arxiv.org/pdf/2404.01241

目录
相关文章
|
5月前
|
机器学习/深度学习 定位技术
ICLR 2024 Spotlight:连续数值分布式表征加持,浙大UIUC让语言模型擅长表格预测
【6月更文挑战第23天】在ICLR 2024会议上,浙大和UIUC的研究团队推出TP-BERTa,一种改进的BERT模型,专为表格预测。通过将连续数值特征转为文本并利用自注意力机制,TP-BERTa能有效处理高维、异构表格数据,提高预测性能。预训练和微调策略使其在XGBoost等传统方法及FT-Transformer等深度学习模型中脱颖而出。论文链接:[anzIzGZuLi](https://openreview.net/pdf?id=anzIzGZuLi)
101 5
|
5月前
|
人工智能 安全 搜索推荐
1.8B参数,阿里云首个联合DNA、RNA、蛋白质的生物大模型,涵盖16.9W物种
【6月更文挑战第14天】阿里云发布首个集成DNA、RNA和蛋白质数据的生物大模型LucaOne,拥有1.8B参数,涉及16.9万物种。LucaOne通过few-shot learning技术和streamlined downstream architecture实现多生物语言统一处理,提升生物系统理解与分析能力。该模型将加速生物信息学研究,推动生物医学应用,但同时也引发生物数据安全、预测偏差及AI伦理法律等问题的讨论。[论文链接](https://www.biorxiv.org/content/10.1101/2024.05.10.592927v1)
268 3
|
5月前
|
数据采集 人工智能 算法
ICLR 2024 Spotlight:单模型斩获蛋白质突变预测榜一!西湖大学提出基于结构词表方法
【6月更文挑战第1天】西湖大学团队研发的蛋白质语言模型SaProt,在结构词表方法下,于蛋白质突变预测任务中荣登榜首。SaProt利用Foldseek编码的结构标记理解蛋白质行为,超越现有基准模型,在10个下游任务中表现出色。尽管训练资源需求大,且有特定任务优化空间,但该模型为生物医学研究带来新工具,促进科学理解与合作。论文链接:[https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4](https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4)
174 7
|
6月前
|
机器学习/深度学习 自然语言处理 图形学
CVPR 2024:文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架
【5月更文挑战第12天】CVPR 2024将展出阿尔伯塔大学的MoMask框架,该框架创新性地将文本转化为3D数字人骨骼动画,推动计算机图形学和动画制作的发展。MoMask结合NLP和计算机视觉,由文本编码器解析输入文本,动作生成器则将其转化为骨骼动画。该技术提升动画制作效率,降低门槛,但面临训练数据需求大和生成动画可能有偏差的挑战。[论文链接](https://arxiv.org/abs/2312.00063)
100 2
|
6月前
|
机器学习/深度学习 人工智能 算法
CVPR 2023 Highlight | 西湖大学提出一种全新的对比多模态变换范式
CVPR 2023 Highlight | 西湖大学提出一种全新的对比多模态变换范式
79 0
|
6月前
|
机器学习/深度学习 计算机视觉
【论文速递】MMM2020 - 电子科技大学提出一种新颖的局部变换模块提升小样本分割泛化性能
【论文速递】MMM2020 - 电子科技大学提出一种新颖的局部变换模块提升小样本分割泛化性能
40 0
|
机器学习/深度学习 自然语言处理 算法
KDD 2023 | 第四范式开发用于分子性质预测的生成式3D预训练模型
KDD 2023 | 第四范式开发用于分子性质预测的生成式3D预训练模型
119 0
|
机器学习/深度学习 算法 数据可视化
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey
290 0
|
机器学习/深度学习 人工智能 编解码
ICLR 2023 | 初探AI拼图模型预测蛋白质复合物结构
ICLR 2023 | 初探AI拼图模型预测蛋白质复合物结构
120 0
|
机器学习/深度学习 数据可视化 算法
SIGIR 2022 | 当多层级遇到多兴趣:快手联合武汉大学提出用于序列推荐的多粒度神经模型
SIGIR 2022 | 当多层级遇到多兴趣:快手联合武汉大学提出用于序列推荐的多粒度神经模型
157 0