近年来,随着计算机图形学的飞速发展,3D资产生成已成为虚拟现实、增强现实、游戏和电影等行业中备受关注的领域。然而,传统的3D资产创建过程,包括几何建模和纹理绘制,通常需要艺术家花费大量的时间和精力。为了解决这一问题,研究人员一直在探索如何利用强大的图像扩散模型和机器学习技术,实现从文本或视觉指导的3D对象的自动创建。
最近,来自中国科学院自动化研究所(CASIA)和北京邮电大学(BUPT)的联合研究团队,在3D资产材质生成方面取得了突破性的进展。他们的研究论文《MaterialSeg3D: 从2D先验中分割密集材质以生成3D资产》详细介绍了一种名为MaterialSeg3D的创新框架,该框架能够从2D图像的语义先验中推断出3D资产的底层材质。
研究团队观察到,虽然现有的基于2D生成模型的方法在将2D生成先验提升到3D空间方面取得了成功,但这些方法往往将光照和阴影的效果烘焙到纹理中,导致通过得分蒸馏采样(SDS)优化的材质图不可避免地包含虚假的关联组件。这种精确材质定义的缺失使得在新的场景中合理地重新照明生成的资产变得不可能,从而限制了它们在下游场景中的应用。
为了克服这一挑战,研究团队提出了MaterialSeg3D框架,该框架利用人类从物体外观和语义中轻松推断出材质的能力。基于这样的先验模型,他们设计了一个机制来解析3D空间中的材质。他们维护一个UV堆栈,其中每个图层都是从特定的视角进行反投影。在遍历所有视角后,他们通过加权投票方案融合堆栈,然后使用区域统一来确保物体部分的一致性。
为了支持语义先验的学习,研究团队收集了一个名为Materialized Individual Objects(MIO)的材质数据集,该数据集具有丰富的图像、多样化的类别和准确的标注。MIO数据集为建立2D材质先验知识提供了坚实的基础,以用于个体对象的3D材质生成。
MaterialSeg3D框架的工作流程包括三个关键步骤:多视角渲染、材质预测和材质UV生成。在多视角渲染阶段,框架定义了各种相机位置,以捕捉目标资产的360度视角。然后,使用这些相机位置生成2D渲染图像。在材质预测阶段,使用在MIO数据集上预先训练的材质分割模型来预测多视角渲染的材质标签。最后,在材质UV生成阶段,预测的结果被投影回临时UV图,并通过加权投票机制生成最终的材质标签UV图。
研究团队通过广泛的定性和定量实验证明了他们的方法的有效性。与先前的工作相比,MaterialSeg3D框架在材质分割和3D资产生成方面都表现出显著的性能提升。此外,该方法还能够生成准确的表面材质,从而实现逼真的渲染效果,并具有在现实世界中应用的潜力。
然而,这项研究也存在一些局限性。首先,当前的3D资产生成方法通常将特定的光照效果烘焙到生成的RGB纹理中,这可能导致在不同的光照条件下出现不真实的视觉效果。其次,输入网格的质量会对表面材质的生成和视觉渲染产生重大影响。当应用于低质量的粗糙网格时,结果可能不太令人满意。
尽管存在这些局限性,但MaterialSeg3D框架代表了3D资产生成领域的一项重要进展。通过利用2D图像的语义先验来生成3D资产的精确表面材质,该方法有望显著提高现有开源数据集或网站上的3D资产质量。此外,MIO数据集的创建为研究界提供了一个宝贵的资源,用于开发和评估未来的3D材质生成方法。