wf309043@alibaba-inc.com-阿里云开发者社区

wf309043@alibaba-inc.com香港科技大学

江计算机科学与工程系香港特别行政区电子邮件： cjiangao@connect.ust.hk摘要-3D内容创建在各种应用中扮演着至关重要的角色，如游戏、机器人模拟和虚拟现实。然而，这个过程是劳动密集型和耗时的，需要熟练的设计师在创建一个单一的3D资产上投入相当多的精力。为了解决这一挑战，文本到3D生成技术已经成为自动化3D创建的一个有前途的解决方案。利用大型视觉语言模型的成功，这些技术旨在生成基于文本描述的3D内容。尽管最近在这一领域取得了进展，但现有解决方案在发电质量和效率方面仍然面临着重大的限制。在这次调查中，我们对最新的文本创建方法进行了深入的调查。我们提供了一个关于文本到3D创建的全面背景，包括对用于评估生成的3D模型质量的训练和评估指标的数据集的讨论。然后，我们深入研究了作为3D生成过程的基础的各种3D表示。此外，我们还对有关ge的快速增长的文献进行了深入的比较

游戏和电影等行业对3D内容创作的需求激增。然而，手动创建3D资产需要专门的工具和专业知识，这是进入的重大障碍。为了解决这个问题，人们对利用生成式人工智能技术进行自动化和高质量的3D内容生成越来越感兴趣。使用自然语言作为用户交互的方便工具已经成为一种很有前途的方法。因此，文本到3D生成的[1]、[2]、[4]、[5]领域获得了发展势头，专注于开发利用开放词汇表文本描述进行自动3D内容生产的技术。文本到3d生成方法的多样性、质量和效率已成为社区关注的关键问题。虽然最近大规模视觉语言模型（VLMs）的进步[6]、[7]、[8]、[9]极大地增强了开放词汇表文本到图像的生成，但从2D到3D内容生成的过渡带来了独特的挑战。与2D内容不同，3D内容需要处理非结构化和无序的显式3D表示，这是不容易集成的

避免依赖文本-3D对带来了优化挑战[2]，[5]，[16]，以及底层3D生成模型的复杂性，最终导致大量的计算和训练时间需求。此外，由于不合理的拓扑结构和生成结果中的Janus问题，工业设计管道可能不易采用当前的文本到三维生成方法。为了克服这些复杂性，需要创新的方法和新的解决方案来弥合2D和3D内容生成之间的差距。虽然3D内容生成不如2D内容那么突出，但3D内容生成一直在稳步发展，取得了一系列显著的成就。图1中所示的代表性例子展示了当前方法的三个主要类别，如Shap-E [1]、梦想融合[2]和即时3D[3]。与相关的调查[17]，[18]处理各种条件和3D表示的3D生成不同，我们关注于具有开放词汇性质的基于文本条件的3D内容生成的详细分类和讨论。在本次调查中，我们首先在第2节中讨论了本次调查的范围和相关工作。S

图1：在本调查中，我们调查了野外各种文本到3d内容的生成，并通过算法方法对它们进行了分类。前馈生成直接输出给定文本的3D表示。基于优化的生成使用来自二维扩散模型的梯度来优化参数的三维表示。视图重建遵循一个从文本到图像到3d的范式。具有代表性的3D生成结果来自Shap-E [1]、梦想融合[2]和即时3D[3]。对文本到图像的方法，我们进一步分解了用文本-三维配对数据和二维vlm监督的方法。对于基于优化的生成，我们进一步探索了通过使用增强的3D表示、改进优化策略、修改SDS目标和微调扩散先验来进行的改进。对于视图重建，我们主要关注于产生一致和高质量的结果的多视图重建。最后，我们概述了公开的挑战，并结束了这个调查。我们希望这项调查能提供一个系统的3D生成总结，能够启发感兴趣的读者的后续工作。2.本次调查的范围

ABLE 1：文本到三维生成中常用的三维数据集。“-”符号表示没有所涉及的属性。请注意，Shap-E是最大的文本-3d配对数据集，尽管它不是开源的。此外，Cap3D是一个可用的数据集，它提供了多个版本的3D对象标题配对数据，基于过滤具有不同的质量

扩散模型。近年来，扩散模型（DMs）[7]在二维领域内的文本条件生成方面获得了显著的关注，并取得了令人印象深刻的结果。如图3所示的去噪扩散概率模型（DDPMs），DMs包括一个正向过程q，根据噪声调度β1：T跨越T时间步长，逐步将噪声ϵ引入输入数据x0。q（xt|xt−1）=N（xt；q1−βxt−1，βtI），q（x1：T|x0）=TYt=1q（xt|xt−1）(1)它们还包含一个反向过程或生成模型pΦ，迭代去噪高斯分布，从所需的数据分布生成图像。生成模型pΦ使用一个（加权）证据下界（ELBO）进行训练，它可以简化为参数Φ [32]的加权去噪分数匹配目标。LDM=Et∼U（1，T），ϵ∼N（0，I）[w(t)||ϵΦ（xt，t）−ϵ)||2]，(2)其中w (t)是一个加权项，ϵΦ是一个用于预测噪声的网络，通常作为一个UNet [33]实现。对于文本到图像的扩散模型，他们学习基于文本嵌入的ˆϵΦ与无分类器引导（CFG）规模ω [34]：ˆϵΦ=（1+ω）ϵΦ（xt，t，y）−ωϵΦ（xt，t，；）(3)3.2Dat

形状网。引入ShapeNet [20]来建立一个大型的三维CAD模型存储库。ShapeNet的核心涵盖了55个常见对象类别，大约51300个手动验证的类别和对齐注释。然而，这个数据集的一个限制是没有对每个对象的文本描述。为了解决这一差距，随后的作品[26]，[27]，[28]补充了人类注释的标题。例如，Text2Shape [26]专门为表格和椅子类别提供了成对的文本和3D对象数据。ShapeGlot [27]和ShapeTalk [28]释放有区别的文本，其中一个对象被选择多个对象。另一种方法[35]，[36]探索使用图像标题模型[37]自动向形状网的渲染图像中添加标题。尽管有这些努力来增强数据集，但ShapeNet在可伸缩性和多样性方面仍然受到限制，限制了它用于训练任意文本到3d生成模型的使用。无意识的系列。横向[10]引入了大量的3D对象语料库，包括从各种3D模型存储库中收集的超过80万个3D资产。到exp

图4：不同表示法在渲染速度、分辨率增加时的内存使用情况、形状变形、数据预处理时间和任意几何图形的表示能力等方面的比较。⋆的数量越多，⋆的数量越少，说明性能越好。

监督生成过程。有些方法直接监督3D表示中的3D内容，而其他方法则监督由3D表示产生的渲染图像。在接下来的章节中，我们将三维表示分为三个主要组：显式、隐式和混合表示。图4为不同3D表示方式之间的比较。4.1显式三维表示显式三维表示，如基于点或基于多角的结构，以固定数量的三维元素为特征。这一特性允许保存几何形状，并促进与可微栅格化技术的无缝集成。然而，与隐式表示相比，这些表示的固定性质在可伸缩性和灵活性方面提出了挑战。点云。点云是欧几里得空间中的一个非结构化的元素集合，它表示三维环境中的离散点。这些点可以具有额外的属性，如颜色和法线，在某些情况下，深度和法线映射可以被视为点云表示的特定实例

牵引技术[51]，[52]（用于隐式表示）。4.2隐式三维表示隐式表示作为视图合成、三维重建和
在计算机图形学和计算机视觉中的各种其他应用程序。这些表示包括构造一个映射函数，描述一个三维空间的属性，通过数学公式或神经网络。与聚焦于对象表面的显式场景表示相比，隐式表示能够定义3D对象的整个体积。它们提供了以任意分辨率表示3D场景或对象的灵活性，并提高了内存效率。从隐式表示渲染图像通常涉及体渲染[53]，它使用射线投射并沿每条射线的多个点进行采样。然而，沿着所有光线采样一组点可能会导致渲染速度变慢。虽然隐式表示在形状建模方面表现突出，但它们缺乏隐式表示格式的基础真实数据，阻碍了它们在监督生成管道中的直接使用。因此，大多数使用隐式表示的方法都依赖于基于优化的管道[2]、[16]、[54]、[55]。已签名的距离字段。符号距离函数（SDF）将三维曲面定义为

就像行进的立方体[51]或行进的四面体[56]。神经辐射场。神经辐射场（NeRF）[57]表示一个三维内容为一个连续的体积函数f，它使MLPs将位置x∈R3和视点d∈R2映射到密度σ和颜色c： f（x，d）=（σ，c）。渲染像素图像，网模型一个射线=(t)=otd和样本点+积累到像素颜色C (r)通过体积渲染：C（Tiαi）=X Tiαi，Ti=exp（=−1+=0σk（=−+−1））(4)αi表示采样点的不透明度和Tiαi量化的概率从t0ti没有遇到其他粒子。NeRF由于其灵活性，是基于优化的生成方法[2]、[16]、[54]、[55]中最流行的表示方法。然而，最大的挑战是缓慢的渲染速度。4.3混合表示鉴于每种表示各自的优缺点，混合表示已被提出作为一种补充和组合其优势的手段。许多这些混合表示主要集中在显式表示和隐式表示的融合上。显式表示

表2：从三维数据中学习的前馈生成中的VAE训练的比较。这包括训练一个3D编码器和解码器，将3D数据，如点云，投射到一个潜在的空间中。在3DGen [62]和Shap-E [1]的情况下，使用了基于渲染的重建损失（渲染）。另一方面，米开朗基罗·[63]采用了纹理形状的对比l的组合

图5：来自三维数据集的前馈生成的定性结果。与DMTet和占用表示相比，在Shap-E [1]中使用的NeRF倾向于产生孔洞。由于3D空间和图像/文本空间之间的显著分布差距，可能导致低质量和较少的结果。米开朗基罗[63]通过训练VAE模型使用对比损失和冻结剪辑模型[25]来对齐语言、图像和三维形状来解决分布差距，类似于其他3D表示学习方法[35]，[36]，[64]。除了对比损失外，二元还使用交叉熵损失来监督解码器产生的占用场。图5提供了这些方法的定性比较，其中米开朗基罗由于文本、图像和形状之间的对齐而产生了与条件非常匹配的结构。Shap-E受益于在一个扩展的文本-3d配对数据集上的训练，尽管这个数据集不是公开可用的。然而，值得注意的是，在Shap-E中使用的NeRF往往会产生孔洞。而前馈生成方法从三维数据中学习可以产生精确的几何形状

将文本提示作为输入，并使用即时NGP[68]模型生成NeRF表示。然后使用NeRF表示来渲染多视图图像，并使用通过二维扩散模型计算的SDS损失对映射网络进行训练。在训练过程中，文本嵌入被插值以在文本上平摊，促进了不同文本提示之间的平滑插值。ATT3D中的提示集是使用模板构建的：“动物活动主题”，其中活动、主题和帽子可以以各种方式组合起来。虽然ATT3D在训练过的提示上显示出了良好的结果，但当面对一般的提示时，它却很困难。ATT3D的简单架构容量有限，缺乏对3D生成的强归纳偏差，这使得数据集大小和渲染分辨率具有挑战性。因此，该方法仅限于小规模的提示集（100-1000s）和低保真度的纹理。随后的工作[69]，[70]，[71]通过扩展网络架构，用三平面取代NeRF表示，解决了这些限制，从而提高了质量。ET3D专门从一个视图感知的差异中训练一个GAN模型