3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D-阿里云开发者社区

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

2024-06-25 411

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【6月更文挑战第25天】DreamTech的Direct3D是全球首个3D-DiT模型，革新3D生成，使用3D潜在扩散变换，无需多视图或SDS优化，提升效率与准确性。模型包含D3D-VAE（高效编码3D形状）和D3D-DiT（模拟3D潜在分布）。它结合语义和像素条件生成与输入图像一致的3D形状，在质量和泛化上超越现有技术。然而，实际应用还需解决特定场景适应性、优化问题及集成挑战。[链接](https://arxiv.org/abs/2405.14832)

在人工智能领域，3D 技术一直是一个备受关注的研究方向。然而，将图像转换为高质量的 3D 模型仍然面临着巨大的挑战，因为传统的方法通常需要大量的计算资源和复杂的优化过程。

然而，最近，DreamTech 公司宣布推出了一种名为 Direct3D 的新型 3D 生成模型，该模型有望改变这一现状。据介绍，Direct3D 是一种基于 3D 潜在扩散变换器的原生 3D 生成模型，可以实现从图像到 3D 的可扩展生成。

与以往的 3D 生成模型不同，Direct3D 不需要依赖多视图扩散模型或 SDS 优化，这使得它在处理真实世界中的输入图像时更加高效和准确。该模型由两个主要组件组成：Direct 3D 变分自编码器（D3D-VAE）和 Direct 3D 扩散变换器（D3D-DiT）。

D3D-VAE 是一种高效的编码器，可以将高分辨率的 3D 形状编码为紧凑且连续的潜在三平面空间。与之前的方法不同，Direct3D 使用半连续的表面采样策略直接监督解码的几何形状，而不是依赖渲染的图像作为监督信号。这种直接监督的方法可以更好地捕捉到复杂几何分布的细节，从而生成更高质量的 3D 模型。

D3D-DiT 是一种专门设计用于模拟编码的 3D 潜在分布的模型。它通过融合来自三平面潜在的三个特征图的位置信息，实现了一种可扩展至大规模 3D 数据集的原生 3D 生成模型。这种对位置信息的利用使得 Direct3D 能够更好地理解和生成复杂的 3D 场景。

除了这些技术上的创新，Direct3D 还引入了一种创新的图像到 3D 的生成管道，该管道结合了语义和像素级的图像条件。这使得模型能够根据提供的有条件图像输入生成与该输入一致的 3D 形状。这种对条件输入的利用进一步提高了模型的准确性和实用性。

为了验证 Direct3D 的性能，研究人员进行了广泛的实验。结果显示，与之前的图像到 3D 的方法相比，大规模预训练的 Direct3D 在生成质量和泛化能力方面都取得了显著的改进。具体而言，Direct3D 在各种指标上都取得了新的 state-of-the-art 结果，包括形状准确性、细节保真度和语义一致性。

然而，尽管 Direct3D 在技术上取得了重大突破，但也有一些潜在的问题和挑战需要解决。首先，尽管该模型在处理真实世界中的输入图像时更加高效，但对于某些特定类型的图像或场景，它可能仍然存在一些限制。其次，尽管该模型在生成质量方面取得了显著的改进，但对于某些应用来说，可能仍然需要进一步的优化和调整。

此外，还需要注意的是，尽管 Direct3D 在技术上非常先进，但将其集成到实际的应用和产品中可能需要额外的工作和努力。这包括解决与用户界面、数据准备和后处理等相关的问题，以确保模型能够无缝地集成到现有的工作流程中。

链接：https://arxiv.org/abs/2405.14832

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

3D 版 SORA 来了！DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

热门文章

最新文章

相关课程

相关电子书

相关实验场景