3D 版 SORA 来了!DreamTech 推出全球首个原生 3D-DiT 大模型 Direct3D

简介: 【6月更文挑战第25天】DreamTech的Direct3D是全球首个3D-DiT模型,革新3D生成,使用3D潜在扩散变换,无需多视图或SDS优化,提升效率与准确性。模型包含D3D-VAE(高效编码3D形状)和D3D-DiT(模拟3D潜在分布)。它结合语义和像素条件生成与输入图像一致的3D形状,在质量和泛化上超越现有技术。然而,实际应用还需解决特定场景适应性、优化问题及集成挑战。[链接](https://arxiv.org/abs/2405.14832)

在人工智能领域,3D 技术一直是一个备受关注的研究方向。然而,将图像转换为高质量的 3D 模型仍然面临着巨大的挑战,因为传统的方法通常需要大量的计算资源和复杂的优化过程。

然而,最近,DreamTech 公司宣布推出了一种名为 Direct3D 的新型 3D 生成模型,该模型有望改变这一现状。据介绍,Direct3D 是一种基于 3D 潜在扩散变换器的原生 3D 生成模型,可以实现从图像到 3D 的可扩展生成。

与以往的 3D 生成模型不同,Direct3D 不需要依赖多视图扩散模型或 SDS 优化,这使得它在处理真实世界中的输入图像时更加高效和准确。该模型由两个主要组件组成:Direct 3D 变分自编码器(D3D-VAE)和 Direct 3D 扩散变换器(D3D-DiT)。

D3D-VAE 是一种高效的编码器,可以将高分辨率的 3D 形状编码为紧凑且连续的潜在三平面空间。与之前的方法不同,Direct3D 使用半连续的表面采样策略直接监督解码的几何形状,而不是依赖渲染的图像作为监督信号。这种直接监督的方法可以更好地捕捉到复杂几何分布的细节,从而生成更高质量的 3D 模型。

D3D-DiT 是一种专门设计用于模拟编码的 3D 潜在分布的模型。它通过融合来自三平面潜在的三个特征图的位置信息,实现了一种可扩展至大规模 3D 数据集的原生 3D 生成模型。这种对位置信息的利用使得 Direct3D 能够更好地理解和生成复杂的 3D 场景。

除了这些技术上的创新,Direct3D 还引入了一种创新的图像到 3D 的生成管道,该管道结合了语义和像素级的图像条件。这使得模型能够根据提供的有条件图像输入生成与该输入一致的 3D 形状。这种对条件输入的利用进一步提高了模型的准确性和实用性。

为了验证 Direct3D 的性能,研究人员进行了广泛的实验。结果显示,与之前的图像到 3D 的方法相比,大规模预训练的 Direct3D 在生成质量和泛化能力方面都取得了显著的改进。具体而言,Direct3D 在各种指标上都取得了新的 state-of-the-art 结果,包括形状准确性、细节保真度和语义一致性。

然而,尽管 Direct3D 在技术上取得了重大突破,但也有一些潜在的问题和挑战需要解决。首先,尽管该模型在处理真实世界中的输入图像时更加高效,但对于某些特定类型的图像或场景,它可能仍然存在一些限制。其次,尽管该模型在生成质量方面取得了显著的改进,但对于某些应用来说,可能仍然需要进一步的优化和调整。

此外,还需要注意的是,尽管 Direct3D 在技术上非常先进,但将其集成到实际的应用和产品中可能需要额外的工作和努力。这包括解决与用户界面、数据准备和后处理等相关的问题,以确保模型能够无缝地集成到现有的工作流程中。

链接:https://arxiv.org/abs/2405.14832

目录
相关文章
|
7月前
|
机器学习/深度学习 vr&ar 决策智能
创新性3D数据合成模型,微软推出EgoGen
【2月更文挑战第6天】创新性3D数据合成模型,微软推出EgoGen
67 2
创新性3D数据合成模型,微软推出EgoGen
|
15天前
|
机器学习/深度学习 人工智能 自然语言处理
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
谷歌最新推出的Gemini 2.0是一款原生多模态输入输出的AI模型,以Agent技术为核心,支持多种数据类型的输入与输出,具备强大的性能和多语言音频输出能力。本文将详细介绍Gemini 2.0的主要功能、技术原理及其在多个领域的应用场景。
119 20
Gemini 2.0:谷歌推出的原生多模态输入输出 + Agent 为核心的 AI 模型
|
9天前
|
人工智能 文字识别 语音技术
Megrez-3B-Omni: 首个端侧全模态理解开源模型
Megrez-3B-Omni是由无问芯穹(Infinigence AI)研发的端侧全模态理解模型,基于无问大语言模型Megrez-3B-Instruct扩展,同时具备图片、文本、音频三种模态数据的理解分析能力。
Megrez-3B-Omni: 首个端侧全模态理解开源模型
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
Granite 3.1:IBM 开源新一代可商用大语言模型,支持 128K 上下文长度、多语言和复杂任务处理
IBM 推出的 Granite 3.1 是一款新一代语言模型,具备强大的性能和更长的上下文处理能力,支持多语言和复杂任务处理。
24 0
Granite 3.1:IBM 开源新一代可商用大语言模型,支持 128K 上下文长度、多语言和复杂任务处理
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
LTX Video:Lightricks推出的开源AI视频生成模型
LTX Video是由Lightricks推出的开源AI视频生成模型,能够在4秒内生成5秒的高质量视频。该模型基于2亿参数的DiT架构,确保帧间平滑运动和结构一致性,支持长视频制作,适用于多种场景,如游戏图形升级和电子商务广告变体制作。
100 1
LTX Video:Lightricks推出的开源AI视频生成模型
|
2月前
|
人工智能 人机交互 语音技术
让大模型能听会说,国内机构开源全球首个端到端语音对话模型Mini-Omni
【10月更文挑战第2天】国内研究机构提出的Mini-Omni是一个端到端的音频对话模型,实现了实时语音交互,标志着全球首个开源的端到端语音对话模型。通过文本引导的语音生成方法和批处理并行策略,Mini-Omni在保持语言能力的同时,实现了流畅的语音输出。研究团队还引入了VoiceAssistant-400K数据集进行微调,提升了模型性能。尽管如此,Mini_Omni在语音质量、计算资源需求及伦理监管方面仍面临挑战。论文详见:[链接]。
160 3
|
7月前
|
人工智能
首个开源世界模型!
【4月更文挑战第9天】加州大学伯克利分校的研究团队推出开源的LWM模型,首个能处理长视频和语言序列的模型,通过Blockwise RingAttention技术扩展处理长序列能力。该模型在理解和检索大量视频信息方面取得突破,解决了内存限制和计算复杂性问题,并创建了大型多元数据集。LWM还创新地处理视觉-语言训练挑战,但目前在理解复杂概念和依赖高质量视频数据上仍有局限。开源性质有望推动人工智能系统对多模态世界的理解。
86 1
首个开源世界模型!
|
6月前
|
人工智能 自然语言处理 测试技术
社区供稿 | OpenVINO™ 助力 Qwen 2 —— 开启大语言模型新时代
就在刚刚,阿里魔搭社区发布了全新的 Qwen 2 系列模型 ,作为 Qwen 及魔搭社区的重要合作伙伴,OpenVINO™ 一直致力于赋能开发者高效搭建人工智能解决方案,助力大规模语言模型的性能提升和应用扩展。
|
7月前
|
测试技术
Latte:去年底上线的全球首个开源文生视频DiT
【4月更文挑战第27天】Latte是全球首个开源文生视频DiT,基于Transformer,能高效处理大量令牌,实现高质量视频生成。在四个标准数据集和T2V任务中表现优越,成为视频生成技术里程碑。然而,计算需求大限制其在资源受限环境的应用,且处理复杂视频内容时可能性能下降。[论文链接](https://arxiv.org/pdf/2401.03048v1.pdf)
107 3
|
7月前
|
存储 自然语言处理 负载均衡
元象开源首个MoE大模型:4.2B激活参数,效果堪比13B模型,魔搭社区最佳实践来了
近日,元象发布其首个Moe大模型 XVERSE-MoE-A4.2B, 采用混合专家模型架构 (Mixture of Experts),激活参数4.2B,效果即可媲美13B模型。该模型全开源,无条件免费商用,支持中小企业、研究者和开发者可在元象高性能“全家桶”中按需选用,推动低成本部署。