GaussianAnything:多模态3D生成黑科技!南洋理工开源框架秒建可编辑高精度模型

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: GaussianAnything 是由南洋理工大学 S-Lab 和上海 AI Lab 联合推出的 3D 生成框架,支持多模态输入,能够生成高质量、可编辑的 3D 模型,广泛应用于游戏、影视、VR/AR 等领域。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🚀 「3D建模师要失业?南洋理工祭出AI神器:文本秒变高精模型,支持任意角度魔改!」

大家好,我是蚝油菜花。你是否经历过——

  • 👉 对着空白建模软件发呆3小时,不知从何下手
  • 👉 手动调整网格到凌晨,模型纹理依然穿模
  • 👉 甲方反复要求「改个角度看看」,渲染等到崩溃...

今天要揭秘的 GaussianAnything ,正在颠覆3D内容生产流水线!这个由南洋理工大学与上海AI Lab联合研发的框架,凭借三大杀手锏:

  • 「一句话生成3D」:输入"赛博朋克机械猫",5分钟得到可编辑模型
  • 「360度无死角操控」:任意旋转/缩放/纹理替换,告别重复建模
  • 「工业级精度」:点云结构化编码+级联扩散模型,细节堪比手工雕刻

从游戏资产到影视特效,连迪士尼都在测试的开源方案——接下来带你看AI如何重新定义数字内容创作!

🚀 快速阅读

GaussianAnything 是一个基于点云结构化潜空间和级联扩散模型的 3D 生成框架。

  1. 核心功能:支持多模态输入,生成高质量、可编辑的 3D 模型,广泛应用于游戏、影视、VR/AR 等领域。
  2. 技术原理:通过 3D VAE 编码器、点云结构化潜空间和级联扩散模型,实现几何与纹理的解耦,生成高质量的 3D 模型。

GaussianAnything 是什么

GaussianAnything

GaussianAnything 是由南洋理工大学 S-Lab 和上海 AI Lab 联合推出的 3D 生成框架。它基于交互式的点云结构化潜空间和级联的流匹配模型,能够生成高质量、可编辑的 3D 模型。

GaussianAnything 支持多模态条件输入,包括点云、文本和单/多视图图像,能够生成具有几何-纹理解耦的 3D 资产,便于后续编辑。在文本和图像引导的 3D 生成任务中,GaussianAnything 均超越现有方法,展现了更好的 3D 一致性和生成效果。

GaussianAnything 的主要功能

  • 多模态条件输入:支持多种输入形式,包括点云、文本描述和单/多视图图像。
  • 高质量 3D 生成:生成具有丰富细节和高质量表面的 3D 模型,支持不同分辨率和细节层次的输出。
  • 高效的 3D 编辑能力:支持对生成的 3D 模型进行灵活的编辑,例如形状调整、纹理替换等。
  • 支持多种输出格式:生成的 3D 模型支持导出为点云、高斯表面(Surfel Gaussian)或三角网格(Mesh),满足不同应用场景的需求。

GaussianAnything 的技术原理

  • 3D VAE 编码器:用多视图 RGB-D(深度)和法线(Normal)渲染图作为输入,基于 3D-Attention Transformer 编码器将 3D 物体压缩到点云结构化的潜空间中,保留丰富的 3D 几何和纹理信息,降低潜空间的维度,提高训练效率。
  • 点云结构化潜空间:基于 Cross Attention 将特征投影到稀疏的 3D 点云上,形成点云结构化的潜变量,保留 3D 物体的几何信息,支持高效的 3D 扩散模型训练。
  • 级联扩散模型:第一阶段生成稀疏点云,确定 3D 物体的几何布局;第二阶段基于点云条件生成纹理细节,实现几何与纹理的解耦。
  • 高质量解码器:用 3D Transformer 和上采样模块将点云潜变量逐步上采样为高分辨率的高斯表面(Surfel Gaussian),最终解码为稠密的 3D 模型。

如何运行 GaussianAnything

1. 设置 PyTorch 环境

# 下载
git clone https://github.com/NIRVANALAN/GaussianAnything.git

# 设置 PyTorch + xformers + pytorch3d 环境
conda create -n ga python=3.10
conda activate ga
pip install -r requirements.txt 
pip install "git+https://github.com/facebookresearch/pytorch3d.git@stable"

2. 安装 2DGS 依赖

pip install "git+https://github.com/hbb1/diff-surfel-rasterization.git"
pip install "git+https://gitlab.inria.fr/bkerbl/simple-knn.git"

3. 运行 Gradio 演示

python scripts/gradio_app_cascaded.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
2天前
|
机器学习/深度学习 人工智能 测试技术
昆仑万维开源 Skywork R1V:开源多模态推理核弹!视觉链式分析超越人类专家
Skywork R1V 是昆仑万维开源的多模态思维链推理模型,具备强大的视觉链式推理能力,能够在多个权威基准测试中取得领先成绩,推动多模态推理模型的发展。
40 4
昆仑万维开源 Skywork R1V:开源多模态推理核弹!视觉链式分析超越人类专家
|
27天前
|
人工智能 文字识别 自然语言处理
Ovis2:阿里放出多模态新王炸!6大模型尺寸通吃视频理解,数学推理能解微积分
Ovis2 是阿里巴巴国际团队推出的多模态大语言模型,具备强大的视觉与文本对齐能力,适用于复杂场景下的 OCR、视频理解等任务。
119 6
Ovis2:阿里放出多模态新王炸!6大模型尺寸通吃视频理解,数学推理能解微积分
|
1月前
|
数据采集 人工智能 自然语言处理
《GANs:开启AI辅助设计创意草图的魔法之门》
在设计领域,创意草图是设计师灵感的起点。传统草图绘制耗时且依赖个人技能,而生成对抗网络(GANs)通过生成器和判别器的对抗学习,快速生成高质量创意草图,突破创作瓶颈。GANs不仅提高设计效率、激发创意,还降低了设计门槛,使更多人能参与设计。尽管存在生成质量不稳定、语义理解不足及数据隐私等挑战,但未来GANs将与自然语言处理、计算机视觉等技术融合,进一步提升草图生成的质量和智能化水平,推动设计行业迈向新高度。
117 16
|
3月前
|
机器学习/深度学习 人工智能 自然语言处理
VMB:中科院联合多所高校推出多模态音乐生成框架,能够通过文本、图像和视频等多种输入生成音乐
VMB(Visuals Music Bridge)是由中科院联合多所高校机构推出的多模态音乐生成框架,能够从文本、图像和视频等多种输入模态生成音乐。该框架通过文本桥接和音乐桥接解决了数据稀缺、跨模态对齐弱和可控性有限的问题。
109 7
VMB:中科院联合多所高校推出多模态音乐生成框架,能够通过文本、图像和视频等多种输入生成音乐
|
4月前
|
人工智能 API
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有高级模型。
82 0
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
|
5月前
|
机器学习/深度学习 自然语言处理
【绝技揭秘】模型微调与RAG神技合璧——看深度学习高手如何玩转数据,缔造预测传奇!
【10月更文挑战第5天】随着深度学习的发展,预训练模型因泛化能力和高效训练而备受关注。直接应用预训练模型常难达最佳效果,需进行微调以适应特定任务。本文介绍模型微调方法,并通过Hugging Face的Transformers库演示BERT微调过程。同时,文章探讨了检索增强生成(RAG)技术,该技术结合检索和生成模型,在开放域问答中表现出色。通过实际案例展示了RAG的工作原理及优势,提供了微调和RAG应用的深入理解。
183 0
|
7月前
|
自然语言处理 语音技术
|
10月前
|
人工智能 计算机视觉
CVPR 2024:跳舞时飞扬的裙摆,AI也能高度还原了,南洋理工提出动态人体渲染新范式
【5月更文挑战第6天】南洋理工大学研究团队在CVPR 2024会议上提出SurMo,一种动态人体渲染新方法,能高度还原视频中的人物动作和细节,如飞扬的裙摆。SurMo通过4D运动建模,结合表面运动编码、物理运动解码和4D外观解码,实现动态图像的精确合成。尽管面临复杂动作捕捉和计算资源需求的挑战,SurMo在动态人体渲染任务上表现出色,展现了表面基运动三角平面的强大表达能力。[论文链接](https://arxiv.org/pdf/2404.01225.pdf)
200 1
|
人工智能 自然语言处理 安全
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
清华系面壁智能开源中文多模态大模型VisCPM :支持对话文图双向生成,吟诗作画能力惊艳
631 0
|
10月前
|
物联网
ChilloutMix几个模型的区别——专注东方面孔人像生成
ChilloutMix几个模型的区别——专注东方面孔人像生成
1182 0

热门文章

最新文章