DiffSplat:输入文本或图像,2秒内生成3D建模!北大联合字节开源3D建模生成框架

简介: DiffSplat 是由北京大学和字节跳动联合推出的一个高效 3D 生成框架,能够在 1-2 秒内从文本提示或单视图图像生成高质量的 3D 高斯点阵,并确保多视图下的一致性。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


大家好,我是蚝油菜花,今天跟大家分享一下 DiffSplat 这个由北京大学和字节跳动联合推出的 3D 建模生成框架。

🚀 快速阅读

DiffSplat 是一个高效的 3D 生成框架,能够在 1-2 秒内从文本或图像生成高质量的 3D 高斯点阵。

  1. 核心功能:支持文本和图像条件输入,生成 3D 高斯点阵并确保多视图一致性。
  2. 技术原理:基于大规模预训练的文本到图像扩散模型,结合 3D 渲染损失,确保生成内容在任意视图下的 3D 一致性。

DiffSplat 是什么

DiffSplat

DiffSplat 是由北京大学和字节跳动联合推出的一个新型 3D 生成方法。它能够从文本提示和单视图图像快速生成 3D 高斯点阵(Gaussian Splats),并确保生成的内容在多视图下保持一致性。通过微调预训练的文本到图像扩散模型,DiffSplat 基于强大的 2D 先验知识,引入 3D 渲染损失来确保生成的 3D 内容在任意视图下的一致性。

DiffSplat 的核心优势在于其高效性和灵活性,能够在 1-2 秒内生成高质量的 3D 对象。此外,轻量级的重建模型用于构建结构化的高斯表示,为训练提供了高质量的数据支持。

DiffSplat 的主要功能

  • 从文本或图像生成 3D 高斯点阵:DiffSplat 能直接从文本提示或单视图图像生成 3D 高斯点阵(Gaussian Splats),保持 3D 一致性。
  • 高效利用 2D 先验知识:通过微调大规模文本到图像扩散模型,DiffSplat 有效基于网络规模的 2D 先验知识,同时引入 3D 渲染损失确保生成内容在任意视图下的 3D 一致性。
  • 支持多种条件输入:DiffSplat 支持文本条件、图像条件或两者的组合输入,用户可以根据需要选择合适的条件。
  • 可控生成能力:DiffSplat 可以与 ControlNet 等技术结合,实现基于文本提示和多种格式(如法线图、深度图、Canny 边缘图)的可控 3D 生成。

DiffSplat 的技术原理

  • 基于大规模预训练的文本到图像扩散模型:DiffSplat 通过微调这些模型,直接生成 3D 高斯点阵(Gaussian Splats),有效基于网络规模的 2D 先验知识。
  • 轻量级重建模型:为了启动训练,DiffSplat 提出轻量级的重建模型,能快速生成多视图高斯点阵网格,用于可扩展的数据集构建。
  • 3D 渲染损失:DiffSplat 引入了 3D 渲染损失,确保生成的 3D 内容在任意视图下都能保持一致性。

如何运行 DiffSplat

1. 安装环境

首先,克隆仓库并安装依赖项:

git clone https://github.com/chenguolin/DiffSplat.git
cd DiffSplat
bash settings/setup.sh

2. 下载预训练模型

下载预训练模型并存储在 ./out 目录中。其他预训练模型将自动下载并存储在 HuggingFace 缓存目录中。

python3 download_ckpt.py --model_type [MODEL_TYPE] [--image_cond]

例如,下载 text-cond SD1.5-based DiffSplat 模型:

python3 download_ckpt.py --model_type sd15

3. 文本条件 3D 对象生成

使用以下命令进行文本条件 3D 对象生成:

bash scripts/infer.sh src/infer_gsdiff_sd.py configs/gsdiff_sd15.yaml gsdiff_gobj83k_sd15__render \
--prompt a_toy_robot --output_video_type gif \
--gpu_id 0 --seed 0

4. 图像条件 3D 对象生成

使用以下命令进行图像条件 3D 对象生成:

bash scripts/infer.sh src/infer_gsdiff_sd.py configs/gsdiff_sd15.yaml gsdiff_gobj83k_sd15_image__render \
--rembg_and_center --triangle_cfg_scaling --output_video_type gif --guidance_scale 2 \
--image_path assets/grm/frog.png --elevation 20 --prompt a_frog

5. 使用 ControlNet 进行 3D 对象生成

使用以下命令进行基于 ControlNet 的 3D 对象生成:

bash scripts/infer.sh src/infer_gsdiff_sd.py configs/gsdiff_sd15.yaml gsdiff_gobj83k_sd15__render \
--load_pretrained_controlnet gsdiff_gobj83k_sd15__render__depth \
--output_video_type gif --image_path assets/diffsplat/controlnet/toy_depth.png \
--prompt teddy_bear --elevation 10

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
存储 数据可视化 关系型数据库
低代码开发师(初级)实战教程
【4月更文挑战第6天】本教程介绍低代码开发,通过图形化界面和预构建模板简化应用开发。步骤包括:选择合适的低代码平台,创建项目,设计界面,添加业务逻辑,设计数据模型,连接外部服务,预览测试,最后部署发布。这种方法让非专业开发者也能快速构建应用程序。
825 7
|
7月前
|
安全 数据可视化
【01】百万级调音师-调人声-AU如何美化人声-什么是标准化什么是低切-什么是FFT滤波器-优雅草卓伊凡
【01】百万级调音师-调人声-AU如何美化人声-什么是标准化什么是低切-什么是FFT滤波器-优雅草卓伊凡
619 1
【01】百万级调音师-调人声-AU如何美化人声-什么是标准化什么是低切-什么是FFT滤波器-优雅草卓伊凡
|
人工智能 vr&ar 图形学
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
牛津大学与谷歌联合推出的Bolt3D技术,能在单个GPU上仅用6.25秒从单张或多张图像生成高质量3D场景,基于高斯溅射和几何多视角扩散模型,为游戏、VR/AR等领域带来革命性突破。
718 2
谷歌DeepMind联手牛津推出Bolt3D:AI秒速3D建模革命!单GPU仅需6秒生成3D场景
成功解决ProxyError: Conda cannot proceed due to an error in your proxy configuration.Check for typos an
成功解决ProxyError: Conda cannot proceed due to an error in your proxy configuration.Check for typos an
成功解决ProxyError: Conda cannot proceed due to an error in your proxy configuration.Check for typos an
|
人工智能 自然语言处理 图形学
多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容
Neural4D 2o是DreamTech推出的突破性3D大模型,通过文本、图像、3D和运动数据的联合训练,实现高精度3D生成与智能编辑,为创作者提供全新的多模态交互体验。
1025 0
多模态交互3D建模革命!Neural4D 2o:文本+图像一键生成高精度3D内容
|
机器学习/深度学习 人工智能 vr&ar
LHM:单图生成3D动画人!阿里开源建模核弹,高斯点云重构服装纹理
阿里巴巴通义实验室开源的LHM模型,能够从单张图像快速重建高质量可动画化的3D人体模型,支持实时渲染和姿态控制,适用于AR/VR、游戏开发等多种场景。
3883 0
LHM:单图生成3D动画人!阿里开源建模核弹,高斯点云重构服装纹理
|
存储 人工智能 安全
【实测分享】本地AI工具AiPy更新版本v0.1.28
AiPy是一款出色的本地AI工具,2025年5月21日发布v0.1.28版本。它以本地化处理保障数据隐私,新增Trustoken联网搜索、云端私密存储等功能,支持多模型选择如阿里Qwen与腾讯Hunyuan,优化任务处理逻辑,提升效率。操作便捷升级,新老用户均可轻松上手。未来还将推出GUI客户端2.0等新功能,值得期待!(下载地址:https://www.aipyaipy.com/#download)快来体验吧!
【实测分享】本地AI工具AiPy更新版本v0.1.28
|
人工智能 并行计算 搜索推荐
SPAR3D:一张图片就能生成3D模型,每个物体的重建时间仅需0.7秒!
SPAR3D 是由 Stability AI 和伊利诺伊大学香槟分校推出的先进单图生成3D模型方法,支持快速推理与用户交互式编辑,适用于多种3D建模场景。
2233 30
SPAR3D:一张图片就能生成3D模型,每个物体的重建时间仅需0.7秒!
|
自然语言处理 算法 开发者
通义XR实验室文生3D模型开源,魔搭社区最佳实践来啦!
通义实验室XR实验室重磅开源文生3D新模型,能够从一句文本描述构建3D模型及对应纹理,目前已经在Github面向外界开源!与该项技术一起开源的,还有通义实验室推出的Text-to-ND(文本生成深度、法向图)、Text-to-ND-MV(文本生成多视角的深度、法向图)两个大模型。我们先来直观感受一下这两个大模型的魔法能力:
|
缓存 前端开发 开发者
深入理解React Hooks,打造高效响应式UI
深入理解React Hooks,打造高效响应式UI
307 0

热门文章

最新文章