Kiss3DGen：基于图像扩散模型的3D资产生成框架

2025-03-07 566

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Kiss3DGen是一个创新的3D资产生成框架，通过重新利用预训练的2D图像扩散模型，高效生成、编辑和增强3D对象，支持文本到3D、图像到3D等多种生成任务。

❤️ 如果你也关注 AI 的发展现状，且对 AI 应用开发感兴趣，我会每日分享大模型与 AI 领域的开源项目和应用，提供运行实例和实用教程，帮助你快速上手AI技术！

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜：蚝油菜花 🥦

🎧 “3D生成新革命！Kiss3DGen用2D扩散模型搞定复杂3D资产，游戏开发者的福音来了！”

大家好，我是蚝油菜花。你是否也遇到过——

👉 游戏开发中，3D模型制作耗时耗力，进度总是赶不上需求
👉 影视特效制作中，复杂的3D场景搭建让人头疼
👉 想要快速生成个性化的3D模型，却苦于没有合适的工具...

今天揭秘的 Kiss3DGen ，用AI彻底颠覆3D资产生成方式！这个基于2D图像扩散模型的框架，能将复杂的3D生成问题转化为2D图像生成任务，支持文本到3D、图像到3D等多种生成任务，还能进行3D编辑、网格和纹理增强。游戏开发者已经用它快速生成角色和场景，影视制作团队靠它提升特效效率——你的3D创作准备好迎接AI革命了吗？

🚀 快速阅读

Kiss3DGen是一个创新的3D资产生成框架，通过重新利用预训练的2D图像扩散模型，高效生成、编辑和增强3D对象。

核心功能：支持文本到3D、图像到3D生成，兼容多种扩散模型技术，支持3D编辑、网格和纹理增强等功能。
技术原理：通过生成“3D Bundle Image”，将多视图图像及对应的法线图组合成拼贴表示，法线图用于重建3D网格，多视图图像提供纹理映射。

Kiss3DGen 是什么

Kiss3DGen

Kiss3DGen是一个创新的3D资产生成框架，通过重新利用预训练的2D图像扩散模型，高效生成、编辑和增强3D对象。其核心在于生成“3D Bundle Image”，将多视图图像及对应的法线图组合成一种拼贴表示，法线图用于重建3D网格，多视图图像则提供纹理映射。

Kiss3DGen将复杂的3D生成问题转化为2D图像生成任务，充分利用了预训练扩散模型的知识，兼容多种扩散模型技术，支持3D编辑、网格和纹理增强等功能。这一创新方法不仅提高了生成效率，还降低了3D模型生成的复杂性。

Kiss3DGen 的主要功能

文本到3D生成：用户可以通过简单的文本描述生成高质量的3D模型。
图像到3D生成：框架能够将2D图像转换为3D模型，适用于将现有的图像内容扩展到三维空间。
混合生成流程：用户可以结合图像到3D和文本引导的网格编辑，创建复杂的3D场景。
多视图图像与法线图结合：框架生成“3D Bundle Image”，即多视图图像及其对应的法线图的拼贴表示。法线图用于重建3D网格，多视图图像提供纹理映射，生成完整的3D模型。
支持多种编辑功能：Kiss3DGen支持生成3D模型，兼容多种扩散模型技术，支持3D编辑、网格和纹理增强等功能。
高效训练与推理：框架在有限的训练数据下表现出色，能快速生成高质量的3D模型。
多任务生成能力：Kiss3DGen能同时处理多种生成任务，包括从文本或图像生成3D模型、编辑现有3D模型以及提升3D资产的质量。

Kiss3DGen 的技术原理

重新利用2D扩散模型：Kiss3DGen的核心思想是将3D生成问题转化为2D图像生成问题。通过微调预训练的2D扩散模型（如Stable Diffusion），框架能基于现有的强大2D生成能力，避免从头训练复杂的3D生成模型。
3D Bundle Image：框架引入了“3D Bundle Image”的概念，是由多视图图像及其对应的法线图组成的拼贴表示。能从2D图像中提取足够的信息来重建完整的3D模型。
法线图增强：法线图是Kiss3DGen的关键技术之一。通过捕捉物体表面的方向信息，帮助模型重建出更精确的3D几何形状。法线图的引入使得从2D到3D的转换更加高效和准确。
ControlNet技术：为了实现更精确的3D编辑，Kiss3DGen引入了ControlNet技术。用户可以通过文本提示或空间线索对生成的3D模型进行局部修改，实现更灵活的编辑功能。

如何运行 Kiss3DGen

1. 安装依赖

我们推荐使用 Python>=3.10、PyTorch>=2.4.0 和 CUDA>=12.1。

conda create --name kiss3dgen python=3.10
conda activate kiss3dgen
pip install -U pip

# 安装正确版本的CUDA
conda install cuda -c nvidia/label/cuda-12.1.0

# 安装PyTorch和xformers
pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 --index-url https://download.pytorch.org/whl/cu121
pip install xformers==0.0.27.post1

# 安装Pytorch3D
pip install iopath
pip install --no-index --no-cache-dir pytorch3d -f https://dl.fbaipublicfiles.com/pytorch3d/packaging/wheels/py310_cu121_pyt240/download.html

# 安装torch-scatter
pip install torch-scatter -f https://data.pyg.org/whl/torch-2.4.0+cu121.html

# 安装其他依赖
pip install -r requirements.txt

2. 下载预训练模型

我们的推理脚本会自动下载模型。你也可以手动运行以下命令下载模型，它们将被放置在 checkpoint/ 目录下。

# 下载预训练模型
python ./download_models.py

3. 3D资产生成

我们在A800 GPU（80GB内存）上运行。如果你只有较小的GPU，可以在 pipeline/pipeline_config/default.yaml 文件中更改模型的设备，以使用两个或多个较小内存的GPU。

# 文本到3D
python ./pipeline/example_text_to_3d.py
# 图像到3D
python ./pipeline/example_image_to_3d.py
# 3D到3D
python ./pipeline/example_3d_to_3d.py

4. Gradio Demo

运行本地Gradio Demo进行交互式推理。

python ./app.py

资源

项目主页：https://ltt-o.github.io/Kiss3dgen.github.io/
GitHub 仓库：https://github.com/EnVision-Research/Kiss3DGen
HuggingFace 仓库：https://huggingface.co/spaces/LTT/Kiss3DGen