Kiss3DGen:基于图像扩散模型的3D资产生成框架

本文涉及的产品
图像搜索,任选一个服务类型 1个月
简介: Kiss3DGen是一个创新的3D资产生成框架,通过重新利用预训练的2D图像扩散模型,高效生成、编辑和增强3D对象,支持文本到3D、图像到3D等多种生成任务。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦


🎧 “3D生成新革命!Kiss3DGen用2D扩散模型搞定复杂3D资产,游戏开发者的福音来了!”

大家好,我是蚝油菜花。你是否也遇到过——

  • 👉 游戏开发中,3D模型制作耗时耗力,进度总是赶不上需求
  • 👉 影视特效制作中,复杂的3D场景搭建让人头疼
  • 👉 想要快速生成个性化的3D模型,却苦于没有合适的工具...

今天揭秘的 Kiss3DGen ,用AI彻底颠覆3D资产生成方式!这个基于2D图像扩散模型的框架,能将复杂的3D生成问题转化为2D图像生成任务,支持文本到3D、图像到3D等多种生成任务,还能进行3D编辑、网格和纹理增强。游戏开发者已经用它快速生成角色和场景,影视制作团队靠它提升特效效率——你的3D创作准备好迎接AI革命了吗?

🚀 快速阅读

Kiss3DGen是一个创新的3D资产生成框架,通过重新利用预训练的2D图像扩散模型,高效生成、编辑和增强3D对象。

  1. 核心功能:支持文本到3D、图像到3D生成,兼容多种扩散模型技术,支持3D编辑、网格和纹理增强等功能。
  2. 技术原理:通过生成“3D Bundle Image”,将多视图图像及对应的法线图组合成拼贴表示,法线图用于重建3D网格,多视图图像提供纹理映射。

Kiss3DGen 是什么

Kiss3DGen

Kiss3DGen是一个创新的3D资产生成框架,通过重新利用预训练的2D图像扩散模型,高效生成、编辑和增强3D对象。其核心在于生成“3D Bundle Image”,将多视图图像及对应的法线图组合成一种拼贴表示,法线图用于重建3D网格,多视图图像则提供纹理映射。

Kiss3DGen将复杂的3D生成问题转化为2D图像生成任务,充分利用了预训练扩散模型的知识,兼容多种扩散模型技术,支持3D编辑、网格和纹理增强等功能。这一创新方法不仅提高了生成效率,还降低了3D模型生成的复杂性。

Kiss3DGen 的主要功能

  • 文本到3D生成:用户可以通过简单的文本描述生成高质量的3D模型。
  • 图像到3D生成:框架能够将2D图像转换为3D模型,适用于将现有的图像内容扩展到三维空间。
  • 混合生成流程:用户可以结合图像到3D和文本引导的网格编辑,创建复杂的3D场景。
  • 多视图图像与法线图结合:框架生成“3D Bundle Image”,即多视图图像及其对应的法线图的拼贴表示。法线图用于重建3D网格,多视图图像提供纹理映射,生成完整的3D模型。
  • 支持多种编辑功能:Kiss3DGen支持生成3D模型,兼容多种扩散模型技术,支持3D编辑、网格和纹理增强等功能。
  • 高效训练与推理:框架在有限的训练数据下表现出色,能快速生成高质量的3D模型。
  • 多任务生成能力:Kiss3DGen能同时处理多种生成任务,包括从文本或图像生成3D模型、编辑现有3D模型以及提升3D资产的质量。

Kiss3DGen 的技术原理

  • 重新利用2D扩散模型:Kiss3DGen的核心思想是将3D生成问题转化为2D图像生成问题。通过微调预训练的2D扩散模型(如Stable Diffusion),框架能基于现有的强大2D生成能力,避免从头训练复杂的3D生成模型。
  • 3D Bundle Image:框架引入了“3D Bundle Image”的概念,是由多视图图像及其对应的法线图组成的拼贴表示。能从2D图像中提取足够的信息来重建完整的3D模型。
  • 法线图增强:法线图是Kiss3DGen的关键技术之一。通过捕捉物体表面的方向信息,帮助模型重建出更精确的3D几何形状。法线图的引入使得从2D到3D的转换更加高效和准确。
  • ControlNet技术:为了实现更精确的3D编辑,Kiss3DGen引入了ControlNet技术。用户可以通过文本提示或空间线索对生成的3D模型进行局部修改,实现更灵活的编辑功能。

如何运行 Kiss3DGen

1. 安装依赖

我们推荐使用 Python>=3.10PyTorch>=2.4.0CUDA>=12.1

conda create --name kiss3dgen python=3.10
conda activate kiss3dgen
pip install -U pip

# 安装正确版本的CUDA
conda install cuda -c nvidia/label/cuda-12.1.0

# 安装PyTorch和xformers
pip install torch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0 --index-url https://download.pytorch.org/whl/cu121
pip install xformers==0.0.27.post1

# 安装Pytorch3D
pip install iopath
pip install --no-index --no-cache-dir pytorch3d -f https://dl.fbaipublicfiles.com/pytorch3d/packaging/wheels/py310_cu121_pyt240/download.html

# 安装torch-scatter
pip install torch-scatter -f https://data.pyg.org/whl/torch-2.4.0+cu121.html

# 安装其他依赖
pip install -r requirements.txt

2. 下载预训练模型

我们的推理脚本会自动下载模型。你也可以手动运行以下命令下载模型,它们将被放置在 checkpoint/ 目录下。

# 下载预训练模型
python ./download_models.py

3. 3D资产生成

我们在A800 GPU(80GB内存)上运行。如果你只有较小的GPU,可以在 pipeline/pipeline_config/default.yaml 文件中更改模型的设备,以使用两个或多个较小内存的GPU。

# 文本到3D
python ./pipeline/example_text_to_3d.py
# 图像到3D
python ./pipeline/example_image_to_3d.py
# 3D到3D
python ./pipeline/example_3d_to_3d.py

4. Gradio Demo

运行本地Gradio Demo进行交互式推理。

python ./app.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发感兴趣,我会每日分享大模型与 AI 领域的开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术!

🥦 AI 在线答疑 -> 智能检索历史文章和开源项目 -> 尽在微信公众号 -> 搜一搜:蚝油菜花 🥦

相关文章
|
数据采集 存储 人工智能
TripoSR开源!从单个图像快速生成 3D 对象!(附魔搭社区推理实战教程)
近期,VAST团队和Stability AI团队合作发布了TripoSR,可在一秒内从单个图像生成高质量3D对象。
|
9月前
|
人工智能 自然语言处理 API
Proxy Lite:仅3B参数的开源视觉模型!快速实现网页自动化,支持在消费级GPU上运行
Proxy Lite 是一款开源的轻量级视觉语言模型,支持自动化网页任务,能够像人类一样操作浏览器,完成网页交互、数据抓取、表单填写等重复性工作,显著降低自动化成本。
640 11
Proxy Lite:仅3B参数的开源视觉模型!快速实现网页自动化,支持在消费级GPU上运行
|
9月前
|
机器学习/深度学习 人工智能 测试技术
昆仑万维开源 Skywork R1V:开源多模态推理核弹!视觉链式分析超越人类专家
Skywork R1V 是昆仑万维开源的多模态思维链推理模型,具备强大的视觉链式推理能力,能够在多个权威基准测试中取得领先成绩,推动多模态推理模型的发展。
249 4
昆仑万维开源 Skywork R1V:开源多模态推理核弹!视觉链式分析超越人类专家
|
9月前
|
人工智能 PyTorch API
Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成
Hunyuan3D 2.0 是腾讯推出的大规模 3D 资产生成系统,专注于从文本和图像生成高分辨率的 3D 模型,支持几何生成和纹理合成。
1059 5
Hunyuan3D 2.0:腾讯混元开源3D生成大模型!图生/文生秒建高精度模型,细节纹理自动合成
|
9月前
|
人工智能 缓存 Apache
Mistral Small 3.1:240亿参数多模态黑马!128k长文本+图像分析,推理速度150token/秒
Mistral Small 3.1 是 Mistral AI 开源的多模态人工智能模型,具备 240 亿参数,支持文本和图像处理,推理速度快,适合多种应用场景。
331 7
Mistral Small 3.1:240亿参数多模态黑马!128k长文本+图像分析,推理速度150token/秒
|
9月前
|
人工智能 自然语言处理 搜索推荐
ViDoRAG:开源多模态文档检索框架,多智能体推理+图文理解精准解析文档
ViDoRAG 是阿里巴巴通义实验室联合中国科学技术大学和上海交通大学推出的视觉文档检索增强生成框架,基于多智能体协作和动态迭代推理,显著提升复杂视觉文档的检索和生成效率。
590 8
ViDoRAG:开源多模态文档检索框架,多智能体推理+图文理解精准解析文档
|
9月前
|
人工智能 自然语言处理 语音技术
PodAgent:港中文、微软、小红书联合推出的播客生成框架
PodAgent 是由香港中文大学、微软和小红书联合推出的播客生成框架,基于多智能体协作系统,自动生成高质量对话内容,支持声音角色匹配和语音合成,适用于媒体、教育、企业推广等多个场景。
484 5
PodAgent:港中文、微软、小红书联合推出的播客生成框架
|
9月前
|
人工智能 自然语言处理 并行计算
Chitu:清华核弹级开源!推理引擎3倍提速+50%省卡,国产芯片告别英伟达绑架
Chitu(赤兔)是清华大学与清程极智联合开源的高性能大模型推理引擎,支持多硬件适配,显著提升推理效率,适用于金融、医疗、交通等多个领域。
839 10
Chitu:清华核弹级开源!推理引擎3倍提速+50%省卡,国产芯片告别英伟达绑架
|
10月前
|
机器学习/深度学习 人工智能 异构计算
SkyReels-A1:解放动画师!昆仑开源「数字人制造机」:一张照片生成逼真虚拟主播,表情连眉毛颤动都可控
SkyReels-A1 是昆仑万维开源的首个 SOTA 级别表情动作可控的数字人生成模型,支持高保真肖像动画生成和精确的表情动作控制。
959 23
|
9月前
|
数据采集 人工智能 JavaScript
Browser Use:40.7K Star!一句话让AI完全接管浏览器!自动规划完成任务,多标签页同时管理
Browser Use 是一款专为大语言模型设计的智能浏览器自动化工具,支持多标签页管理、视觉识别、内容提取等功能,并能记录和重复执行特定动作,适用于多种应用场景。
2388 21
Browser Use:40.7K Star!一句话让AI完全接管浏览器!自动规划完成任务,多标签页同时管理

热门文章

最新文章