SPAR3D:一张图片就能生成3D模型,每个物体的重建时间仅需0.7秒!

本文涉及的产品
视觉智能开放平台,视频通用资源包5000点
视觉智能开放平台,图像通用资源包5000点
视觉智能开放平台,分割抠图1万点
简介: SPAR3D 是由 Stability AI 和伊利诺伊大学香槟分校推出的先进单图生成3D模型方法,支持快速推理与用户交互式编辑,适用于多种3D建模场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:SPAR3D 能从单张图像中高效重建出高质量的3D网格模型,支持用户交互式编辑。
  2. 技术:基于两阶段设计,结合点扩散模型和三平面Transformer,实现快速且高质量的3D重建。
  3. 应用:适用于增强现实、电影制作、工业设计等多种场景,泛化能力强。

正文(附运行示例)

SPAR3D 是什么

stable-point-aware-3d

SPAR3D 是由 Stability AI 和伊利诺伊大学香槟分校联合推出的先进单图生成3D模型方法。它能够从单张图像中高效重建出高质量的3D对象,结合了回归模型和生成模型的优势,既能准确重建图像中的可见表面,又能合理生成被遮挡部分的几何和纹理细节。

SPAR3D 采用两阶段设计,第一阶段使用点扩散模型生成稀疏的3D点云,第二阶段结合采样的点云和输入图像生成高度详细的网格。该方法在多个数据集上表现出色,推理速度快,支持用户对生成网格的交互式编辑,为单视图3D重建任务提供了一种实用且高效的解决方案。

SPAR3D 的主要功能

  • 单视图3D重建:从单张2D图像中重建出高质量的3D网格模型,适用于增强现实、电影制作、制造业等需要3D建模的场景。
  • 快速推理:具有高效的推理速度,每个物体的重建时间仅需0.7秒,适合实时应用需求。
  • 支持用户编辑:生成的3D网格支持交互式编辑,用户基于修改点云调整未见表面的细节,如添加物体部件或改善局部细节,满足个性化需求。
  • 泛化能力强:不仅在标准数据集上表现优异,多图像和AI生成图像上实现准确的几何结构重建和良好的纹理效果,具有强大的泛化性能。

SPAR3D 的技术原理

  • 两阶段设计
    • 点采样阶段:用轻量级的点扩散模型生成稀疏的3D点云。模型基于DDPM框架,用前向过程向原始点云添加噪声,再用后向过程中的去噪器学习去除噪声,生成包含XYZ和RGB信息的点云。
    • 网格化阶段:将采样的点云和输入图像作为条件,用大型三平面Transformer生成高分辨率的三平面特征,用于估计物体的几何、纹理、光照以及材质属性。
  • 点云作为中间表示:点云作为连接两个阶段的桥梁,为网格化阶段提供必要的几何和颜色信息,支持用户在点云层面上进行编辑,增强模型的灵活性和可交互性。
  • 概率建模与逆渲染:在点采样阶段,基于概率建模处理单视图3D重建中的不确定性问题,生成合理的点云分布。在网格化阶段,进行逆渲染,将点云和图像信息融合,估计出物体的详细几何结构和材质属性。

如何运行 SPAR3D

1. 安装依赖

确保你的环境满足以下条件:

  • Python >= 3.8
  • 可选:CUDA
  • 对于 Windows(实验性支持):Visual Studio 2022

安装 PyTorch 和其他依赖:

pip install -U setuptools==69.5.1
pip install wheel
pip install -r requirements.txt

2. 请求访问并登录

  1. 登录 Hugging Face 并请求访问 这里
  2. 创建一个具有读取权限的访问令牌 这里
  3. 在环境中运行 huggingface-cli login 并输入令牌。

3. 运行推理

python run.py demo_files/examples/fish.png --output-dir output/

这将把重建的3D模型保存为 GLB 文件到 output/ 目录中。

4. 本地 Gradio 应用

python gradio_app.py

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
人工智能 vr&ar 图形学
开源单图生成3D模型TripoSR的局限性分析
【2月更文挑战第25天】开源单图生成3D模型TripoSR的局限性分析
575 6
开源单图生成3D模型TripoSR的局限性分析
|
数据采集 存储 人工智能
TripoSR开源!从单个图像快速生成 3D 对象!(附魔搭社区推理实战教程)
近期,VAST团队和Stability AI团队合作发布了TripoSR,可在一秒内从单个图像生成高质量3D对象。
|
8月前
|
人工智能 vr&ar
PSHuman:开源单图像3D人像重建技术,一张照片就能生成3D人像模型
PSHuman 是一种先进的单图像3D人像重建技术,仅需一张照片即可生成高度逼真的3D模型,支持面部细节、全身姿态和纹理恢复,适用于影视、游戏、虚拟现实等多个领域。
806 4
PSHuman:开源单图像3D人像重建技术,一张照片就能生成3D人像模型
|
6月前
|
机器学习/深度学习 人工智能 vr&ar
LHM:单图生成3D动画人!阿里开源建模核弹,高斯点云重构服装纹理
阿里巴巴通义实验室开源的LHM模型,能够从单张图像快速重建高质量可动画化的3D人体模型,支持实时渲染和姿态控制,适用于AR/VR、游戏开发等多种场景。
1431 0
LHM:单图生成3D动画人!阿里开源建模核弹,高斯点云重构服装纹理
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格
DeepMesh 是由清华大学和南洋理工大学联合开发的 3D 网格生成框架,基于强化学习和自回归变换器,能够生成高质量的 3D 网格,适用于虚拟环境构建、动态内容生成、角色动画等多种场景。
499 4
DeepMesh:3D建模革命!清华团队让AI自动优化拓扑,1秒生成工业级网格
|
6月前
|
人工智能 编解码 测试技术
TripoSG:3D生成新纪元!修正流模型秒出高保真网格,碾压传统建模
TripoSG 是 VAST AI 推出的基于大规模修正流模型的高保真 3D 形状合成技术,能够从单张图像生成细节丰富的 3D 网格模型,在工业设计、游戏开发等领域具有广泛应用前景。
244 15
TripoSG:3D生成新纪元!修正流模型秒出高保真网格,碾压传统建模
|
6月前
|
人工智能 前端开发 算法
Vibe Draw:涂鸦秒变3D模型!开源AI建模神器解放创意生产力
Vibe Draw 是一款基于AI技术的开源3D建模工具,通过Next.js和FastAPI构建,能将用户绘制的2D草图智能转化为3D模型,并支持文本提示优化和场景构建。
394 35
Vibe Draw:涂鸦秒变3D模型!开源AI建模神器解放创意生产力
|
7月前
|
存储 人工智能 缓存
DiffSplat:输入文本或图像,2秒内生成3D建模!北大联合字节开源3D建模生成框架
DiffSplat 是由北京大学和字节跳动联合推出的一个高效 3D 生成框架,能够在 1-2 秒内从文本提示或单视图图像生成高质量的 3D 高斯点阵,并确保多视图下的一致性。
363 19
DiffSplat:输入文本或图像,2秒内生成3D建模!北大联合字节开源3D建模生成框架
|
8月前
|
机器学习/深度学习 人工智能 缓存
每个人都可以成为虚拟主播,一键创建属于你的虚拟形象,RAIN 为你实时生成逼真动画角色
RAIN 是一款创新的实时动画生成工具,支持在消费级硬件上实现无限视频流的实时动画化,适用于直播、虚拟角色生成等场景。
339 25
每个人都可以成为虚拟主播,一键创建属于你的虚拟形象,RAIN 为你实时生成逼真动画角色
|
6月前
|
机器学习/深度学习 人工智能 算法
MIDI-3D:单图秒变3D场景!40秒生成360度空间,多实例扩散黑科技
MIDI-3D 是一种先进的 AI 3D 场景生成技术,能够将单张图像快速转化为高保真度的 360 度 3D 场景,具有强大的全局感知能力和细节表现力,适用于游戏开发、虚拟现实、室内设计等多个领域。
223 18
MIDI-3D:单图秒变3D场景!40秒生成360度空间,多实例扩散黑科技

热门文章

最新文章