SPAR3D:一张图片就能生成3D模型,每个物体的重建时间仅需0.7秒!

本文涉及的产品
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
简介: SPAR3D 是由 Stability AI 和伊利诺伊大学香槟分校推出的先进单图生成3D模型方法,支持快速推理与用户交互式编辑,适用于多种3D建模场景。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦


🚀 快速阅读

  1. 功能:SPAR3D 能从单张图像中高效重建出高质量的3D网格模型,支持用户交互式编辑。
  2. 技术:基于两阶段设计,结合点扩散模型和三平面Transformer,实现快速且高质量的3D重建。
  3. 应用:适用于增强现实、电影制作、工业设计等多种场景,泛化能力强。

正文(附运行示例)

SPAR3D 是什么

stable-point-aware-3d

SPAR3D 是由 Stability AI 和伊利诺伊大学香槟分校联合推出的先进单图生成3D模型方法。它能够从单张图像中高效重建出高质量的3D对象,结合了回归模型和生成模型的优势,既能准确重建图像中的可见表面,又能合理生成被遮挡部分的几何和纹理细节。

SPAR3D 采用两阶段设计,第一阶段使用点扩散模型生成稀疏的3D点云,第二阶段结合采样的点云和输入图像生成高度详细的网格。该方法在多个数据集上表现出色,推理速度快,支持用户对生成网格的交互式编辑,为单视图3D重建任务提供了一种实用且高效的解决方案。

SPAR3D 的主要功能

  • 单视图3D重建:从单张2D图像中重建出高质量的3D网格模型,适用于增强现实、电影制作、制造业等需要3D建模的场景。
  • 快速推理:具有高效的推理速度,每个物体的重建时间仅需0.7秒,适合实时应用需求。
  • 支持用户编辑:生成的3D网格支持交互式编辑,用户基于修改点云调整未见表面的细节,如添加物体部件或改善局部细节,满足个性化需求。
  • 泛化能力强:不仅在标准数据集上表现优异,多图像和AI生成图像上实现准确的几何结构重建和良好的纹理效果,具有强大的泛化性能。

SPAR3D 的技术原理

  • 两阶段设计
    • 点采样阶段:用轻量级的点扩散模型生成稀疏的3D点云。模型基于DDPM框架,用前向过程向原始点云添加噪声,再用后向过程中的去噪器学习去除噪声,生成包含XYZ和RGB信息的点云。
    • 网格化阶段:将采样的点云和输入图像作为条件,用大型三平面Transformer生成高分辨率的三平面特征,用于估计物体的几何、纹理、光照以及材质属性。
  • 点云作为中间表示:点云作为连接两个阶段的桥梁,为网格化阶段提供必要的几何和颜色信息,支持用户在点云层面上进行编辑,增强模型的灵活性和可交互性。
  • 概率建模与逆渲染:在点采样阶段,基于概率建模处理单视图3D重建中的不确定性问题,生成合理的点云分布。在网格化阶段,进行逆渲染,将点云和图像信息融合,估计出物体的详细几何结构和材质属性。

如何运行 SPAR3D

1. 安装依赖

确保你的环境满足以下条件:

  • Python >= 3.8
  • 可选:CUDA
  • 对于 Windows(实验性支持):Visual Studio 2022

安装 PyTorch 和其他依赖:

pip install -U setuptools==69.5.1
pip install wheel
pip install -r requirements.txt
AI 代码解读

2. 请求访问并登录

  1. 登录 Hugging Face 并请求访问 这里
  2. 创建一个具有读取权限的访问令牌 这里
  3. 在环境中运行 huggingface-cli login 并输入令牌。

3. 运行推理

python run.py demo_files/examples/fish.png --output-dir output/
AI 代码解读

这将把重建的3D模型保存为 GLB 文件到 output/ 目录中。

4. 本地 Gradio 应用

python gradio_app.py
AI 代码解读

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日分享大模型与 AI 领域的最新开源项目和应用,提供运行实例和实用教程,帮助你快速上手AI技术,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

目录
打赏
0
28
30
0
339
分享
相关文章
无需训练,这个新方法实现了生成图像尺寸、分辨率自由
【4月更文挑战第25天】研究人员提出FouriScale方法,解决了扩散模型在生成高分辨率图像时的结构失真问题。通过膨胀卷积和低通滤波,该方法实现不同分辨率下图像的结构和尺度一致性,无需重新训练模型。实验显示FouriScale在保持图像真实性和完整性的同时,能生成任意尺寸的高质量图像,尤其在处理高宽比图像时表现出色。尽管在极高分辨率生成上仍有局限,但为超高清图像合成技术提供了新思路。[链接: https://arxiv.org/abs/2403.12963]
122 5
《LSTM:开启图像动态场景理解与时间变化信息捕捉的新旅程》
在计算机视觉中,理解图像动态场景并捕捉时间变化信息极具挑战。LSTM作为一种深度学习模型,通过将图像帧序列化并结合CNN提取的空间特征,有效捕捉帧间的时间依赖关系。LSTM的门控机制(遗忘门、输入门和输出门)能智能处理图像序列中的信息,过滤无关数据,保留关键变化。该方法广泛应用于自动驾驶、视频监控及虚拟现实等领域,提升了动态场景的理解与预测能力。
69 13
|
5月前
|
遥感语义分割数据集中的切图策略
该脚本用于遥感图像的切图处理,支持大尺寸图像按指定大小和步长切割为多个小图,适用于语义分割任务的数据预处理。通过设置剪裁尺寸(cs)和步长(ss),可灵活调整输出图像的数量和大小。此外,脚本还支持标签图像的转换,便于后续模型训练使用。
48 0
CVPR 2024 Highlight:基于单曝光压缩成像,不依赖生成模型也能从单张图像中重建三维场景
【5月更文挑战第15天】CVPR 2024会议上,清华大学研究人员提出的SCINeRF利用单曝光压缩成像(SCI)技术结合神经辐射场(NeRF)进行3D场景重建。SCI以低成本捕捉高维数据,而SCINeRF将SCI的成像过程融入NeRF训练,实现复杂场景的高效重建。实验显示,该方法在图像重建和多视角图像生成方面取得优越性能,但实际应用仍需解决SCI系统设计、训练效率和模型泛化等挑战。[Link: https://arxiv.org/abs/2403.20018]
217 2
用 ChatGPT 4.0 实现获取并保存 RealSense 相机的深度图像,处理colorizer,histogram equalization配置,解决深度图像颜色分布异常问题
用 ChatGPT 4.0 实现获取并保存 RealSense 相机的深度图像,处理colorizer,histogram equalization配置,解决深度图像颜色分布异常问题
141 0
用 ChatGPT 4.0 实现获取并保存 RealSense 相机的深度图像,处理colorizer,histogram equalization配置,解决深度图像颜色分布异常问题
【实操】数据扩增:Retinex算法用于图像颜色恢复和对比度增强
【实操】数据扩增:Retinex算法用于图像颜色恢复和对比度增强
284 0
【实操】数据扩增:Retinex算法用于图像颜色恢复和对比度增强
【视频处理】通过调用图像来重建新影片及计算颜色通道的平均灰度值,并检测帧与前一帧之间的差异(Matlab代码实现)
【视频处理】通过调用图像来重建新影片及计算颜色通道的平均灰度值,并检测帧与前一帧之间的差异(Matlab代码实现)
优化cv2.findContours()函数提取的目标边界点,使语义分割进行远监督辅助标注
可以看到cv2.findContours()函数可以将目标的所有边界点都进行导出来,但是他的点存在一个问题,太过密集,如果我们想将语义分割的结果重新导出成labelme格式的json文件进行修正时,这就会存在点太密集没有办法进行修改,这里展示一个示例:没有对导出的结果进行修正,在labelme中的效果图。
278 0
当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换(2)
当「分割一切」遇上图像修补:无需精细标记,单击物体实现物体移除、内容填补、场景替换
144 0

热门文章

最新文章