TripoSR开源!从单个图像快速生成 3D 对象!(附魔搭社区推理实战教程)

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 近期,VAST团队和Stability AI团队合作发布了TripoSR,可在一秒内从单个图像生成高质量3D对象。

引言

近期,VAST团队和Stability AI团队合作发布了TripoSR,可在一秒内从单个图像生成高质量3D对象。

TripoSR可在低推理预算下运行(如CPU),对于开发者或者业务系统来说既易于访问又实用。

模型权重已正式上线ModelScope魔搭社区,可在MIT许可下允许商业化,个人和研究使用。

TripoSR是一种快速的3D对象重建模型,其灵感来自于LRM最近的工作:单图像到3D的大型重建模型。这种新的图像转3D模型希望满足娱乐、游戏、工业设计和建筑行业日益增长,并提供用于可视化详细的3D对象的输出。

640.gif

使用 TripoSR 模型重建样本输入图像和相应的 3D 模型

表现

TripoSR可以用较短的时间,创建详细的3D模型。在A100上进行测试时,大约0.5秒内生成草图质量的带纹理3D网格模型,性能超越了其他开源图像到3D模型。除了速度之外,TripoSR对有无GPU的用户都完全可用。

12.gif

将 TripoSR 3D 重建与 OpenLRM 的重建进行比较。

技术细节

TripoSR 3D训练数据准备结合了多种数据渲染技术,可以更接近地复制现实世界中的图像分布,从而显着提高模型的泛化能力。TripoSR 3D构造了CC-BY高质量数据集,这是Objaverse数据集的一个更高质量的子集,用于训练数据。在模型方面,TripoSR还对基础LRM模型进行了多项技术改进,包括通道数优化、掩模监督和更高效的裁剪渲染策略。

模型结构:

和LRM架构类似,TripoSR利用Transformer架构,专注于单图像3D社区重建。核心组件包括:image encoder、 image-to-triplane,以及 triplane-based neural radiance field(NeRF)。图像编码器使用的DINOv1,将RGB图像投影成一组向量。image-to-triplane将向量转换到triplane-based NeRF表示。解码器包含了多个transformer layers,每一层包括一个self-attention层和cross-attention层,self-attention允许解码器关注triplane的不同部分表示并学习他们的关系。Cross-attention层允许解码器合并全局和局部图像特征到triplane-based NeRF中。

image.png

LRM模型结构

数据处理:

数据在模型训练中非常重要,所以TripoSR在训练数据预处理中做了两项改进:

  • 数据管理:仔细选择Objaverse数据集的子集,在CC-BY许可下,提升训练数据的质量。
  • 数据渲染:采用了多种数据渲染技术来模拟真实世界图像的分布,从而增强了模型的泛化能力。

最佳实践

模型体验

创空间体验链接:

https://modelscope.cn/studios/VAST-AI-Research/TripoSR/summary

欢迎大家体验,也可以选择复制该创空间:

image.png

环境配置与安装

  1. python 3.10及以上版本
  2. pytorch 1.12及以上版本,推荐2.0及以上版本
  3. 建议使用CUDA 11.4及以上

image.png

下载代码:

git clone https://github.com/VAST-AI-Research/TripoSR.git

安装依赖:

pip install rembg
pip install git+https://github.com/tatsy/torchmcubes.git

下载所需模型:

git clone https://www.modelscope.cn/VAST-AI-Research/TripoSR.git
git clone https://www.modelscope.cn/AI-ModelScope/dino-vitb16.git

修改模型TripoSR中config.yaml文件,将模型path改为本地模型存储路径:

image.png

修改TripoSR/tsr/models/tokenizers/image.py文件,将文件改为从modelscope下载。

image.png

运行推理代码:

python run.py examples/chair.png --output-dir output/ --pretrained-model-name-or-path models/TripoSR

点击跳转

TripoSR · 创空间 (modelscope.cn)

目录
打赏
0
1
0
1
693
分享
相关文章
魔塔社区的模型支持使用DJL 进行推理吗?
想使用DJL 加载魔塔社区的模型并进行推理
SCEdit:轻量级高效可控的AI图像生成微调框架(附魔搭社区训练实践教程)
SCEdit是一个高效的生成式微调框架,由阿里巴巴通义实验室基础视觉智能团队所提出。
6.4K star!轻松搞定专业领域大模型推理,这个知识增强框架绝了!
🔥「垂直领域大模型落地难?逻辑推理总出错?这个来自OpenSPG的开源框架,让专业领域知识服务变得像搭积木一样简单!」
mlop.ai 无脑使用教程 (机器学习工具 WandB/ClearML 的首个国区开源平替)
mlop.ai 是首个为国区用户优化的机器学习工具,全栈免费开源,是主流付费解决方案 ClearML/WandB 的开源平替。常规实验追踪的工具经常大幅人为降速,mlop因为底层为Rust代码,能轻松支持高频数据写入。如需更多开发者帮助或企业支持,敬请联系cn@mlop.ai
67 12
mlop.ai 无脑使用教程 (机器学习工具 WandB/ClearML 的首个国区开源平替)
31.3K star!开源免费本地AI神器,一键部署多模态大模型!
LocalAI 是一款革命性的开源AI框架,专为本地化部署设计。它完美复现了OpenAI的API接口,支持运行各类开源大模型(如LLaMA3、Phi-2、Stable Diffusion等),无需GPU即可在普通电脑上实现:
腾讯开源HunyuanVideo-I2V图生视频模型+LoRA训练脚本,社区部署、推理实战教程来啦!
继阿里的通义万相wan2.1模型之后,腾讯混元又出大招,重磅发布HunyuanVideo-I2V图生视频模型。
257 9
Gemma3:Google开源多模态神器,轻量高效,精通140+语言,解锁文本与图像任务
在当今快速发展的 AI 领域,多模态模型正逐渐成为推动技术革新的重要力量。Google 最新推出的 Gemma 3 模型,凭借其轻量级、多模态的特性,为文本生成和图像理解任务带来了全新的可能性。它不仅支持文本和图像输入,还具备强大的语言处理能力,覆盖超过 140 种语言,并且能够在资源有限的设备上高效运行。从问答到摘要,从推理到图像分析,Gemma 3 正在重新定义 AI 模型的边界,为开发者和研究人员提供了一个极具潜力的工具。
254 0
VideoRefer:阿里达摩院开源视频对象感知与推理框架,可集成 VLLM 提升其空间和时间理解能力
VideoRefer 是浙江大学与阿里达摩学院联合推出的视频对象感知与推理技术,支持细粒度视频对象理解、复杂关系分析及多模态交互,适用于视频剪辑、教育、安防等多个领域。
270 17
VideoRefer:阿里达摩院开源视频对象感知与推理框架,可集成 VLLM 提升其空间和时间理解能力
【AI系统】模型转换基本介绍
模型转换技术旨在解决深度学习模型在不同框架间的兼容性问题,通过格式转换和图优化,将训练框架生成的模型适配到推理框架中,实现高效部署。这一过程涉及模型格式转换、计算图优化、算子统一及输入输出支持等多个环节,确保模型能在特定硬件上快速、准确地运行。推理引擎作为核心组件,通过优化阶段和运行阶段,实现模型的加载、优化和高效执行。面对不同框架的模型文件格式和网络结构,推理引擎需具备高度的灵活性和兼容性,以支持多样化的应用场景。
212 4
【AI系统】模型转换基本介绍

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等