TripoSR开源!从单个图像快速生成 3D 对象!(附魔搭社区推理实战教程)

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 近期,VAST团队和Stability AI团队合作发布了TripoSR,可在一秒内从单个图像生成高质量3D对象。

引言

近期,VAST团队和Stability AI团队合作发布了TripoSR,可在一秒内从单个图像生成高质量3D对象。

TripoSR可在低推理预算下运行(如CPU),对于开发者或者业务系统来说既易于访问又实用。

模型权重已正式上线ModelScope魔搭社区,可在MIT许可下允许商业化,个人和研究使用。

TripoSR是一种快速的3D对象重建模型,其灵感来自于LRM最近的工作:单图像到3D的大型重建模型。这种新的图像转3D模型希望满足娱乐、游戏、工业设计和建筑行业日益增长,并提供用于可视化详细的3D对象的输出。

640.gif

使用 TripoSR 模型重建样本输入图像和相应的 3D 模型

表现

TripoSR可以用较短的时间,创建详细的3D模型。在A100上进行测试时,大约0.5秒内生成草图质量的带纹理3D网格模型,性能超越了其他开源图像到3D模型。除了速度之外,TripoSR对有无GPU的用户都完全可用。

12.gif

将 TripoSR 3D 重建与 OpenLRM 的重建进行比较。

技术细节

TripoSR 3D训练数据准备结合了多种数据渲染技术,可以更接近地复制现实世界中的图像分布,从而显着提高模型的泛化能力。TripoSR 3D构造了CC-BY高质量数据集,这是Objaverse数据集的一个更高质量的子集,用于训练数据。在模型方面,TripoSR还对基础LRM模型进行了多项技术改进,包括通道数优化、掩模监督和更高效的裁剪渲染策略。

模型结构:

和LRM架构类似,TripoSR利用Transformer架构,专注于单图像3D社区重建。核心组件包括:image encoder、 image-to-triplane,以及 triplane-based neural radiance field(NeRF)。图像编码器使用的DINOv1,将RGB图像投影成一组向量。image-to-triplane将向量转换到triplane-based NeRF表示。解码器包含了多个transformer layers,每一层包括一个self-attention层和cross-attention层,self-attention允许解码器关注triplane的不同部分表示并学习他们的关系。Cross-attention层允许解码器合并全局和局部图像特征到triplane-based NeRF中。

image.png

LRM模型结构

数据处理:

数据在模型训练中非常重要,所以TripoSR在训练数据预处理中做了两项改进:

  • 数据管理:仔细选择Objaverse数据集的子集,在CC-BY许可下,提升训练数据的质量。
  • 数据渲染:采用了多种数据渲染技术来模拟真实世界图像的分布,从而增强了模型的泛化能力。

最佳实践

模型体验

创空间体验链接:

https://modelscope.cn/studios/VAST-AI-Research/TripoSR/summary

欢迎大家体验,也可以选择复制该创空间:

image.png

环境配置与安装

  1. python 3.10及以上版本
  2. pytorch 1.12及以上版本,推荐2.0及以上版本
  3. 建议使用CUDA 11.4及以上

image.png

下载代码:

git clone https://github.com/VAST-AI-Research/TripoSR.git

安装依赖:

pip install rembg
pip install git+https://github.com/tatsy/torchmcubes.git

下载所需模型:

git clone https://www.modelscope.cn/VAST-AI-Research/TripoSR.git
git clone https://www.modelscope.cn/AI-ModelScope/dino-vitb16.git

修改模型TripoSR中config.yaml文件,将模型path改为本地模型存储路径:

image.png

修改TripoSR/tsr/models/tokenizers/image.py文件,将文件改为从modelscope下载。

image.png

运行推理代码:

python run.py examples/chair.png --output-dir output/ --pretrained-model-name-or-path models/TripoSR

点击跳转

TripoSR · 创空间 (modelscope.cn)

相关文章
|
6月前
|
机器学习/深度学习 编解码 Shell
|
6月前
魔塔社区的模型支持使用DJL 进行推理吗?
想使用DJL 加载魔塔社区的模型并进行推理
|
6月前
|
人工智能 物联网 PyTorch
SCEdit:轻量级高效可控的AI图像生成微调框架(附魔搭社区训练实践教程)
SCEdit是一个高效的生成式微调框架,由阿里巴巴通义实验室基础视觉智能团队所提出。
|
19天前
|
弹性计算 人工智能 自然语言处理
魔搭社区与函数计算:高效部署开源大模型的文本生成服务体验
在数字化时代,人工智能技术迅速发展,开源大模型成为重要成果。魔搭社区(ModelScope)作为开源大模型的聚集地,结合阿里云函数计算,提供了一种高效、便捷的部署方式。通过按需付费和弹性伸缩,开发者可以快速部署和使用大模型,享受云计算的便利。本文介绍了魔搭社区与函数计算的结合使用体验,包括环境准备、部署应用、体验使用和资源清理等步骤,并提出了改进建议。
|
1月前
|
机器学习/深度学习 自然语言处理 机器人
深度剖析模型微调与RAG技术的完美融合:从理论到实践,带你全面了解如何利用RAG提升特定领域任务性能并附带代码示例
【10月更文挑战第2天】随着深度学习的发展,预训练模型因通用表示能力和高效性备受关注。模型微调通过在已训练模型基础上进行再训练,使其适应特定任务或数据集,提升性能。RAG(Retrieval-Augmented Generation)结合检索与生成技术,在生成响应前检索相关信息,特别适用于需要背景知识的任务。本文通过构建医学问答机器人的示例,展示如何初始化RAG模型并利用实际数据集进行微调,从而提升生成答案的准确性和可信度。
89 4
|
1月前
|
机器学习/深度学习 自然语言处理 数据挖掘
从理论到实践:详解GraphRAG框架下的多模态内容理解与生成
【10月更文挑战第10天】随着多媒体内容的爆炸性增长,如何有效地理解和生成跨模态的数据(如图像、文本和视频)变得越来越重要。近年来,图神经网络(GNNs)因其在处理非结构化数据方面的强大能力而受到广泛关注。在此背景下,Graph Retrieval-Augmented Generation (GraphRAG) 框架作为一种新的方法,通过结合图检索和生成模型来提升多模态内容的理解与生成效果。本文将深入探讨GraphRAG的基本原理、核心组件以及实际应用,并通过代码示例展示其在多媒体内容处理中的潜力。
111 0
|
3月前
|
机器学习/深度学习 算法 Ubuntu
解读深大的视觉开源源码
这篇文章详细解读了深圳大学步兵视觉开源代码RP_Infantry_Plus,包括功能介绍、效果展示、依赖环境、整体框架、实现方案、通讯协议、配置与调试以及总结展望,提供了RoboMaster2019赛场上装甲板和小符文的识别方案,并通过自定义通讯协议将视觉处理信息发送给下位机。
解读深大的视觉开源源码
|
4月前
|
存储 人工智能 自然语言处理
社区供稿 | 源大模型的快速部署与高效推理——GGUF格式模型介绍与使用教程
在人工智能领域,大型语言模型的发展日新月异,它们在自然语言处理、机器翻译、智能助手等多个领域展现出了前所未有的能力。
社区供稿 | 源大模型的快速部署与高效推理——GGUF格式模型介绍与使用教程
|
3月前
|
机器学习/深度学习 自然语言处理 TensorFlow
迁移学习入门指南超棒!教你如何利用预训练模型加速 TensorFlow 项目开发,开启高效之旅!
【8月更文挑战第31天】在深度学习领域,迁移学习是种在资源有限的情况下快速开发高性能模型的技术。本指南介绍如何在TensorFlow中利用预训练模型实现迁移学习,包括选择、加载预训练模型、自定义顶层、冻结预训练层及训练模型等内容,以帮助提升模型性能和训练速度。
72 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
预训练驱动的统一文本表示-GTE魔搭社区最佳实践
文本表示是自然语言处理(NLP)领域的核心问题, 其在很多NLP、信息检索的下游任务中发挥着非常重要的作用。

热门文章

最新文章