TRELLIS:微软联合清华和中科大推出的高质量 3D 生成模型,支持局部控制和多种输出格式

简介: TRELLIS 是由微软、清华大学和中国科学技术大学联合推出的高质量 3D 生成模型,能够根据文本或图像提示生成多样化的 3D 资产,支持多种输出格式和灵活编辑。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/DTGhtsCoG6tscw4xXLteNw


🚀 快速阅读

  1. 功能:根据文本或图像提示生成高质量 3D 资产,支持多种输出格式和灵活编辑。
  2. 技术:基于 Structured LATent (SLAT) 表示法和修正流变换器,融合稀疏 3D 网格和多视图视觉特征。
  3. 应用:广泛应用于游戏开发、电影制作、虚拟现实、建筑设计和教育等领域。

正文(附运行示例)

TRELLIS 是什么

公众号: 蚝油菜花 - TRELLIS

TRELLIS 是由清华大学、中国科学技术大学和微软研究院联合推出的高质量 3D 生成模型。它基于 Structured LATent (SLAT) 表示法,能够从文本或图像提示中生成高质量、多样化的 3D 资产。模型通过融合稀疏的 3D 网格结构和从多视角提取的密集视觉特征,全面捕捉 3D 资产的几何和外观信息。

TRELLIS 的核心是修正流变换器,它能够处理 SLAT 的稀疏性,并在大规模 3D 资产数据集上进行训练,参数高达 20 亿。TRELLIS 能够生成细节丰富的 3D 模型,支持多种输出格式,并能对 3D 资产进行灵活编辑。

TRELLIS 的主要功能

  • 高质量 3D 生成:根据文本或图像提示生成具有复杂几何结构和细致纹理的 3D 资产。
  • 多格式输出:支持将 3D 资产生成为多种格式,包括辐射场(Radiance Fields)、3D 高斯(3D Gaussians)和网格(meshes)。
  • 灵活编辑:支持用户对生成的 3D 资产进行局部编辑,如添加、删除或替换特定区域,无需整体调整。
  • 无需拟合训练:在训练过程中,不需要对 3D 资产进行拟合,简化训练流程、提高效率。

TRELLIS 的技术原理

  • Structured LATent (SLAT) 表示:使用 SLAT 作为统一的 3D 潜在表示,基于稀疏的 3D 网格上定义局部潜在变量编码 3D 资产的几何和外观信息。
  • 多视图视觉特征:基于强大的视觉基础模型提取的多视图视觉特征,用于详细编码 3D 资产的结构和外观信息。
  • 修正流变换器:基于修正流变换器作为其 3D 生成模型的核心,特别适应于处理 SLAT 的稀疏性,能高效地生成 3D 资产。
  • 两阶段生成流程:首先生成 SLAT 的稀疏结构,然后在已生成的结构上生成局部潜在向量,灵活生成不同格式的 3D 表示。
  • 训练与优化:在大规模的 3D 资产数据集上进行训练,用特定的重建损失和 KL 惩罚优化编码器和解码器,确保生成的 3D 资产与原始数据高度一致。

如何运行 TRELLIS

以下是一个简单的示例,展示如何使用 TRELLIS 生成 3D 资产:

import os
os.environ['SPCONV_ALGO'] = 'native'

import imageio
from PIL import Image
from trellis.pipelines import TrellisImageTo3DPipeline
from trellis.utils import render_utils, postprocessing_utils

# 加载模型
pipeline = TrellisImageTo3DPipeline.from_pretrained("JeffreyXiang/TRELLIS-image-large")
pipeline.cuda()

# 加载图像
image = Image.open("assets/example_image/T.png")

# 运行模型
outputs = pipeline.run(image, seed=1)

# 渲染输出
video = render_utils.render_video(outputs['gaussian'][0])['color']
imageio.mimsave("sample_gs.mp4", video, fps=30)

# 保存为 GLB 文件
glb = postprocessing_utils.to_glb(outputs['gaussian'][0], outputs['mesh'][0])
glb.export("sample.glb")

运行上述代码后,你将获得以下文件:

  • sample_gs.mp4:展示 3D 高斯表示的视频。
  • sample.glb:包含提取的纹理网格的 GLB 文件。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
数据采集 存储 人工智能
TripoSR开源!从单个图像快速生成 3D 对象!(附魔搭社区推理实战教程)
近期,VAST团队和Stability AI团队合作发布了TripoSR,可在一秒内从单个图像生成高质量3D对象。
|
存储 数据采集 数据可视化
Open3d系列 | 1. Open3d实现点云数据读写、点云配准、点云法向量计算
Open3d系列 | 1. Open3d实现点云数据读写、点云配准、点云法向量计算
17521 1
Open3d系列 | 1. Open3d实现点云数据读写、点云配准、点云法向量计算
|
Rust Oracle Java
针对 Minecraft 的 JVM 调优
Java 和 JVM 一直是一个很庞大的系统。Java 语言在 JVM 的基础上隐藏了很多细节,从而让程序员更关注功能而非性能。而 JVM 的作用则是对程序员编写的代码进行优化,因此 JVM 中引入了垃圾回收、即时编译等一系列先进而复杂的子系统。这种复杂度也使得 JVM 的性能并不像 C++、Go 或者 Rust 这样值观:你以为一段循环即可测量某个操作的性能,实际上这个操作可能随着循环的进行被即时编译机制优化。
5934 2
|
存储 前端开发 Java
Python 教程之控制流(9)Python 中的 Switch Case(替换)
Python 教程之控制流(9)Python 中的 Switch Case(替换)
585 0
|
27天前
|
数据采集 自然语言处理 算法
重塑虚实边界:智元机器人发布首个大语言模型驱动的开源仿真平台Genie Sim 3.0
智元机器人发布全球首个大语言模型驱动的开源仿真平台Genie Sim 3.0,基于NVIDIA Isaac Sim,实现高保真数字孪生环境,支持自然语言生成万级场景,分钟级构建与泛化。平台开源上万小时真实机器人作业数据集,覆盖200+任务,构建10万+场景评估体系,推动具身智能从研发到落地的全链路创新,助力开发者零硬件部署、高效训练与评测。
193 4
|
机器学习/深度学习 编解码 算法
高真实感3D高斯数字化身
本次分享介绍了3D高速扩建高新作为一种新的可微渲染技术,特别是高斯泼溅技术在数字化身3D领域的应用。该技术通过高斯点云扩展传统3D点云属性,实现高真实感、实时交互渲染,优化3D重建与多视点图像生成。文中还探讨了数字化身的构建与应用,包括全身和人头模型的创建,并展示了其在不同环境光照下的效果。最后,提出了未来研究方向,如更灵活的编辑和视频生成大模型的融合,以提升数字人的可控性和真实感。
|
12月前
|
人工智能 自然语言处理 程序员
一文彻底搞定从0到1手把手教你本地部署大模型
Ollama 是一个开源工具,旨在简化大型语言模型(LLM)在本地环境的部署与使用。它支持多种预训练模型(如Llama 3、Phi 3等),允许用户根据设备性能选择不同规模的模型,确保高效运行。Ollama 提供了良好的数据隐私保护,所有处理均在本地完成,无需网络连接。安装简便,通过命令行即可轻松管理模型。适用于开发测试、教育研究和个人隐私敏感的内容创作场景。
4060 0
一文彻底搞定从0到1手把手教你本地部署大模型
|
存储 Linux 开发工具
告别Hugging Face模型下载难题:掌握高效下载策略,畅享无缝开发体验
【8月更文挑战第2天】告别Hugging Face模型下载难题:掌握高效下载策略,畅享无缝开发体验
4540 64
告别Hugging Face模型下载难题:掌握高效下载策略,畅享无缝开发体验

热门文章

最新文章