TRELLIS:微软联合清华和中科大推出的高质量 3D 生成模型,支持局部控制和多种输出格式

本文涉及的产品
视觉智能开放平台,视频资源包5000点
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
简介: TRELLIS 是由微软、清华大学和中国科学技术大学联合推出的高质量 3D 生成模型,能够根据文本或图像提示生成多样化的 3D 资产,支持多种输出格式和灵活编辑。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/DTGhtsCoG6tscw4xXLteNw


🚀 快速阅读

  1. 功能:根据文本或图像提示生成高质量 3D 资产,支持多种输出格式和灵活编辑。
  2. 技术:基于 Structured LATent (SLAT) 表示法和修正流变换器,融合稀疏 3D 网格和多视图视觉特征。
  3. 应用:广泛应用于游戏开发、电影制作、虚拟现实、建筑设计和教育等领域。

正文(附运行示例)

TRELLIS 是什么

公众号: 蚝油菜花 - TRELLIS

TRELLIS 是由清华大学、中国科学技术大学和微软研究院联合推出的高质量 3D 生成模型。它基于 Structured LATent (SLAT) 表示法,能够从文本或图像提示中生成高质量、多样化的 3D 资产。模型通过融合稀疏的 3D 网格结构和从多视角提取的密集视觉特征,全面捕捉 3D 资产的几何和外观信息。

TRELLIS 的核心是修正流变换器,它能够处理 SLAT 的稀疏性,并在大规模 3D 资产数据集上进行训练,参数高达 20 亿。TRELLIS 能够生成细节丰富的 3D 模型,支持多种输出格式,并能对 3D 资产进行灵活编辑。

TRELLIS 的主要功能

  • 高质量 3D 生成:根据文本或图像提示生成具有复杂几何结构和细致纹理的 3D 资产。
  • 多格式输出:支持将 3D 资产生成为多种格式,包括辐射场(Radiance Fields)、3D 高斯(3D Gaussians)和网格(meshes)。
  • 灵活编辑:支持用户对生成的 3D 资产进行局部编辑,如添加、删除或替换特定区域,无需整体调整。
  • 无需拟合训练:在训练过程中,不需要对 3D 资产进行拟合,简化训练流程、提高效率。

TRELLIS 的技术原理

  • Structured LATent (SLAT) 表示:使用 SLAT 作为统一的 3D 潜在表示,基于稀疏的 3D 网格上定义局部潜在变量编码 3D 资产的几何和外观信息。
  • 多视图视觉特征:基于强大的视觉基础模型提取的多视图视觉特征,用于详细编码 3D 资产的结构和外观信息。
  • 修正流变换器:基于修正流变换器作为其 3D 生成模型的核心,特别适应于处理 SLAT 的稀疏性,能高效地生成 3D 资产。
  • 两阶段生成流程:首先生成 SLAT 的稀疏结构,然后在已生成的结构上生成局部潜在向量,灵活生成不同格式的 3D 表示。
  • 训练与优化:在大规模的 3D 资产数据集上进行训练,用特定的重建损失和 KL 惩罚优化编码器和解码器,确保生成的 3D 资产与原始数据高度一致。

如何运行 TRELLIS

以下是一个简单的示例,展示如何使用 TRELLIS 生成 3D 资产:

import os
os.environ['SPCONV_ALGO'] = 'native'

import imageio
from PIL import Image
from trellis.pipelines import TrellisImageTo3DPipeline
from trellis.utils import render_utils, postprocessing_utils

# 加载模型
pipeline = TrellisImageTo3DPipeline.from_pretrained("JeffreyXiang/TRELLIS-image-large")
pipeline.cuda()

# 加载图像
image = Image.open("assets/example_image/T.png")

# 运行模型
outputs = pipeline.run(image, seed=1)

# 渲染输出
video = render_utils.render_video(outputs['gaussian'][0])['color']
imageio.mimsave("sample_gs.mp4", video, fps=30)

# 保存为 GLB 文件
glb = postprocessing_utils.to_glb(outputs['gaussian'][0], outputs['mesh'][0])
glb.export("sample.glb")

运行上述代码后,你将获得以下文件:

  • sample_gs.mp4:展示 3D 高斯表示的视频。
  • sample.glb:包含提取的纹理网格的 GLB 文件。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
8天前
|
调度 云计算 芯片
云超算技术跃进,阿里云牵头制定我国首个云超算国家标准
近日,由阿里云联合中国电子技术标准化研究院主导制定的首个云超算国家标准已完成报批,不久后将正式批准发布。标准规定了云超算服务涉及的云计算基础资源、资源管理、运行和调度等方面的技术要求,为云超算服务产品的设计、实现、应用和选型提供指导,为云超算在HPC应用和用户的大范围采用奠定了基础。
179591 21
|
15天前
|
存储 运维 安全
云上金融量化策略回测方案与最佳实践
2024年11月29日,阿里云在上海举办金融量化策略回测Workshop,汇聚多位行业专家,围绕量化投资的最佳实践、数据隐私安全、量化策略回测方案等议题进行深入探讨。活动特别设计了动手实践环节,帮助参会者亲身体验阿里云产品功能,涵盖EHPC量化回测和Argo Workflows量化回测两大主题,旨在提升量化投研效率与安全性。
云上金融量化策略回测方案与最佳实践
|
17天前
|
人工智能 自然语言处理 前端开发
从0开始打造一款APP:前端+搭建本机服务,定制暖冬卫衣先到先得
通义灵码携手科技博主@玺哥超carry 打造全网第一个完整的、面向普通人的自然语言编程教程。完全使用 AI,再配合简单易懂的方法,只要你会打字,就能真正做出一个完整的应用。
9439 24
|
21天前
|
Cloud Native Apache 流计算
资料合集|Flink Forward Asia 2024 上海站
Apache Flink 年度技术盛会聚焦“回顾过去,展望未来”,涵盖流式湖仓、流批一体、Data+AI 等八大核心议题,近百家厂商参与,深入探讨前沿技术发展。小松鼠为大家整理了 FFA 2024 演讲 PPT ,可在线阅读和下载。
5105 15
资料合集|Flink Forward Asia 2024 上海站
|
21天前
|
自然语言处理 数据可视化 API
Qwen系列模型+GraphRAG/LightRAG/Kotaemon从0开始构建中医方剂大模型知识图谱问答
本文详细记录了作者在短时间内尝试构建中医药知识图谱的过程,涵盖了GraphRAG、LightRAG和Kotaemon三种图RAG架构的对比与应用。通过实际操作,作者不仅展示了如何利用这些工具构建知识图谱,还指出了每种工具的优势和局限性。尽管初步构建的知识图谱在数据处理、实体识别和关系抽取等方面存在不足,但为后续的优化和改进提供了宝贵的经验和方向。此外,文章强调了知识图谱构建不仅仅是技术问题,还需要深入整合领域知识和满足用户需求,体现了跨学科合作的重要性。
|
5天前
|
JSON 分布式计算 数据处理
加速数据处理与AI开发的利器:阿里云MaxFrame实验评测
随着数据量的爆炸式增长,传统数据分析方法逐渐显现出局限性。Python作为数据科学领域的主流语言,因其简洁易用和丰富的库支持备受青睐。阿里云推出的MaxFrame是一个专为Python开发者设计的分布式计算框架,旨在充分利用MaxCompute的强大能力,提供高效、灵活且易于使用的工具,应对大规模数据处理需求。MaxFrame不仅继承了Pandas等流行数据处理库的友好接口,还通过集成先进的分布式计算技术,显著提升了数据处理的速度和效率。
|
29天前
|
人工智能 自动驾驶 大数据
预告 | 阿里云邀您参加2024中国生成式AI大会上海站,马上报名
大会以“智能跃进 创造无限”为主题,设置主会场峰会、分会场研讨会及展览区,聚焦大模型、AI Infra等热点议题。阿里云智算集群产品解决方案负责人丛培岩将出席并发表《高性能智算集群设计思考与实践》主题演讲。观众报名现已开放。
|
16天前
|
消息中间件 人工智能 运维
12月更文特别场——寻找用云高手,分享云&AI实践
我们寻找你,用云高手,欢迎分享你的真知灼见!
1247 74

热门文章

最新文章