TRELLIS:微软联合清华和中科大推出的高质量 3D 生成模型,支持局部控制和多种输出格式

本文涉及的产品
视觉智能开放平台,分割抠图1万点
视觉智能开放平台,图像资源包5000点
视觉智能开放平台,视频资源包5000点
简介: TRELLIS 是由微软、清华大学和中国科学技术大学联合推出的高质量 3D 生成模型,能够根据文本或图像提示生成多样化的 3D 资产,支持多种输出格式和灵活编辑。

❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

原文链接:https://mp.weixin.qq.com/s/DTGhtsCoG6tscw4xXLteNw


🚀 快速阅读

  1. 功能:根据文本或图像提示生成高质量 3D 资产,支持多种输出格式和灵活编辑。
  2. 技术:基于 Structured LATent (SLAT) 表示法和修正流变换器,融合稀疏 3D 网格和多视图视觉特征。
  3. 应用:广泛应用于游戏开发、电影制作、虚拟现实、建筑设计和教育等领域。

正文(附运行示例)

TRELLIS 是什么

公众号: 蚝油菜花 - TRELLIS

TRELLIS 是由清华大学、中国科学技术大学和微软研究院联合推出的高质量 3D 生成模型。它基于 Structured LATent (SLAT) 表示法,能够从文本或图像提示中生成高质量、多样化的 3D 资产。模型通过融合稀疏的 3D 网格结构和从多视角提取的密集视觉特征,全面捕捉 3D 资产的几何和外观信息。

TRELLIS 的核心是修正流变换器,它能够处理 SLAT 的稀疏性,并在大规模 3D 资产数据集上进行训练,参数高达 20 亿。TRELLIS 能够生成细节丰富的 3D 模型,支持多种输出格式,并能对 3D 资产进行灵活编辑。

TRELLIS 的主要功能

  • 高质量 3D 生成:根据文本或图像提示生成具有复杂几何结构和细致纹理的 3D 资产。
  • 多格式输出:支持将 3D 资产生成为多种格式,包括辐射场(Radiance Fields)、3D 高斯(3D Gaussians)和网格(meshes)。
  • 灵活编辑:支持用户对生成的 3D 资产进行局部编辑,如添加、删除或替换特定区域,无需整体调整。
  • 无需拟合训练:在训练过程中,不需要对 3D 资产进行拟合,简化训练流程、提高效率。

TRELLIS 的技术原理

  • Structured LATent (SLAT) 表示:使用 SLAT 作为统一的 3D 潜在表示,基于稀疏的 3D 网格上定义局部潜在变量编码 3D 资产的几何和外观信息。
  • 多视图视觉特征:基于强大的视觉基础模型提取的多视图视觉特征,用于详细编码 3D 资产的结构和外观信息。
  • 修正流变换器:基于修正流变换器作为其 3D 生成模型的核心,特别适应于处理 SLAT 的稀疏性,能高效地生成 3D 资产。
  • 两阶段生成流程:首先生成 SLAT 的稀疏结构,然后在已生成的结构上生成局部潜在向量,灵活生成不同格式的 3D 表示。
  • 训练与优化:在大规模的 3D 资产数据集上进行训练,用特定的重建损失和 KL 惩罚优化编码器和解码器,确保生成的 3D 资产与原始数据高度一致。

如何运行 TRELLIS

以下是一个简单的示例,展示如何使用 TRELLIS 生成 3D 资产:

import os
os.environ['SPCONV_ALGO'] = 'native'

import imageio
from PIL import Image
from trellis.pipelines import TrellisImageTo3DPipeline
from trellis.utils import render_utils, postprocessing_utils

# 加载模型
pipeline = TrellisImageTo3DPipeline.from_pretrained("JeffreyXiang/TRELLIS-image-large")
pipeline.cuda()

# 加载图像
image = Image.open("assets/example_image/T.png")

# 运行模型
outputs = pipeline.run(image, seed=1)

# 渲染输出
video = render_utils.render_video(outputs['gaussian'][0])['color']
imageio.mimsave("sample_gs.mp4", video, fps=30)

# 保存为 GLB 文件
glb = postprocessing_utils.to_glb(outputs['gaussian'][0], outputs['mesh'][0])
glb.export("sample.glb")

运行上述代码后,你将获得以下文件:

  • sample_gs.mp4:展示 3D 高斯表示的视频。
  • sample.glb:包含提取的纹理网格的 GLB 文件。

资源


❤️ 如果你也关注 AI 的发展现状,且对 AI 应用开发非常感兴趣,我会每日跟你分享最新的 AI 资讯和开源应用,也会不定期分享自己的想法和开源实例,欢迎关注我哦!

🥦 微信公众号|搜一搜:蚝油菜花 🥦

相关文章
|
10天前
|
人工智能 数据挖掘 大数据
Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等
Freestyler是由西北工业大学、微软和香港大学联合推出的说唱乐生成模型,能够根据歌词和伴奏直接生成说唱音乐。该模型基于语言模型生成语义标记,并通过条件流匹配模型和神经声码器生成高质量音频。Freestyler还推出了RapBank数据集,支持零样本音色控制和多种应用场景。
74 16
Freestyler:微软联合西工大和香港大学推出说唱音乐生成模型,支持控制生成的音色、风格和节奏等
|
9天前
|
人工智能 自然语言处理 PyTorch
BrushEdit:腾讯和北京大学联合推出的图像编辑框架,通过自然语言指令实现对图像的编辑和修复
BrushEdit是由腾讯、北京大学等机构联合推出的先进图像编辑框架,结合多模态大型语言模型和双分支图像修复模型,支持基于指令引导的图像编辑和修复。
49 12
BrushEdit:腾讯和北京大学联合推出的图像编辑框架,通过自然语言指令实现对图像的编辑和修复
|
16天前
|
人工智能
GenMAC:港大、清华联合微软推出文本到视频生成的多代理协作框架
GenMAC是由香港大学、清华大学和微软研究院联合推出的文本到视频生成的多代理协作框架。该框架通过任务分解、迭代循环和多代理协作,解决了复杂场景生成问题,显著提高了视频生成的准确性和文本对齐度。
36 5
GenMAC:港大、清华联合微软推出文本到视频生成的多代理协作框架
|
28天前
|
人工智能 数据处理 异构计算
LongRAG:智谱联合清华和中科院推出的双视角鲁棒检索框架
LongRAG是由智谱、清华大学和中国科学院联合推出的双视角鲁棒检索增强生成框架,专为长文本问答设计。该框架通过混合检索器、LLM增强信息提取器、CoT引导过滤器和LLM增强生成器等组件,有效解决了长文本问答中的全局上下文理解和事实细节识别难题。LongRAG在多个数据集上表现优异,提供了自动化微调数据构建管道,增强了系统的“指令跟随”能力和领域适应性。
58 1
LongRAG:智谱联合清华和中科院推出的双视角鲁棒检索框架
|
5月前
|
机器学习/深度学习 自然语言处理 测试技术
社区供稿 | RWKV-6-World 14B正式开源发布,迄今最强的稠密纯RNN大语言模型
2024年7月19日,RWKV 开源基金会宣布正式向全球开源 RWKV-6-World 14B 模型。
|
7月前
|
人工智能 自然语言处理 文字识别
社区供稿 | 元象首个多模态大模型XVERSE-V开源,刷新权威大模型榜单,支持任意宽高比输入
元象公司发布了开源多模态大模型XVERSE-V,该模型在图像输入的宽高比方面具有灵活性,并在多项评测中展现出优越性能,超越了包括谷歌在内的多个知名模型。XVERSE-V采用创新方法结合全局和局部图像信息,适用于高清全景图识别、文字检测等任务,且已在Hugging Face、ModelScope和GitHub上开放下载。此外,模型在视障场景、内容创作、教育解题、百科问答和代码生成等领域有广泛应用,并在VizWiz等测试集中表现出色。元象致力于推动AI技术的普惠,支持中小企业、研究者和开发者进行研发和应用创新。
|
7月前
|
存储 自然语言处理 负载均衡
元象开源首个MoE大模型:4.2B激活参数,效果堪比13B模型,魔搭社区最佳实践来了
近日,元象发布其首个Moe大模型 XVERSE-MoE-A4.2B, 采用混合专家模型架构 (Mixture of Experts),激活参数4.2B,效果即可媲美13B模型。该模型全开源,无条件免费商用,支持中小企业、研究者和开发者可在元象高性能“全家桶”中按需选用,推动低成本部署。
|
7月前
|
人工智能 自然语言处理
浙大联合微软等提出全新视频编辑统一框架UniEdit
【2月更文挑战第13天】浙大联合微软等提出全新视频编辑统一框架UniEdit
64 2
浙大联合微软等提出全新视频编辑统一框架UniEdit
|
7月前
|
人工智能 异构计算
开源版哆啦A梦任意门:魔搭社区AnyDoor最佳实践
AnyDoor是一种基于扩散模型的图像生成模型,以非常和谐的方式将目标对象传送到用户制定位置的新场景的能力。过程中不需要为每个对象调整参数,只需要训练一次,并在推理阶段适用于各种不同的对象-场景组合。
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下(2)
清华朱军团队开源首个基于Transformer的多模态扩散大模型,文图互生、改写全拿下
234 0

热门文章

最新文章