华南理工TANGO项目原作解读: 文本驱动的三维物体风格化模型

本文涉及的产品
模型训练 PAI-DLC,100CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 华南理工TANGO项目原作解读: 文本驱动的三维物体风格化模型

根据给定输入创建 3D 内容(例如,根据文本提示、图像或 3D 形状)在计算机视觉和图形领域具有重要应用。现实中通常需要专业艺术(Technical Artist)耗费大量的时间成本去创作 3D 内容。

为了减少人力消耗,实现整个流程的自动化,华南理工等机构的研究人员提出了TANGO — 一种根据文本指导三维物体风格化的方法。这一领域目前最相关的工作是 Text2Mesh,它使用了预训练模型 CLIP 作为指导,预测三维模型表面顶点的颜色和位置偏移,从而实现风格化。然而简单地预测表面顶点颜色通常会产生不真实的渲染效果,且不规则的顶点偏移会造成很严重的自交。因此,该研究借鉴传统的基于物理的渲染管线,将整个渲染过程解耦为 SVBRDF 材质,法向贴图和灯光的预测过程,并分别用球高斯函数表达解耦的元素。这种基于物理的解耦方式使得 TANGO 可以正确产生具有真实感的渲染效果,并具有很好的鲁棒性。

对于给定的文本输入和三维模型,TANGO 可以产生精细程度较高的具有照片级真实感的细节,并且不会在三维模型表面产生自交问题。同时,得益于 TANGO对渲染方程的物理解耦,我们能够对材质进行编辑和重新打光,实现对输出结果的控制。另外,由于 TANGO 采用预测法向贴图的方式增添物体表面细节,因此对于顶点数较少的三维模型也有很好的鲁棒性。

机器之心最新一期线上分享邀请到了华南理工大学 Gorilla Lab 一年级博士生陈永炜(导师为贾奎教授),为大家解读他们提出的文本驱动三维模型风格化方法——TANGO。


分享主题:TANGO: 文本驱动的三维物体风格化模型

分享嘉宾:陈永炜,华南理工大学 Gorilla Lab 一年级博士生。师从贾奎教授,研究方向为三维视觉,多模态学习,可微渲染,扩散模型等,相关研究工作曾在 CVPR、ECCV、NeurIPS 等计算机视觉和人工智能顶级会议上发表

分享摘要:本次分享将介绍一种基于文本驱动的三维模型风格化方法——TANGO,该方法对于给定的三维模型和文本,可以自动生成更具有真实性的 SVBRDF 材质,法向贴图和灯光,并且对低质量三维模型有更好的鲁棒性。该研究已被 NeurIPS 2022 接收为 spotlight。

相关链接:

1)SOTA!模型平台项目主页链接:

https://sota.jiqizhixin.com/project/tango

2)论文链接:

https://arxiv.org/abs/2210.11277

3)项目主页:

https://cyw-3d.github.io/tango/

4)机器之心推文:

https://mp.weixin.qq.com/s/ZCD1wk9Ox_cs3bmCYtA1SA

相关文章
|
10月前
|
机器学习/深度学习 算法 数据可视化
一图胜千言:EBImage库分割和标注让你的图像说话
一图胜千言:EBImage库分割和标注让你的图像说话
265 0
|
7月前
|
数据可视化 数据管理 vr&ar
|
8月前
看张手绘草图就能合成图形程序,加州伯克利让扩散模型掌握新技能
【7月更文挑战第12天】加州伯克利研究团队利用神经扩散模型创新程序合成,通过在语法树上反向消除“噪声”实现迭代编辑,改善了传统LLMs自回归生成的局限性。这种方法能看手绘草图生成图形程序,结合搜索进行调试,适用于逆图形任务,性能优越,但目前仅支持有限的程序结构。[[arxiv:2405.20519](https://arxiv.org/pdf/2405.20519)]
55 2
|
9月前
|
数据采集 算法 安全
CVPR 2024:给NeRF开透视眼!稀疏视角下用X光进行三维重建,9类算法工具包全开源
【6月更文挑战第28天】CVPR 2024亮点:SAX-NeRF框架开源!融合X光与NeRF,提升3D重建效果。X3D数据集验证,Lineformer+MLG策略揭示物体内部结构,增强几何理解。虽有计算成本及泛化挑战,但为计算机视觉和医学影像开辟新路径。[论文链接](https://arxiv.org/abs/2311.10959)**
286 5
|
10月前
|
机器学习/深度学习 人工智能 PyTorch
极智AI | GAN应用于玻璃表面水珠样本生成
大家好,我是极智视界,本文介绍一下 GAN 应用于玻璃表面水珠样本生成的方法。
104 0
极智AI | GAN应用于玻璃表面水珠样本生成
|
人工智能 vr&ar 图形学
次世代建模纹理贴图怎么做?
高端的引擎技术、材质贴图技术、渲染技术,使得次世代模型有着比肩电影画面的视觉效果,且是实时渲染。而且次世代模型有着面数高、贴图精度高、运用法线贴图描绘物体表面凹凸变化、高光贴图表现物体材质反光、实时光影等特点。
165 2
|
人工智能 编解码 移动开发
NeRF基于线稿生成逼真三维人脸,细节风格随意改,论文已上SIGGRAPH
NeRF基于线稿生成逼真三维人脸,细节风格随意改,论文已上SIGGRAPH
488 0
|
计算机视觉
ELITE项目原作解读:基于扩散模型的快速定制化图像生成
ELITE项目原作解读:基于扩散模型的快速定制化图像生成
189 0
|
机器学习/深度学习 数据可视化 计算机视觉
NeurIPS 2022 | 一句话让三维模型生成逼真外观风格,精细到照片级细节
NeurIPS 2022 | 一句话让三维模型生成逼真外观风格,精细到照片级细节
164 0
|
机器学习/深度学习 编解码 人工智能
首篇BEV感知生成工作!BEVGen:从鸟瞰图布局生成环视街景图像
本文提出了BEVGen,这是一个条件生成式模型,它合成了一组真实且空间一致的环视图像,这些图像与交通场景的BEV布局相匹配。BEVGen结合了一种新颖的交叉视图转换和空间注意力设计,学习相机和地图视图之间的关系,以确保它们的一致性。BEVGen可以精确地渲染道路和车道线,以及在不同的天气条件和时间生成交通场景。
首篇BEV感知生成工作!BEVGen:从鸟瞰图布局生成环视街景图像

热门文章

最新文章