大赛概况
传统生成3D模型需3D美术建模师利用专业的建模软件手工构建,不仅制作周期长,人力成本也很高。现在魔搭上线了文本生成3D模型的能力,可以基于简单的文本描述中生成具体的 3D 模型,为设计师、游戏开发者和数字艺术家提供强大的工具。文生3D物在模型精细度、贴图完整性及物品多样性上,生成的物品效果行业领先,让人人都可以成为3D资产设计师,用文字来创造世界万物。
本次大赛旨在让大家通过魔搭文生3D的创空间应用,仅输出文本生成3D模型,我们会评选“最佳创意奖”Top10 以及“最佳传播奖”TOP3。
详情见活动专题页:
https://modelscope.cn/brand/view/Richdreamer?branch=0&tree=1
赛程安排
本赛道分为赛前准备、初赛和决赛三个阶段,具体安排和要求如下:
Step1创建模型
2024.1.12 截止
参赛者通过魔搭平台文生3D物创空间进行3D模型生成。(输入一段 Prompt 文本,等待 2 小时左右即可完成生成)
前往创空间生成趣味 3D 模型
链接:https://modelscope.cn/studios/Damo_XR_Lab/3D_AIGC/summary
Prompt 示意:
- A creative LEGO set depicting a crocodile with movable jaws and tail
- a group of dogs playing poker
- Simba, the lion cub from The Lion King, standing majestically on Pride Rock
- 一个香蕉打工人
- 一条比蝴蝶还大的迷人小龙,拥有精致的花朵般的翅膀
- 阿尔伯特·爱因斯坦穿着灰色西装骑着摩托车
Step2报名参赛并转发模型到社交平台
2024.1.12 截止
模型生成完成后,请挑选出你最满意的模型并前往报名平台报名参赛:
前往报名参赛
链接:https://survey.taobao.com/apps/zhiliao/QF9mC1__V
报名完成后,你也可以下载模型视频并分享到社交平台(浏览量最高的作品可以获得“最佳传播奖”哦)
视频下载位置如下(创空间页面):
Step3提交社交平台浏览量凭证
2024.1.12 截止
分享视频到社交平台后,扫描下方二维码加钉钉群, 并于 2014.1.12日前提交视频浏览量凭证(提交录屏或者社交平台链接作为凭证)。
Step4 公示并评选结果
2024.1.15-2024.1.20
我们将于 2024.1.15-2024.1.20 在活动页面公示 30 个入围作品,并由专家组评选出最终中奖的作品,包括两个奖项:
- “最佳创意奖”10 名:专家组投票决出最有创意作品 10 份,奖品为淘宝二十岁限定款淘公仔盲盒一个。
- “最佳传播奖”3 名:根据提交的视频浏览量凭证评选出浏览量最高的作品 3 份,奖品为价值¥3399 的拓竹 A1 Combo 打印机一台。
获奖情况将于2024.1.20 在本页面公示,奖品将会邮寄给获奖者。
技术探秘
将2D大模型蒸馏到3D模型是最近3D生成领域备受关注的研究方向之一。先前的方法通常通过从预训练的StableDiffusion模型中提取多视角信息,并利用SDS(Score Distillation Loss)进行优化,以获得NeRF(Neural Radiance Field)或DMTet(Differentiable Marching Tetrahedron)的三维表示。这些方法的改进包括改善SDS Loss、进行粗到精的优化以及增强3D表征等。现有方法主要分为两种不同的优化策略:一阶段方法和两阶段方法。一阶段方法(如DreamFusion)同时优化几何和纹理,而两阶段方法(如Fantasia3D)先优化几何,然后再优化纹理。相较于一阶段方法,两阶段方法解耦了几何和纹理的优化,使其更适用于几何编辑或纹理编辑,并能方便地与传统渲染管线接合。
然而,直接使用RGB进行几何优化存在歧义。因此,Fantasia3D方法在优化过程中非常不稳定,容易导致模型崩溃的问题。为了解决直接使用RGB SD优化几何带来的问题,我们专门设计了针对几何的大模型,用于约束几何的优化。此外,为了更好地解耦纹理建模中的光照和材质,我们训练了一个基于深度条件的Albedo 纹理大模型,用于约束PBR材质的albedo分量,从而减轻albedo分量中的光影扰动。
在几何大模型的构建方面,我们使用了当前最大的3D资产数据集Objaverse,以获取真实的法向-深度(Normal-Depth)2D数据,用于训练我们的几何大模型。在优化过程中,我们发现直接使用3D资产来训练大模型会导致大模型失去泛化能力,因此我们借助图像数据集LAION-2B来辅助优化我们的Normal-Depth大模型。对于纹理大模型的构建,我们渲染了Objaverse中的深度和纹理,并训练了一个基于深度条件的albedo大模型,来优化材质中的albedo分量。为了解决多视角问题(Janus Problem),我们使用了多视角的SD来同时优化模型的不同视角,从而有效的缓解了多视角问题。
最终,阿里巴巴通义实验室XR团队与港中深合作发布了两个几何大模型和一个纹理大模型,分别是ND-SD(Normal-DepthStable Diffusion)和ND-SD-MV(Multi-View Normal-Depth Stable Diffusion)的结合大模型,以及Depth-Condition Albedo 的纹理大模型。基于ND-SD和ND-SD-MV的成果,阿里巴巴通义实验室XR团队与港中深共同发布了名为RichDreamer的文本生成3D方案。RichDreamer能够生成具有丰富几何细节的三维模型,并经实验证明其想象力比以往的方法更强大。
下面我们介绍一下RichDreamer算法框架和核心贡献:
算法框架
核心贡献
1、在LAION 2B和Objaverse上面训练得到ND-SD、ND-SD-MV两个大模型,不但能够为Text-to-3D任务提供强几何先验,提升3D生成任务的几何精度,而且比以往的方法有更强的想象能力。
2、在材质生成部分,为了更好地解耦光照和材质,训练depth-condition Albedo大模型。在材质建模的时候我们固定住几何通过depth-condition 的albedo 大模型来约束PBR材质的albedo 分量,从而缓解了albedo 分量中的光影扰动。能够较好的支持relighting等下游任务。
精彩示例
04