SIGGRAPH2024:上科大、影眸联合提出DressCode:从文本生成3D服装板片

简介: 【6月更文挑战第22天】SIGGRAPH2024见证了上海科技大学与影眸科技合作推出DressCode,这是一个利用文本生成3D服装板片的创新框架。借助SewingGPT(基于GPT模型),DressCode能根据描述创建缝纫图案,结合改良的Stable Diffusion模型产生逼真纹理。通过自然语言交互,设计师可轻松转换概念为3D设计,支持编辑和微调,适用于虚拟试穿等应用场景。尽管面临真实度与个性化挑战,DressCode仍展现了强大的设计潜力。[论文链接:](https://arxiv.org/abs/2401.16465)

在数字时代,虚拟现实和增强现实技术正在改变我们与世界互动的方式。作为数字人类创造的重要组成部分,服装的数字化也变得越来越重要。然而,尽管3D内容创作的最新进展令人振奋,但基于文本指导的服装生成仍然是一个新兴领域。

为了填补这一研究空白,上海科技大学和影眸科技的研究人员联合提出了一种名为DressCode的创新框架。DressCode旨在通过自然语言交互生成3D服装,为初学者和专业人士提供一种简单而强大的设计工具。

DressCode的核心是一个名为SewingGPT的架构,它基于流行的GPT(Generative Pre-trained Transformer)模型。SewingGPT通过将交叉注意力与文本条件嵌入相结合,能够根据文本描述生成服装的缝纫图案。这种能力使得DressCode成为一种强大的工具,可以帮助设计师将他们的想法转化为现实。

为了进一步增强DressCode的功能,研究人员还对一个预训练的Stable Diffusion模型进行了调整,以生成基于物理的渲染(PBR)纹理。这些纹理可以应用于生成的服装上,以创建逼真的外观。通过结合SewingGPT和调整后的Stable Diffusion模型,DressCode能够生成高质量的3D服装,这些服装可以用于虚拟试穿、数字人类创造和其他应用。

DressCode的一个关键优势是它能够通过自然语言交互生成3D服装。这意味着设计师和用户可以通过简单的文本描述来生成他们想要的服装。这种易用性使得DressCode成为一种强大的工具,可以帮助设计师和创作者将他们的想法转化为现实。

除了生成新的服装设计外,DressCode还能够帮助完成现有的缝纫图案并编辑纹理。这为设计师提供了更大的灵活性和控制力,使他们能够微调他们的设计以适应不同的需求和偏好。

尽管DressCode在许多方面都表现出色,但也存在一些潜在的局限性。首先,虽然DressCode能够生成高质量的3D服装,但这些服装可能并不总是符合现实世界的服装制作标准。例如,生成的服装可能需要进行一些调整才能在现实世界中制作出来。

其次,DressCode的易用性也可能是一个双刃剑。虽然它使得生成3D服装变得更加容易,但也可能导致设计变得过于简单化或缺乏个性。为了解决这个问题,未来的研究可以探索如何在保持易用性的同时增加设计的复杂性和个性。

论文链接:https://arxiv.org/abs/2401.16465

目录
打赏
0
7
7
0
396
分享
相关文章
MM-StoryAgent:交大阿里联合开源!多模态AI一键生成儿童故事绘本+配音
MM-StoryAgent 是上海交通大学与阿里巴巴联合推出的开源多模态、多智能体框架,用于生成沉浸式的有声故事绘本视频,支持文本、图像、语音等多种模态的生成与对齐。
107 7
MM-StoryAgent:交大阿里联合开源!多模态AI一键生成儿童故事绘本+配音
ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型
ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。
187 73
ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型
VMB:中科院联合多所高校推出多模态音乐生成框架,能够通过文本、图像和视频等多种输入生成音乐
VMB(Visuals Music Bridge)是由中科院联合多所高校机构推出的多模态音乐生成框架,能够从文本、图像和视频等多种输入模态生成音乐。该框架通过文本桥接和音乐桥接解决了数据稀缺、跨模态对齐弱和可控性有限的问题。
121 7
VMB:中科院联合多所高校推出多模态音乐生成框架,能够通过文本、图像和视频等多种输入生成音乐
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有高级模型。
89 0
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
视觉任务微调王道 | 国科大联合阿里巴巴提出Mona,让Adapter成为你的All Need
视觉任务微调王道 | 国科大联合阿里巴巴提出Mona,让Adapter成为你的All Need
236 1
跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)
跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)【2月更文挑战第1天】
 跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)
|
11月前
|
ChilloutMix几个模型的区别——专注东方面孔人像生成
ChilloutMix几个模型的区别——专注东方面孔人像生成
1215 0
中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源
中科院自动化所联合北方电子设备研究所提出多输入文本人脸合成方法,数据代码已开源
221 0

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等