SIGGRAPH2024:上科大、影眸联合提出DressCode:从文本生成3D服装板片

简介: 【6月更文挑战第22天】SIGGRAPH2024见证了上海科技大学与影眸科技合作推出DressCode,这是一个利用文本生成3D服装板片的创新框架。借助SewingGPT(基于GPT模型),DressCode能根据描述创建缝纫图案,结合改良的Stable Diffusion模型产生逼真纹理。通过自然语言交互,设计师可轻松转换概念为3D设计,支持编辑和微调,适用于虚拟试穿等应用场景。尽管面临真实度与个性化挑战,DressCode仍展现了强大的设计潜力。[论文链接:](https://arxiv.org/abs/2401.16465)

在数字时代,虚拟现实和增强现实技术正在改变我们与世界互动的方式。作为数字人类创造的重要组成部分,服装的数字化也变得越来越重要。然而,尽管3D内容创作的最新进展令人振奋,但基于文本指导的服装生成仍然是一个新兴领域。

为了填补这一研究空白,上海科技大学和影眸科技的研究人员联合提出了一种名为DressCode的创新框架。DressCode旨在通过自然语言交互生成3D服装,为初学者和专业人士提供一种简单而强大的设计工具。

DressCode的核心是一个名为SewingGPT的架构,它基于流行的GPT(Generative Pre-trained Transformer)模型。SewingGPT通过将交叉注意力与文本条件嵌入相结合,能够根据文本描述生成服装的缝纫图案。这种能力使得DressCode成为一种强大的工具,可以帮助设计师将他们的想法转化为现实。

为了进一步增强DressCode的功能,研究人员还对一个预训练的Stable Diffusion模型进行了调整,以生成基于物理的渲染(PBR)纹理。这些纹理可以应用于生成的服装上,以创建逼真的外观。通过结合SewingGPT和调整后的Stable Diffusion模型,DressCode能够生成高质量的3D服装,这些服装可以用于虚拟试穿、数字人类创造和其他应用。

DressCode的一个关键优势是它能够通过自然语言交互生成3D服装。这意味着设计师和用户可以通过简单的文本描述来生成他们想要的服装。这种易用性使得DressCode成为一种强大的工具,可以帮助设计师和创作者将他们的想法转化为现实。

除了生成新的服装设计外,DressCode还能够帮助完成现有的缝纫图案并编辑纹理。这为设计师提供了更大的灵活性和控制力,使他们能够微调他们的设计以适应不同的需求和偏好。

尽管DressCode在许多方面都表现出色,但也存在一些潜在的局限性。首先,虽然DressCode能够生成高质量的3D服装,但这些服装可能并不总是符合现实世界的服装制作标准。例如,生成的服装可能需要进行一些调整才能在现实世界中制作出来。

其次,DressCode的易用性也可能是一个双刃剑。虽然它使得生成3D服装变得更加容易,但也可能导致设计变得过于简单化或缺乏个性。为了解决这个问题,未来的研究可以探索如何在保持易用性的同时增加设计的复杂性和个性。

论文链接:https://arxiv.org/abs/2401.16465

目录
打赏
0
7
7
0
396
分享
相关文章
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
ChildMandarin是由智源研究院与南开大学联合推出的开源语音数据集,包含41.25小时3-5岁儿童普通话语音数据,覆盖中国22个省级行政区,为儿童语音识别和语言发展研究提供高质量数据支持。
107 20
AI终于能听懂宝宝说话了!ChildMandarin:智源研究院开源的低幼儿童中文语音数据集,覆盖22省方言
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
NotaGen 是由中央音乐学院、北京航空航天大学、清华大学等机构联合推出的音乐生成模型,基于模仿大型语言模型的训练范式,能够生成高质量的古典乐谱。该模型通过预训练、微调和强化学习相结合的方式,显著提升了符号音乐生成的艺术性和可控性。
348 15
NotaGen:中央音乐学院联合清华推出AI音乐生成模型,古典乐谱一键生成,音乐性接近人类!
ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型
ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。
194 73
ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型
VMB:中科院联合多所高校推出多模态音乐生成框架,能够通过文本、图像和视频等多种输入生成音乐
VMB(Visuals Music Bridge)是由中科院联合多所高校机构推出的多模态音乐生成框架,能够从文本、图像和视频等多种输入模态生成音乐。该框架通过文本桥接和音乐桥接解决了数据稀缺、跨模态对齐弱和可控性有限的问题。
133 7
VMB:中科院联合多所高校推出多模态音乐生成框架,能够通过文本、图像和视频等多种输入生成音乐
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有高级模型。
102 0
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
无表情人脸预测政治信仰,AI准确率惊人!斯坦福研究登国际顶刊
【8月更文挑战第10天】斯坦福大学的研究揭示了面部识别技术的新应用:通过分析无表情人脸图片预测政治倾向。研究在《American Psychologist》发表,表明人类评估者与AI均能在控制人口统计学特征的情况下准确预测政治取向,相关系数分别为0.21和0.22。利用年龄、性别和种族信息时,算法准确性提升至0.31。研究还发现保守派倾向于有更大的下半部面部。尽管成果引人注目,但其局限性和潜在的隐私问题仍需审慎考量。
215 62
300多篇相关研究,复旦、南洋理工最新多模态图像编辑综述论文
【7月更文挑战第11天】复旦、南洋理工联合研究综述了多模态图像编辑,聚焦T2I扩散模型在融合多种输入模式、保持图像真实性和用户友好性方面的挑战与解决方案。论文探讨统一编辑框架,分析算法组件,指出技术进步及未来方向,同时警示伦理和社会影响。[链接:https://arxiv.org/abs/2406.14555]
82 1
CVPR 2024:文本一键转3D数字人骨骼动画,阿尔伯塔大学提出MoMask框架
【5月更文挑战第12天】CVPR 2024将展出阿尔伯塔大学的MoMask框架,该框架创新性地将文本转化为3D数字人骨骼动画,推动计算机图形学和动画制作的发展。MoMask结合NLP和计算机视觉,由文本编码器解析输入文本,动作生成器则将其转化为骨骼动画。该技术提升动画制作效率,降低门槛,但面临训练数据需求大和生成动画可能有偏差的挑战。[论文链接](https://arxiv.org/abs/2312.00063)
215 2
视觉任务微调王道 | 国科大联合阿里巴巴提出Mona,让Adapter成为你的All Need
视觉任务微调王道 | 国科大联合阿里巴巴提出Mona,让Adapter成为你的All Need
242 1
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
华为诺亚实验室提出CFT | 大模型打压下语义分割该何去何从?或许这就是答案!
136 0