SIGGRAPH2024:上科大、影眸联合提出DressCode:从文本生成3D服装板片

简介: 【6月更文挑战第22天】SIGGRAPH2024见证了上海科技大学与影眸科技合作推出DressCode,这是一个利用文本生成3D服装板片的创新框架。借助SewingGPT(基于GPT模型),DressCode能根据描述创建缝纫图案,结合改良的Stable Diffusion模型产生逼真纹理。通过自然语言交互,设计师可轻松转换概念为3D设计,支持编辑和微调,适用于虚拟试穿等应用场景。尽管面临真实度与个性化挑战,DressCode仍展现了强大的设计潜力。[论文链接:](https://arxiv.org/abs/2401.16465)

在数字时代,虚拟现实和增强现实技术正在改变我们与世界互动的方式。作为数字人类创造的重要组成部分,服装的数字化也变得越来越重要。然而,尽管3D内容创作的最新进展令人振奋,但基于文本指导的服装生成仍然是一个新兴领域。

为了填补这一研究空白,上海科技大学和影眸科技的研究人员联合提出了一种名为DressCode的创新框架。DressCode旨在通过自然语言交互生成3D服装,为初学者和专业人士提供一种简单而强大的设计工具。

DressCode的核心是一个名为SewingGPT的架构,它基于流行的GPT(Generative Pre-trained Transformer)模型。SewingGPT通过将交叉注意力与文本条件嵌入相结合,能够根据文本描述生成服装的缝纫图案。这种能力使得DressCode成为一种强大的工具,可以帮助设计师将他们的想法转化为现实。

为了进一步增强DressCode的功能,研究人员还对一个预训练的Stable Diffusion模型进行了调整,以生成基于物理的渲染(PBR)纹理。这些纹理可以应用于生成的服装上,以创建逼真的外观。通过结合SewingGPT和调整后的Stable Diffusion模型,DressCode能够生成高质量的3D服装,这些服装可以用于虚拟试穿、数字人类创造和其他应用。

DressCode的一个关键优势是它能够通过自然语言交互生成3D服装。这意味着设计师和用户可以通过简单的文本描述来生成他们想要的服装。这种易用性使得DressCode成为一种强大的工具,可以帮助设计师和创作者将他们的想法转化为现实。

除了生成新的服装设计外,DressCode还能够帮助完成现有的缝纫图案并编辑纹理。这为设计师提供了更大的灵活性和控制力,使他们能够微调他们的设计以适应不同的需求和偏好。

尽管DressCode在许多方面都表现出色,但也存在一些潜在的局限性。首先,虽然DressCode能够生成高质量的3D服装,但这些服装可能并不总是符合现实世界的服装制作标准。例如,生成的服装可能需要进行一些调整才能在现实世界中制作出来。

其次,DressCode的易用性也可能是一个双刃剑。虽然它使得生成3D服装变得更加容易,但也可能导致设计变得过于简单化或缺乏个性。为了解决这个问题,未来的研究可以探索如何在保持易用性的同时增加设计的复杂性和个性。

论文链接:https://arxiv.org/abs/2401.16465

目录
相关文章
|
15天前
|
机器学习/深度学习 人工智能 计算机视觉
ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型
ConsisID是由北京大学和鹏城实验室等机构联合推出的文本到视频生成模型,专注于保持视频中人物身份的一致性。该模型采用频率分解技术和免调优的Diffusion Transformer架构,能够在多个评估维度上超越现有技术,推动身份一致性视频生成技术的发展。
134 73
ConsisID:北大联合鹏城实验室等机构推出的文本到视频生成模型
|
7月前
|
机器学习/深度学习 人工智能 算法
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
【4月更文挑战第12天】斯坦福大学研究团队在Nature子刊发表论文,展示人工智能如何从300亿个分子中筛选出6种新型抗生素候选分子,为抗药性问题提供新解决方案。利用深度学习算法,AI模型考虑化学结构及合成可行性,发现独特化合物,加速药物研发。然而,成功应用还需临床试验验证及克服安全性和耐药性挑战。AI技术在药物设计中的角色引起关注,强调平衡使用与基础科学研究的重要性。
63 1
从300亿分子中筛出6款,结构新且易合成,斯坦福抗生素设计AI模型登Nature子刊
|
2天前
|
机器学习/深度学习 人工智能 自然语言处理
VMB:中科院联合多所高校推出多模态音乐生成框架,能够通过文本、图像和视频等多种输入生成音乐
VMB(Visuals Music Bridge)是由中科院联合多所高校机构推出的多模态音乐生成框架,能够从文本、图像和视频等多种输入模态生成音乐。该框架通过文本桥接和音乐桥接解决了数据稀缺、跨模态对齐弱和可控性有限的问题。
27 7
VMB:中科院联合多所高校推出多模态音乐生成框架,能够通过文本、图像和视频等多种输入生成音乐
|
16天前
|
人工智能 编解码 自动驾驶
MagicDriveDiT:华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法
MagicDriveDiT是由华为联合港中文等机构推出的一种新型自动驾驶高分辨率长视频生成方法。该方法基于DiT架构,通过流匹配增强模型的可扩展性,并采用渐进式训练策略处理复杂场景。MagicDriveDiT能够生成高分辨率的长视频,提供对视频内容的精确控制,适用于自动驾驶系统的测试与验证、感知模型训练、场景重建与模拟以及数据增强等多个应用场景。
69 17
MagicDriveDiT:华为联合港中文等机构推出的自动驾驶高分辨率长视频生成方法
|
22天前
|
人工智能 API
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
EvolveDirector是由阿里巴巴和南洋理工大学联合推出的文本到图像生成模型的高效训练技术。该框架通过与高级模型的API交互获取数据对,并利用预训练的大型视觉语言模型(VLMs)动态优化训练数据集,显著减少了数据量和训练成本。EvolveDirector能够从多个高级模型中选择最佳样本进行学习,使最终训练出的模型在多个方面超越现有高级模型。
39 0
EvolveDirector:阿里联合南洋理工推出文本到图像生成模型的高效训练技术
|
4月前
|
算法
ECCV 2024:盲视频去闪烁通用方法BlazeBVD来了,美图&国科大联合提出
【8月更文挑战第15天】随着多媒体的兴起,视频成为信息传播的关键媒介,但视频中的闪烁问题影响观看体验。美图与中国科学院大学联合研发的BlazeBVD算法,采用直方图辅助方法简化学习过程,提高了视频去闪烁的质量与速度。该算法通过2D网络恢复纹理,3D网络修正时间一致性,实现了高效能与高保真度。实验结果显示,BlazeBVD在多种视频类型上表现优秀,推理速度提升显著。尽管如此,算法在处理局部闪烁和复杂场景时仍存在局限性,未来有进一步优化的空间。[论文链接](https://arxiv.org/pdf/2403.06243v1)
77 1
|
7月前
|
机器学习/深度学习 存储 自然语言处理
视觉任务微调王道 | 国科大联合阿里巴巴提出Mona,让Adapter成为你的All Need
视觉任务微调王道 | 国科大联合阿里巴巴提出Mona,让Adapter成为你的All Need
193 1
|
7月前
|
数据采集 人工智能 JSON
跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)
跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)【2月更文挑战第1天】
 跨越千年医学对话:用AI技术解锁中医古籍知识,构建能够精准问答的智能语言模型,成就专业级古籍解读助手(LLAMA)
|
文字识别 自然语言处理 算法
CVPR 2022 | 关注文本阅读顺序,蚂蚁集团、上海交通大学提出多模态文档理解模型XYLayoutLM
CVPR 2022 | 关注文本阅读顺序,蚂蚁集团、上海交通大学提出多模态文档理解模型XYLayoutLM
276 0
|
机器学习/深度学习 人工智能 数据可视化
CVPR 2022 | 北大、腾讯提出文字logo生成模型,脑洞大开堪比设计师
CVPR 2022 | 北大、腾讯提出文字logo生成模型,脑洞大开堪比设计师
232 0