Adobe新研究0.11秒从草图生成图像-阿里云开发者社区

Adobe新研究0.11秒从草图生成图像

2024-03-22 109

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： Adobe Research和卡内基梅隆大学的研究团队开发了一项新技术，能在0.11秒内将创意草图转化为高质图像，突破了传统图像合成技术的速度和数据需求限制。采用单步图像翻译方法，结合对抗性学习，适应性调整网络以快速适应新控制信号。实验显示， CycleGAN-Turbo和pix2pix-Turbo模型在图像转换任务中表现优越，但仍有控制强度、负提示和高分辨率合成的局限。

在数字艺术和设计领域，将创意草图快速转换为逼真的视觉图像一直是艺术家和设计师的追求。近期，Adobe Research与卡内基梅隆大学的联合研究团队取得了重大进展，他们开发了一种能够在0.11秒内将草图转换为高质量图像的新技术。这一技术的问世，不仅极大地提高了图像生成的效率，更为图像合成领域的未来发展打开了新的可能性。

传统的图像合成技术，尤其是基于条件扩散模型的方法，虽然在生成高质量图像方面表现出色，但在实际应用中存在两大瓶颈。首先，扩散模型的迭代处理过程使得图像生成速度受限，难以满足实时应用的需求。其次，模型的训练往往依赖于大规模的成对数据集，这不仅成本高昂，而且在某些情况下难以实现。为了克服这些挑战，研究团队采用了一种全新的单步图像翻译方法，通过对抗性学习目标，实现了对预训练文本到图像模型的有效适配。

这项技术的核心在于一种新的生成器架构，它能够在保持输入图像结构的同时，显著减少模型的过拟合问题和微调所需的时间。研究者们利用了LoRA技术对原始网络进行适应性调整，使其能够快速适应新的控制信号和应用领域。此外，为了更好地保留输入图像的细节，他们在编码器和解码器之间引入了跳跃连接和零卷积技术，这一灵活的架构可以作为多种条件GAN学习目标的即插即用模型。

在实验中，研究团队的模型CycleGAN-Turbo在未配对的图像翻译任务上，如昼夜转换和天气效果的添加或移除，展现出了卓越的性能。与传统的基于GAN和基于扩散的方法相比，CycleGAN-Turbo在保持图像分布匹配和输入结构的同时，生成了更加逼真的图像。在配对设置中，他们的另一模型pix2pix-Turbo在单步推理中达到了与最新控制网络方法相当的性能。这些成果不仅展示了单步扩散模型的强大潜力，也为未来的图像合成任务提供了新的解决方案。

然而，尽管这项技术在图像合成领域取得了显著的进展，但它仍然存在一些局限性。例如，模型在生成过程中无法精确控制指导的强度，因为它的骨干模型SD-Turbo并不支持无分类器指导。此外，该方法尚不支持负提示，这是一种有效减少图像伪影的技术。最后，模型训练过程中的周期一致性损失计算是内存密集型的，这可能限制了其在更高分辨率图像合成中的应用。

论文地址：https://arxiv.org/pdf/2403.12036.pdf
试玩地址：https://huggingface.co/spaces/gparmar/img2img-turbo-sketch

Adobe新研究0.11秒从草图生成图像

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

Adobe新研究0.11秒从草图生成图像

热门文章

最新文章

相关课程

相关电子书

相关实验场景