在数字艺术和设计领域,将创意草图快速转换为逼真的视觉图像一直是艺术家和设计师的追求。近期,Adobe Research与卡内基梅隆大学的联合研究团队取得了重大进展,他们开发了一种能够在0.11秒内将草图转换为高质量图像的新技术。这一技术的问世,不仅极大地提高了图像生成的效率,更为图像合成领域的未来发展打开了新的可能性。
传统的图像合成技术,尤其是基于条件扩散模型的方法,虽然在生成高质量图像方面表现出色,但在实际应用中存在两大瓶颈。首先,扩散模型的迭代处理过程使得图像生成速度受限,难以满足实时应用的需求。其次,模型的训练往往依赖于大规模的成对数据集,这不仅成本高昂,而且在某些情况下难以实现。为了克服这些挑战,研究团队采用了一种全新的单步图像翻译方法,通过对抗性学习目标,实现了对预训练文本到图像模型的有效适配。
这项技术的核心在于一种新的生成器架构,它能够在保持输入图像结构的同时,显著减少模型的过拟合问题和微调所需的时间。研究者们利用了LoRA技术对原始网络进行适应性调整,使其能够快速适应新的控制信号和应用领域。此外,为了更好地保留输入图像的细节,他们在编码器和解码器之间引入了跳跃连接和零卷积技术,这一灵活的架构可以作为多种条件GAN学习目标的即插即用模型。
在实验中,研究团队的模型CycleGAN-Turbo在未配对的图像翻译任务上,如昼夜转换和天气效果的添加或移除,展现出了卓越的性能。与传统的基于GAN和基于扩散的方法相比,CycleGAN-Turbo在保持图像分布匹配和输入结构的同时,生成了更加逼真的图像。在配对设置中,他们的另一模型pix2pix-Turbo在单步推理中达到了与最新控制网络方法相当的性能。这些成果不仅展示了单步扩散模型的强大潜力,也为未来的图像合成任务提供了新的解决方案。
然而,尽管这项技术在图像合成领域取得了显著的进展,但它仍然存在一些局限性。例如,模型在生成过程中无法精确控制指导的强度,因为它的骨干模型SD-Turbo并不支持无分类器指导。此外,该方法尚不支持负提示,这是一种有效减少图像伪影的技术。最后,模型训练过程中的周期一致性损失计算是内存密集型的,这可能限制了其在更高分辨率图像合成中的应用。
论文地址:https://arxiv.org/pdf/2403.12036.pdf
试玩地址:https://huggingface.co/spaces/gparmar/img2img-turbo-sketch