Adobe新研究0.11秒从草图生成图像

简介: Adobe Research和卡内基梅隆大学的研究团队开发了一项新技术,能在0.11秒内将创意草图转化为高质图像,突破了传统图像合成技术的速度和数据需求限制。采用单步图像翻译方法,结合对抗性学习,适应性调整网络以快速适应新控制信号。实验显示, CycleGAN-Turbo和pix2pix-Turbo模型在图像转换任务中表现优越,但仍有控制强度、负提示和高分辨率合成的局限。

14.jpg
在数字艺术和设计领域,将创意草图快速转换为逼真的视觉图像一直是艺术家和设计师的追求。近期,Adobe Research与卡内基梅隆大学的联合研究团队取得了重大进展,他们开发了一种能够在0.11秒内将草图转换为高质量图像的新技术。这一技术的问世,不仅极大地提高了图像生成的效率,更为图像合成领域的未来发展打开了新的可能性。

传统的图像合成技术,尤其是基于条件扩散模型的方法,虽然在生成高质量图像方面表现出色,但在实际应用中存在两大瓶颈。首先,扩散模型的迭代处理过程使得图像生成速度受限,难以满足实时应用的需求。其次,模型的训练往往依赖于大规模的成对数据集,这不仅成本高昂,而且在某些情况下难以实现。为了克服这些挑战,研究团队采用了一种全新的单步图像翻译方法,通过对抗性学习目标,实现了对预训练文本到图像模型的有效适配。

这项技术的核心在于一种新的生成器架构,它能够在保持输入图像结构的同时,显著减少模型的过拟合问题和微调所需的时间。研究者们利用了LoRA技术对原始网络进行适应性调整,使其能够快速适应新的控制信号和应用领域。此外,为了更好地保留输入图像的细节,他们在编码器和解码器之间引入了跳跃连接和零卷积技术,这一灵活的架构可以作为多种条件GAN学习目标的即插即用模型。

在实验中,研究团队的模型CycleGAN-Turbo在未配对的图像翻译任务上,如昼夜转换和天气效果的添加或移除,展现出了卓越的性能。与传统的基于GAN和基于扩散的方法相比,CycleGAN-Turbo在保持图像分布匹配和输入结构的同时,生成了更加逼真的图像。在配对设置中,他们的另一模型pix2pix-Turbo在单步推理中达到了与最新控制网络方法相当的性能。这些成果不仅展示了单步扩散模型的强大潜力,也为未来的图像合成任务提供了新的解决方案。

然而,尽管这项技术在图像合成领域取得了显著的进展,但它仍然存在一些局限性。例如,模型在生成过程中无法精确控制指导的强度,因为它的骨干模型SD-Turbo并不支持无分类器指导。此外,该方法尚不支持负提示,这是一种有效减少图像伪影的技术。最后,模型训练过程中的周期一致性损失计算是内存密集型的,这可能限制了其在更高分辨率图像合成中的应用。

论文地址:https://arxiv.org/pdf/2403.12036.pdf
试玩地址:https://huggingface.co/spaces/gparmar/img2img-turbo-sketch

目录
相关文章
|
19天前
|
机器学习/深度学习 计算机视觉 UED
ECCV 2024:像ChatGPT一样,聊聊天就能实现三维场景编辑
【10月更文挑战第26天】CE3D是一种基于大型语言模型的新型三维场景编辑方法,通过简单的文本提示实现对三维场景的灵活编辑。它结合了大型语言模型和视觉专家模型,具备灵活性、可扩展性和易用性,能够理解用户意图并实现逼真的编辑效果。实验结果表明,CE3D在多种编辑任务中表现出色,但仍有提升空间。
11 4
|
2月前
|
机器学习/深度学习 人工智能 编解码
AI图像放大工具,图片放大无所不能
AI图像放大工具,如ESRGAN,对于提高由Stable Diffusion生成的AI图像质量至关重要。它们被广泛使用,以至于许多Stable Diffusion的图形用户界面(GUI)都内置了支持。
AI图像放大工具,图片放大无所不能
|
4月前
看张手绘草图就能合成图形程序,加州伯克利让扩散模型掌握新技能
【7月更文挑战第12天】加州伯克利研究团队利用神经扩散模型创新程序合成,通过在语法树上反向消除“噪声”实现迭代编辑,改善了传统LLMs自回归生成的局限性。这种方法能看手绘草图生成图形程序,结合搜索进行调试,适用于逆图形任务,性能优越,但目前仅支持有限的程序结构。[[arxiv:2405.20519](https://arxiv.org/pdf/2405.20519)]
40 2
|
人工智能 编解码 移动开发
NeRF基于线稿生成逼真三维人脸,细节风格随意改,论文已上SIGGRAPH
NeRF基于线稿生成逼真三维人脸,细节风格随意改,论文已上SIGGRAPH
461 0
|
前端开发
论文图形配色杂乱? 一键帮你轻松解决!
论文图形配色杂乱? 一键帮你轻松解决!
164 0
|
机器学习/深度学习 人工智能 计算机视觉
华南理工TANGO项目原作解读: 文本驱动的三维物体风格化模型
华南理工TANGO项目原作解读: 文本驱动的三维物体风格化模型
170 0
|
机器学习/深度学习 图计算 图形学
NeurIPS 2022 | 文本图片编辑新范式,单个模型实现多文本引导图像编辑
NeurIPS 2022 | 文本图片编辑新范式,单个模型实现多文本引导图像编辑
356 0
|
机器学习/深度学习 编解码 人工智能
首篇BEV感知生成工作!BEVGen:从鸟瞰图布局生成环视街景图像
本文提出了BEVGen,这是一个条件生成式模型,它合成了一组真实且空间一致的环视图像,这些图像与交通场景的BEV布局相匹配。BEVGen结合了一种新颖的交叉视图转换和空间注意力设计,学习相机和地图视图之间的关系,以确保它们的一致性。BEVGen可以精确地渲染道路和车道线,以及在不同的天气条件和时间生成交通场景。
首篇BEV感知生成工作!BEVGen:从鸟瞰图布局生成环视街景图像
|
机器学习/深度学习 编解码 算法
使用GAN绘制像素画,用机器学习的方式协助绘画者更快地完成作品(一)
使用GAN绘制像素画,用机器学习的方式协助绘画者更快地完成作品(一)
196 0
使用GAN绘制像素画,用机器学习的方式协助绘画者更快地完成作品(一)
|
机器学习/深度学习 算法 计算机视觉
使用GAN绘制像素画,用机器学习的方式协助绘画者更快地完成作品(三)
使用GAN绘制像素画,用机器学习的方式协助绘画者更快地完成作品(三)
207 0
使用GAN绘制像素画,用机器学习的方式协助绘画者更快地完成作品(三)