Adobe新研究0.11秒从草图生成图像

简介: Adobe Research和卡内基梅隆大学的研究团队开发了一项新技术,能在0.11秒内将创意草图转化为高质图像,突破了传统图像合成技术的速度和数据需求限制。采用单步图像翻译方法,结合对抗性学习,适应性调整网络以快速适应新控制信号。实验显示, CycleGAN-Turbo和pix2pix-Turbo模型在图像转换任务中表现优越,但仍有控制强度、负提示和高分辨率合成的局限。

14.jpg
在数字艺术和设计领域,将创意草图快速转换为逼真的视觉图像一直是艺术家和设计师的追求。近期,Adobe Research与卡内基梅隆大学的联合研究团队取得了重大进展,他们开发了一种能够在0.11秒内将草图转换为高质量图像的新技术。这一技术的问世,不仅极大地提高了图像生成的效率,更为图像合成领域的未来发展打开了新的可能性。

传统的图像合成技术,尤其是基于条件扩散模型的方法,虽然在生成高质量图像方面表现出色,但在实际应用中存在两大瓶颈。首先,扩散模型的迭代处理过程使得图像生成速度受限,难以满足实时应用的需求。其次,模型的训练往往依赖于大规模的成对数据集,这不仅成本高昂,而且在某些情况下难以实现。为了克服这些挑战,研究团队采用了一种全新的单步图像翻译方法,通过对抗性学习目标,实现了对预训练文本到图像模型的有效适配。

这项技术的核心在于一种新的生成器架构,它能够在保持输入图像结构的同时,显著减少模型的过拟合问题和微调所需的时间。研究者们利用了LoRA技术对原始网络进行适应性调整,使其能够快速适应新的控制信号和应用领域。此外,为了更好地保留输入图像的细节,他们在编码器和解码器之间引入了跳跃连接和零卷积技术,这一灵活的架构可以作为多种条件GAN学习目标的即插即用模型。

在实验中,研究团队的模型CycleGAN-Turbo在未配对的图像翻译任务上,如昼夜转换和天气效果的添加或移除,展现出了卓越的性能。与传统的基于GAN和基于扩散的方法相比,CycleGAN-Turbo在保持图像分布匹配和输入结构的同时,生成了更加逼真的图像。在配对设置中,他们的另一模型pix2pix-Turbo在单步推理中达到了与最新控制网络方法相当的性能。这些成果不仅展示了单步扩散模型的强大潜力,也为未来的图像合成任务提供了新的解决方案。

然而,尽管这项技术在图像合成领域取得了显著的进展,但它仍然存在一些局限性。例如,模型在生成过程中无法精确控制指导的强度,因为它的骨干模型SD-Turbo并不支持无分类器指导。此外,该方法尚不支持负提示,这是一种有效减少图像伪影的技术。最后,模型训练过程中的周期一致性损失计算是内存密集型的,这可能限制了其在更高分辨率图像合成中的应用。

论文地址:https://arxiv.org/pdf/2403.12036.pdf
试玩地址:https://huggingface.co/spaces/gparmar/img2img-turbo-sketch

目录
相关文章
|
人工智能 前端开发 Serverless
【图生图】一键部署3D卡通风格模型
本实验将3D卡通风格图像开源模型部署在阿里云函数计算上,让您可以把人物图像实时处理成3D卡通版图像,快来为自己生成可爱的3D卡通风格头像吧!本实验答疑钉钉群:29290019867。
|
Java 开发工具 Android开发
OpenCV(一):Android studio jni配置OpenCV(亲测有效,保姆级)
OpenCV(一):Android studio jni配置OpenCV(亲测有效,保姆级)
2166 0
|
9月前
|
机器学习/深度学习 测试技术 计算机视觉
RT-DETR改进策略【Conv和Transformer】| ICCV-2023 iRMB 倒置残差移动块 轻量化的注意力模块
RT-DETR改进策略【Conv和Transformer】| ICCV-2023 iRMB 倒置残差移动块 轻量化的注意力模块
226 14
RT-DETR改进策略【Conv和Transformer】| ICCV-2023 iRMB 倒置残差移动块 轻量化的注意力模块
|
8月前
|
Linux
Linux:守护进程(进程组、会话和守护进程)
守护进程在 Linux 系统中扮演着重要角色,通过后台执行关键任务和服务,确保系统的稳定运行。理解进程组和会话的概念,是正确创建和管理守护进程的基础。使用现代的 `systemd` 或传统的 `init.d` 方法,可以有效地管理守护进程,提升系统的可靠性和可维护性。希望本文能帮助读者深入理解并掌握 Linux 守护进程的相关知识。
425 7
|
Java Android开发
Eclipse启动报错:org.eclipse.e4.core.di.InjectionException: java.lang.NoClassDefFoundError: javax/annotat
Eclipse启动报错:org.eclipse.e4.core.di.InjectionException: java.lang.NoClassDefFoundError: javax/annotat
1086 0
Eclipse启动报错:org.eclipse.e4.core.di.InjectionException: java.lang.NoClassDefFoundError: javax/annotat
|
Rust Python
Python 解析 toml 配置文件
Python 解析 toml 配置文件
509 1
|
Android开发 C++
so兼容32位和64位
在Android开发中遇到32位`xxx.so`动态库在64位设备上运行失败的问题,导致应用崩溃。错误提示因缺少64位版本的库。尝试创建`arm64-v8a`目录并复制库文件后,依然崩溃,因为库本身是32位。解决方案是在`build.gradle`中添加配置,指定支持的ABI滤镜,并在`gradle.properties`中设置`android.useDeprecatedNdk=true`,以解决兼容性问题。
500 7
|
移动开发 前端开发 JavaScript
分享8个前端可以制作360度WebVr全景视图框架
分享8个前端可以制作360度WebVr全景视图框架
2396 0
分享8个前端可以制作360度WebVr全景视图框架
|
机器学习/深度学习 人工智能 算法
Stable Diffusion中的常用术语解析
在使用stable diffusion的过程中,你会听到很多术语,是不是很迷茫这些词到底是做什么的?不用怕,看这篇文件就够了。
|
编解码 前端开发 JavaScript
渐进增强与优雅降级:提升用户体验的双重策略
渐进增强与优雅降级:提升用户体验的双重策略
渐进增强与优雅降级:提升用户体验的双重策略