无需训练,这个新方法实现了生成图像尺寸、分辨率自由

简介: 【4月更文挑战第25天】研究人员提出FouriScale方法,解决了扩散模型在生成高分辨率图像时的结构失真问题。通过膨胀卷积和低通滤波,该方法实现不同分辨率下图像的结构和尺度一致性,无需重新训练模型。实验显示FouriScale在保持图像真实性和完整性的同时,能生成任意尺寸的高质量图像,尤其在处理高宽比图像时表现出色。尽管在极高分辨率生成上仍有局限,但为超高清图像合成技术提供了新思路。[链接: https://arxiv.org/abs/2403.12963]

在人工智能领域,图像合成技术一直是研究的热点。近年来,扩散模型(Diffusion Models)因其出色的图像生成能力而备受关注,尤其在高分辨率图像合成方面取得了显著进展。然而,这些模型在生成超出训练分辨率的图像时,常常面临着重复模式和结构失真的问题。为了解决这一挑战,来自多个研究机构的联合团队提出了一种新颖的方法——FouriScale,它通过频率域分析的视角,实现了在不同分辨率下生成结构一致性和尺度一致性的图像,且无需对模型进行重新训练。

FouriScale方法的核心在于两个关键技术:膨胀卷积(Dilated Convolution)和低通滤波(Low-pass Filtering)。通过在预训练的扩散模型中替换原有的卷积层,引入膨胀卷积技术,并结合低通操作,该方法能够在不同的分辨率下保持图像的结构完整性和尺度一致性。此外,研究团队还提出了一种填充后裁剪(Padding-then-Crop)策略,使得FouriScale能够灵活处理不同宽高比的文本到图像生成任务。

FouriScale的提出,为高分辨率图像的合成提供了一种训练免费、简单且兼容的解决方案。该方法不仅成功地平衡了生成图像的结构完整性和真实性,还展现出了生成任意尺寸、高分辨率和高质量图像的惊人能力。这一点在实验中得到了充分的验证,FouriScale在多个基准测试中取得了优异的成绩,尤其是在处理高宽比图像时的表现,更是超越了现有的一些方法。

然而,FouriScale方法也存在一些局限性。例如,在生成极高分辨率样本时,如4096×4096像素的图像,仍然会出现一些意外的伪影。此外,由于FouriScale主要针对卷积操作进行优化,这可能限制了它在纯基于变换器的扩散模型中的应用范围。尽管如此,FouriScale的提出无疑为未来超高清图像合成技术的发展提供了宝贵的经验和思路。

论文地址:https://arxiv.org/abs/2403.12963

目录
相关文章
|
机器学习/深度学习 传感器 算法
【交互式阈值二进制图像】采用彩色或单色图像通过交互/手动方式阈值单色图像或彩色图像的单个色带研究(Matlab代码实现)
【交互式阈值二进制图像】采用彩色或单色图像通过交互/手动方式阈值单色图像或彩色图像的单个色带研究(Matlab代码实现)
4.为模型增加贴图
4.为模型增加贴图
328 0
|
机器学习/深度学习
深度学习数据增强方法-内含(亮度增强,对比度增强,旋转图图像,翻转图像,仿射变化扩充图像,错切变化扩充图像,HSV数据增强)七种方式进行增强-每种扩充一张实现7倍扩)+ 图像缩放代码-批量
深度学习数据增强方法-内含(亮度增强,对比度增强,旋转图图像,翻转图像,仿射变化扩充图像,错切变化扩充图像,HSV数据增强)七种方式进行增强-每种扩充一张实现7倍扩)+ 图像缩放代码-批量
|
21天前
|
编解码 人工智能 开发者
长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx
【10月更文挑战第23天】Oryx 是一种新型多模态架构,能够灵活处理各种分辨率的图像和视频数据。其核心创新在于能够对图像和视频进行任意分辨率编码,并通过动态压缩器模块提高处理效率。Oryx 在处理长视觉上下文(如视频)时表现出色,同时在图像、视频和3D多模态理解方面也展现了强大能力。该模型的开源性质为多模态研究社区提供了宝贵资源,但同时也面临一些挑战,如选择合适的分辨率和压缩率以及计算资源的需求。
28 3
|
4月前
|
容器
软件开发常见流程之物理像素导致图片变形问题如何解决,先把图缩放为原先的两倍,再缩放,利用Cutterman生成矢量图
软件开发常见流程之物理像素导致图片变形问题如何解决,先把图缩放为原先的两倍,再缩放,利用Cutterman生成矢量图
|
6月前
|
编解码 算法 图形学
LabVIEW中调整图像大小
LabVIEW中调整图像大小
78 0
|
6月前
|
机器学习/深度学习 编解码 异构计算
ELAN:用于图像超分辨率的高效远程注意力网络
ELAN:用于图像超分辨率的高效远程注意力网络
160 1
|
机器学习/深度学习 传感器 算法
【视频处理】通过调用图像来重建新影片及计算颜色通道的平均灰度值,并检测帧与前一帧之间的差异(Matlab代码实现)
【视频处理】通过调用图像来重建新影片及计算颜色通道的平均灰度值,并检测帧与前一帧之间的差异(Matlab代码实现)
|
编解码 人工智能 移动开发
AIGC图像分辨率太低?快来试试像素感知扩散超分模型,你想要的细节都在这里
阿里巴巴最新自研的像素感知扩散超分模型已经开源,它把扩散模型强大的生成能力和像素级控制能力相结合,能够适应从老照片修复到AIGC图像超分的各种图像增强任务和各种图像风格,并且能够控制生成强度和增强风格。这项技术的直接应用之一是AIGC图像的后处理增强和二次生成,能够带来可观的效果提升。
861 4
|
自然语言处理 算法 测试技术
参数减半、与CLIP一样好,视觉Transformer从像素入手实现图像文本统一
参数减半、与CLIP一样好,视觉Transformer从像素入手实现图像文本统一
127 0