在人工智能领域,图像合成技术一直是研究的热点。近年来,扩散模型(Diffusion Models)因其出色的图像生成能力而备受关注,尤其在高分辨率图像合成方面取得了显著进展。然而,这些模型在生成超出训练分辨率的图像时,常常面临着重复模式和结构失真的问题。为了解决这一挑战,来自多个研究机构的联合团队提出了一种新颖的方法——FouriScale,它通过频率域分析的视角,实现了在不同分辨率下生成结构一致性和尺度一致性的图像,且无需对模型进行重新训练。
FouriScale方法的核心在于两个关键技术:膨胀卷积(Dilated Convolution)和低通滤波(Low-pass Filtering)。通过在预训练的扩散模型中替换原有的卷积层,引入膨胀卷积技术,并结合低通操作,该方法能够在不同的分辨率下保持图像的结构完整性和尺度一致性。此外,研究团队还提出了一种填充后裁剪(Padding-then-Crop)策略,使得FouriScale能够灵活处理不同宽高比的文本到图像生成任务。
FouriScale的提出,为高分辨率图像的合成提供了一种训练免费、简单且兼容的解决方案。该方法不仅成功地平衡了生成图像的结构完整性和真实性,还展现出了生成任意尺寸、高分辨率和高质量图像的惊人能力。这一点在实验中得到了充分的验证,FouriScale在多个基准测试中取得了优异的成绩,尤其是在处理高宽比图像时的表现,更是超越了现有的一些方法。
然而,FouriScale方法也存在一些局限性。例如,在生成极高分辨率样本时,如4096×4096像素的图像,仍然会出现一些意外的伪影。此外,由于FouriScale主要针对卷积操作进行优化,这可能限制了它在纯基于变换器的扩散模型中的应用范围。尽管如此,FouriScale的提出无疑为未来超高清图像合成技术的发展提供了宝贵的经验和思路。