无需训练,这个新方法实现了生成图像尺寸、分辨率自由

简介: 【4月更文挑战第25天】研究人员提出FouriScale方法,解决了扩散模型在生成高分辨率图像时的结构失真问题。通过膨胀卷积和低通滤波,该方法实现不同分辨率下图像的结构和尺度一致性,无需重新训练模型。实验显示FouriScale在保持图像真实性和完整性的同时,能生成任意尺寸的高质量图像,尤其在处理高宽比图像时表现出色。尽管在极高分辨率生成上仍有局限,但为超高清图像合成技术提供了新思路。[链接: https://arxiv.org/abs/2403.12963]

在人工智能领域,图像合成技术一直是研究的热点。近年来,扩散模型(Diffusion Models)因其出色的图像生成能力而备受关注,尤其在高分辨率图像合成方面取得了显著进展。然而,这些模型在生成超出训练分辨率的图像时,常常面临着重复模式和结构失真的问题。为了解决这一挑战,来自多个研究机构的联合团队提出了一种新颖的方法——FouriScale,它通过频率域分析的视角,实现了在不同分辨率下生成结构一致性和尺度一致性的图像,且无需对模型进行重新训练。

FouriScale方法的核心在于两个关键技术:膨胀卷积(Dilated Convolution)和低通滤波(Low-pass Filtering)。通过在预训练的扩散模型中替换原有的卷积层,引入膨胀卷积技术,并结合低通操作,该方法能够在不同的分辨率下保持图像的结构完整性和尺度一致性。此外,研究团队还提出了一种填充后裁剪(Padding-then-Crop)策略,使得FouriScale能够灵活处理不同宽高比的文本到图像生成任务。

FouriScale的提出,为高分辨率图像的合成提供了一种训练免费、简单且兼容的解决方案。该方法不仅成功地平衡了生成图像的结构完整性和真实性,还展现出了生成任意尺寸、高分辨率和高质量图像的惊人能力。这一点在实验中得到了充分的验证,FouriScale在多个基准测试中取得了优异的成绩,尤其是在处理高宽比图像时的表现,更是超越了现有的一些方法。

然而,FouriScale方法也存在一些局限性。例如,在生成极高分辨率样本时,如4096×4096像素的图像,仍然会出现一些意外的伪影。此外,由于FouriScale主要针对卷积操作进行优化,这可能限制了它在纯基于变换器的扩散模型中的应用范围。尽管如此,FouriScale的提出无疑为未来超高清图像合成技术的发展提供了宝贵的经验和思路。

论文地址:https://arxiv.org/abs/2403.12963

目录
相关文章
4.为模型增加贴图
4.为模型增加贴图
336 0
|
9天前
|
编解码 人工智能
FreeScale:无需微调即可提升模型的图像生成能力,生成 8K 分辨率的高质量图像
FreeScale是一个无需微调的推理框架,旨在提升扩散模型生成高分辨率图像和视频的能力。该框架通过处理和融合不同尺度的信息,首次实现了8K分辨率图像的生成,显著提高了生成内容的质量和保真度,同时减少了推理时间。
54 20
FreeScale:无需微调即可提升模型的图像生成能力,生成 8K 分辨率的高质量图像
|
机器学习/深度学习
深度学习数据增强方法-内含(亮度增强,对比度增强,旋转图图像,翻转图像,仿射变化扩充图像,错切变化扩充图像,HSV数据增强)七种方式进行增强-每种扩充一张实现7倍扩)+ 图像缩放代码-批量
深度学习数据增强方法-内含(亮度增强,对比度增强,旋转图图像,翻转图像,仿射变化扩充图像,错切变化扩充图像,HSV数据增强)七种方式进行增强-每种扩充一张实现7倍扩)+ 图像缩放代码-批量
|
2月前
|
计算机视觉 Python
目标检测笔记(四):自适应缩放技术Letterbox完整代码和结果展示
自适应缩放技术Letterbox通过计算缩放比例并填充灰边像素,将图片调整为所需尺寸,保持原始比例不变,广泛应用于目标检测领域。
67 1
目标检测笔记(四):自适应缩放技术Letterbox完整代码和结果展示
|
1月前
|
编解码 人工智能 开发者
长短大小样样精通!原始分辨率、超长视频输入:更灵活的全开源多模态架构Oryx
【10月更文挑战第23天】Oryx 是一种新型多模态架构,能够灵活处理各种分辨率的图像和视频数据。其核心创新在于能够对图像和视频进行任意分辨率编码,并通过动态压缩器模块提高处理效率。Oryx 在处理长视觉上下文(如视频)时表现出色,同时在图像、视频和3D多模态理解方面也展现了强大能力。该模型的开源性质为多模态研究社区提供了宝贵资源,但同时也面临一些挑战,如选择合适的分辨率和压缩率以及计算资源的需求。
35 3
|
5月前
|
容器
软件开发常见流程之物理像素导致图片变形问题如何解决,先把图缩放为原先的两倍,再缩放,利用Cutterman生成矢量图
软件开发常见流程之物理像素导致图片变形问题如何解决,先把图缩放为原先的两倍,再缩放,利用Cutterman生成矢量图
|
机器学习/深度学习 传感器 算法
【视频处理】通过调用图像来重建新影片及计算颜色通道的平均灰度值,并检测帧与前一帧之间的差异(Matlab代码实现)
【视频处理】通过调用图像来重建新影片及计算颜色通道的平均灰度值,并检测帧与前一帧之间的差异(Matlab代码实现)
|
编解码 人工智能 移动开发
AIGC图像分辨率太低?快来试试像素感知扩散超分模型,你想要的细节都在这里
阿里巴巴最新自研的像素感知扩散超分模型已经开源,它把扩散模型强大的生成能力和像素级控制能力相结合,能够适应从老照片修复到AIGC图像超分的各种图像增强任务和各种图像风格,并且能够控制生成强度和增强风格。这项技术的直接应用之一是AIGC图像的后处理增强和二次生成,能够带来可观的效果提升。
895 4
|
人工智能 自然语言处理 算法
自由编辑人脸打光:基于生成模型的三维重光照系统上线
自由编辑人脸打光:基于生成模型的三维重光照系统上线
299 0
【Unity3D--自由观察模型】模型自动旋转+触屏旋转和缩放
展示3D模型,同时实现模型自动旋转和触屏旋转和缩放
446 0

热门文章

最新文章