【OpenVI-图像超分实战篇】别用GAN做超分了，快来试试基于扩散模型的图像超分吧！-阿里云开发者社区

【OpenVI-图像超分实战篇】别用GAN做超分了，快来试试基于扩散模型的图像超分吧！

2023-03-02 27058

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

模型在线服务 PAI-EAS，A10/V100等 500元 1个月

交互式建模 PAI-DSW，每月250计算时 3个月

模型训练 PAI-DLC，5000CU*H 3个月

简介： 近10年来，深度学习技术得到了长足进步，在图像增强领域取得了显著的成果，尤其是以GAN为代表的生成式模型在图像复原、老片修复，图像超分辨率等方面大放异彩。图像超分辨率是视频增强方面，用于提升画质的典型应用。生成对抗网络GAN使得在图像分辨率增加的同时，保持细节特征，补充生成真实的纹理，其中应用广泛的工作是Real-ESRGAN。扩散模型DiffusionModel在图像超分辨率这方面的新的应用，展现出其超过GAN的生成多样性和真实性。看完后，你会发现，还在用GAN做图像超分辨率吗？已经OUT了，快来试试DiffusionModel吧！

经典图像超分辨率算法Real-ESRGAN

先来看下GAN来应用到图像超分辨率的经典方法Real-ESRGAN。

生成网络是ESRGAN的生成网络，保持不变，首先用L1 loss，训练以PSRN为导向的网络，获得的模型称为Real-ESRNet，然后Real-ESRNet的网络参数进行网络初始化，同时使用 L1 loss、perceptual loss、 GAN loss损失函数，训练最终的网络Real-ESRGAN。

训练数据可以自己收集，使用退化方法，构建样本对。细节的生成能力依托GAN的作用，GAN的生成能力的发展进化已经经历了多年，在此不做赘述，但从实际应用中看，对于图片生成的真实性和多样性仍然有待提升。

扩散模型简介

扩散模型（DiffusionModel）近几年开始受到广泛的关注，下面可以通俗地以denoising diffusion probabilistic models (DDPM)为基础的扩散模型的基本原理。

扩散模型的前向过程：不断给图片加噪声的过程。

扩散模型的逆向过程：一步步去除图片噪声的过程。

DiffusionMolde的训练大致可以概括为，通过构建一个Unet网络，预测每一步加噪声的强度，通过理论推导，可以得知这个训练只需要使用L2 loss监督。训练完成后，就可以从高斯噪声开始，根据逆向过程的采样方式，恢复出清晰图像。

近两年，越来越多的工作验证了扩散模型在真实性和多样性的生成能力上超过GAN。很快扩散模型被应用到各个领域。

扩散模型在图像超分上的应用

下面重点看下在图像超分辨率方向上扩散模型的应用。

SR3 (Image Super-Resolution via Iterative Refinement )

这个是最早应用扩散模型做图像超分辨率任务的方案。该方法的思路很简单，直接将低分辨率图像LR简单的上采样后作为条件一起输入Unet。这样扩散模型的生成结果受LR引导，得到对应的高分辨率图像SR。

LatentDiffusion(High-Resolution Image Synthesis with Latent Diffusion Models )

接下来重点介绍这个工作，LatentDiffusion借助AutoEncode将扩散过程压缩到潜空间，减少了计算量，增加了扩散模型生成的鲁棒性。潜空间上的对生成效果的rate-distortion trade-off如下图示意：

Latent Diffusion也就是如今大火的StableDiffusion的基本方案，技术框架大致如下图所示：

基于latent diffusion model的图像超分辨率方案，我们称做LDM-SR，和SR3的做法相似，这里直接将LR和Laten space 噪声合并一起，输入到Unet，后面通过Decoder 4倍上采样，生成对应的超分辨率图像。相比SR3 在生成结果上取得更低的FID值，并且视觉效果上更自然细腻。