【OpenVI-图像超分实战篇】别用GAN做超分了,快来试试基于扩散模型的图像超分吧!

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
交互式建模 PAI-DSW,每月250计算时 3个月
模型训练 PAI-DLC,100CU*H 3个月
简介: 近10年来,深度学习技术得到了长足进步,在图像增强领域取得了显著的成果,尤其是以GAN为代表的生成式模型在图像复原、老片修复,图像超分辨率等方面大放异彩。图像超分辨率是视频增强方面,用于提升画质的典型应用。生成对抗网络GAN使得在图像分辨率增加的同时,保持细节特征,补充生成真实的纹理,其中应用广泛的工作是Real-ESRGAN。 扩散模型DiffusionModel在图像超分辨率这方面的新的应用,展现出其超过GAN的生成多样性和真实性。看完后,你会发现,还在用GAN做图像超分辨率吗?已经OUT了,快来试试DiffusionModel吧!

经典图像超分辨率算法Real-ESRGAN

 先来看下GAN来应用到图像超分辨率的经典方法Real-ESRGAN。

1.png

生成网络是ESRGAN的生成网络,保持不变,首先用L1 loss,训练以PSRN为导向的网络,获得的模型称为Real-ESRNet,然后Real-ESRNet的网络参数进行网络初始化,同时使用 L1 loss、perceptual loss、 GAN loss损失函数,训练最终的网络Real-ESRGAN。

 训练数据可以自己收集,使用退化方法,构建样本对。细节的生成能力依托GAN的作用,GAN的生成能力的发展进化已经经历了多年,在此不做赘述,但从实际应用中看,对于图片生成的真实性和多样性仍然有待提升。


扩散模型简介

 扩散模型(DiffusionModel)近几年开始受到广泛的关注,下面可以通俗地以denoising diffusion probabilistic models (DDPM)为基础的扩散模型的基本原理。

2.png

 扩散模型的前向过程:不断给图片加噪声的过程。

 扩散模型的逆向过程:一步步去除图片噪声的过程。

3.png

 DiffusionMolde的训练大致可以概括为,通过构建一个Unet网络,预测每一步加噪声的强度,通过理论推导,可以得知这个训练只需要使用L2 loss监督。训练完成后,就可以从高斯噪声开始,根据逆向过程的采样方式,恢复出清晰图像。

 近两年,越来越多的工作验证了扩散模型在真实性和多样性的生成能力上超过GAN。很快扩散模型被应用到各个领域。


扩散模型在图像超分上的应用

 下面重点看下在图像超分辨率方向上扩散模型的应用。

SR3 (Image Super-Resolution via Iterative Refinement )

 这个是最早应用扩散模型做图像超分辨率任务的方案。该方法的思路很简单,直接将低分辨率图像LR简单的上采样后作为条件一起输入Unet。这样扩散模型的生成结果受LR引导,得到对应的高分辨率图像SR。

4.png

LatentDiffusion(High-Resolution Image Synthesis with Latent Diffusion Models )

 接下来重点介绍这个工作,LatentDiffusion借助AutoEncode将扩散过程压缩到潜空间,减少了计算量,增加了扩散模型生成的鲁棒性。潜空间上的对生成效果的rate-distortion trade-off如下图示意:

5.png

 Latent Diffusion也就是如今大火的StableDiffusion的基本方案,技术框架大致如下图所示:

6.png

 基于latent diffusion model的图像超分辨率方案,我们称做LDM-SR,和SR3的做法相似,这里直接将LR和Laten space 噪声合并一起,输入到Unet,后面通过Decoder 4倍上采样,生成对应的超分辨率图像。相比SR3 在生成结果上取得更低的FID值,并且视觉效果上更自然细腻。

7.png

 总体来说,基于扩散模型的超分辨率方案相比GAN,取得了长足的进步,在细节和纹理生成能力上上了一个大台阶。


我们的生成式图像超分方案

 达摩院开放视觉团队,在图像超分辨率技术上演进上,应用最新的Diffusion Model,搜集了大量几十万张高清图像数据集,训练了新的基于扩散模型的图像超分辨率模型,已经上线了,可以来试试效果吧。

体验地址:

生成式超分服务官网

达摩院视觉开放平台

 下面给出几组,基于LDM-SR和Real-ESRGAN的效果对比,直观感受下吧!

8.png

9.jpeg       

 Real-ESRGAN x4  

13.jpeg

 LDM_SR x4

10.png

 原图

11.jpeg

 Real-ESRGAN x4

12.jpeg

 LDM_SR x4

 此外,LDM是Stable V1的基本构成,最新的工作StableDiffusion V2 ,将多模态技术引入了图像超分辨率方案中。文本信息的引导,使得扩散模型 “更懂得要生成的目标细节特征”。基于多模态的超分辨率技术方案也即将上线,继续关注达摩院最新技术发布!

相关文章
|
机器学习/深度学习 传感器 编解码
Real-ESRGAN超分辨网络
Real-ESRGAN超分辨网络
892 1
|
机器学习/深度学习 Web App开发 编解码
最高增强至1440p,阿里云发布端侧实时超分工具,低成本实现高画质
近日,阿里云机器学习PAI团队发布一键端侧超分工具,可实现在设备和网络带宽不变的情况下,将移动端视频分辨率提升1倍,最高可增强至1440p,将大幅提升终端用户的观看体验,该技术目前已在优酷、夸克、UC浏览器等多个APP中广泛应用。
最高增强至1440p,阿里云发布端侧实时超分工具,低成本实现高画质
|
11月前
|
机器学习/深度学习 编解码 人工智能
InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像
InvSR 是一个创新的图像超分辨率模型,基于扩散模型的逆过程恢复高分辨率图像。它通过深度噪声预测器和灵活的采样机制,能够高效地提升图像分辨率,适用于老旧照片修复、视频监控、医疗成像等多个领域。
2103 9
InvSR:开源图像超分辨率生成模型,提升分辨率,修复老旧照片为超清图像
|
机器学习/深度学习 编解码 算法
图像超分:RFB-ESRGAN(Perceptual Extreme Super Resolution Network with Receptive Field Block)
图像超分:RFB-ESRGAN(Perceptual Extreme Super Resolution Network with Receptive Field Block)
371 0
|
10月前
|
机器学习/深度学习 编解码 人工智能
STAR:南京大学联合字节开源视频超分辨率增强生成框架,视频清晰度一键提升,支持从低分辨率视频生成高分辨率视频
STAR 是由南京大学、字节跳动和西南大学联合推出的视频超分辨率框架,能够将低分辨率视频提升为高分辨率,同时保持细节清晰度和时间一致性。
1981 13
STAR:南京大学联合字节开源视频超分辨率增强生成框架,视频清晰度一键提升,支持从低分辨率视频生成高分辨率视频
|
机器学习/深度学习 算法 PyTorch
使用Pytorch中从头实现去噪扩散概率模型(DDPM)
在本文中,我们将构建基础的无条件扩散模型,即去噪扩散概率模型(DDPM)。从探究算法的直观工作原理开始,然后在PyTorch中从头构建它。本文主要关注算法背后的思想和具体实现细节。
9231 3
|
机器学习/深度学习 编解码 算法
什么是超分辨率?浅谈一下基于深度学习的图像超分辨率技术
超分辨率技术旨在提升图像或视频的清晰度,通过增加单位长度内的采样点数量来提高空间分辨率。基于深度学习的方法,如SRCNN、VDSR、SRResNet等,通过卷积神经网络和残差学习等技术,显著提升了图像重建的质量。此外,基于参考图像的超分辨率技术通过利用高分辨率参考图像,进一步提高了重建图像的真实感和细节。
|
编解码 人工智能 并行计算
阿里妈妈技术开源FLUX图像修复&蒸馏加速模型
本文介绍了阿里妈妈技术团队基于FLUX开发的Controlnet修复模型和蒸馏加速模型,填补了社区空白并提升了FLUX的实用性和效率。
|
机器学习/深度学习 编解码 算法
万字长文解读图像超分辨率 Real-ESRGAN 论文笔记+代码阅读
万字长文解读图像超分辨率 Real-ESRGAN 论文笔记+代码阅读
2324 3
|
机器学习/深度学习 编解码
【论文笔记】图像修复MPRNet:Multi-Stage Progressive Image Restoration 含代码解析2
【论文笔记】图像修复MPRNet:Multi-Stage Progressive Image Restoration 含代码解析
651 2

热门文章

最新文章