【OpenVI】AIGC技术在图像超分上的创新应用

简介: 近10年来,深度学习技术得到了长足进步,在图像增强领域取得了显著的成果,尤其是以GAN为代表的生成式模型在图像复原、老片修复,图像超分辨率等方面大放异彩。图像超分辨率是视频增强方面,用于提升画质的典型应用。生成对抗网络GAN使得在图像分辨率增加的同时,保持细节特征,补充生成真实的纹理,其中应用广泛的工作是Real-ESRGAN。

一、背景

     随着扩散模型DiffusionModel在理论和实践中的有效性得到越来越多的验证,在大数据、大模型的加持下,多模态学习发展如火如荼,促成了当今AIGC的火爆。同时以此为基础的视觉增强底层任务,也带来了一些突破性成果。今天重点给大家展示下,扩散模型在图像超分辨率这方面的新的应用,展现出其超过GAN的生成多样性和真实性。看完后,你会发现,还在用GAN做图像超分辨率吗?已经OUT了,快来试试DiffusionModel吧!


二、方法

2.1 经典算法Real-ESRGAN

  先来看下GAN来应用到图像超分辨率的经典方法Real-ESRGAN,如图1基本流程。11.png     图1: 来源Real-ESRGAN: Training Real-World Blind Super-Resolutionwith Pure Synthetic Data

   生成网络是ESRGAN的生成网络,保持不变,首先用L1 loss,训练以PSRN为导向的网络,获得的模型称为Real-ESRNet,然后Real-ESRNet的网络参数进行网络初始化,同时使用 L1 loss、perceptual loss、 GAN loss损失函数,训练最终的网络Real-ESRGAN。

   训练数据可以自己收集,使用退化方法,构建样本对。细节的生成能力依托GAN的作用,GAN的生成能力的发展进化已经经历了多年,在此不做赘述,但从实际应用中看,对于图片生成的真实性和多样性仍然有待提升。

2.2 扩散模型简介

   扩散模型(DiffusionModel)近几年开始受到广泛的关注,下面可以通俗地以denoising diffusion probabilistic models(DDPM)为基础的扩散模型的基本原理。

22.png

   扩散模型的前向过程:不断给图片加噪声的过程。

   扩散模型的逆向过程:一步步去除图片噪声的过程。

33.png

  图3:来源 Denoising Diffusion ProbabilisticModels

  DiffusionMolde的训练大致可以概括为,通过构建一个Unet网络,预测每一步加噪声的强度,通过理论推导,可以得知这个训练只需要使用L2loss监督。训练完成后,就可以从高斯噪声开始,根据逆向过程的采样方式,恢复出清晰图像。

 近两年,越来越多的工作验证了扩散模型在真实性和多样性的生成能力上超过GAN。很快扩散模型被应用到各个领域。

2.3 扩散模型在图像超分上的应用

 下面重点看下在图像超分辨率方向上扩散模型的应用。

2.3.1 SR3 (Image Super-Resolution via Iterative Refinement )

  这个是最早应用扩散模型做图像超分辨率任务的方案。该方法的思路很简单,直接将低分辨率图像LR简单的上采样后作为条件一起输入Unet。这样扩散模型的生成结果受LR引导,得到对应的高分辨率图像SR。44.png

2.3.2 LatentDiffusion(High-Resolution Image Synthesis with Latent DiffusionModels )

   接下来重点介绍这个工作,LatentDiffusion借助AutoEncode将扩散过程压缩到潜空间,减少了计算量,增加了扩散模型生成的鲁棒性。潜空间上的对生成效果的rate-distortion trade-off如下图示意:

55.png

  图5:来源 High-ResolutionImage Synthesis with Latent Diffusion Models

  LatentDiffusion也就是如今大火的StableDiffusion的基本方案,技术框架大致如下图所示:

66.png

  图6:来源 High-ResolutionImage Synthesis with Latent Diffusion Models

  基于latentdiffusion model的图像超分辨率方案,我们称做LDM-SR,和SR3的做法相似,这里直接将LR和Latenspace 噪声合并一起,输入到Unet,后面通过Decoder4倍上采样,生成对应的超分辨率图像。相比SR3 在生成结果上取得更低的FID值,并且视觉效果上更自然细腻。

77.png

   图7:来源 High-ResolutionImage Synthesis with Latent Diffusion Models

   总体来说,基于扩散模型的超分辨率方案相比GAN,取得了长足的进步,在细节和纹理生成能力上上了一个大台阶。

2.4 ours方法

  开放视觉团队,在图像超分辨率技术上演进上,应用最新的Diffusion Model,搜集了大量几十万张高清图像数据集,训练了新的基于扩散模型的图像超分辨率模型,已经上线了,可以来试试效果吧。

生成式图像超分https://vision.aliyun.com/experience/detail?tagName=imageenhan&children=GenerateSuperResolutionImage

视觉智能开放平台:https://vision.aliyun.com/

下面给出几组,基于LDM-SR和Real-ESRGAN的效果对比,直观感受下吧!

8.png

原图

9.png

Real-ESRGANx4

10.png

LDM_SR x4

111.png

原图

12.png

Real-ESRGANx4

13.png

三、总结

     LDM是Stable V1的基本构成,最新的工作StableDiffusion V2 ,将多模态技术引入了图像超分辨率方案中。文本信息的引导,使得扩散模型 “更懂得要生成的目标细节特征”。基于多模态的超分辨率技术方案也即将上线,继续关注最新技术发布!

四、更多体验

      想体验调用稳定、效果更好的API,详情见视觉开放智能平台(https://vision.aliyun.com/

相关文章
|
1天前
|
人工智能 测试技术 API
【AIGC】LangChain Agent(代理)技术分析与实践
【5月更文挑战第12天】 LangChain代理是利用大语言模型和推理引擎执行一系列操作以完成任务的工具,适用于从简单响应到复杂交互的各种场景。它能整合多种服务,如Google搜索、Wikipedia和LLM。代理通过选择合适的工具按顺序执行任务,不同于链的固定路径。代理的优势在于可以根据上下文动态选择工具和执行策略。适用场景包括网络搜索、嵌入式搜索和API集成。代理由工具组成,每个工具负责单一任务,如Web搜索或数据库查询。工具包则包含预定义的工具集合。创建代理需要定义工具、初始化执行器和设置提示词。LangChain提供了一个从简单到复杂的AI解决方案框架。
|
3天前
|
机器学习/深度学习 人工智能 NoSQL
【AIGC】深入浅出理解检索增强技术(RAG)
【5月更文挑战第10天】本文介绍了检索增强生成(RAG)技术,这是一种将AI模型与内部数据结合,提升处理和理解能力的方法。通过实时从大型文档库检索信息,扩展预训练语言模型的知识。文章通过示例说明了当模型需要回答未公开来源的内容时,RAG如何通过添加上下文信息来增强模型的回答能力。讨论了实际应用中令牌限制和文本分块的问题,以及使用文本嵌入技术解决相关性匹配的挑战。最后,概述了实现RAG的步骤,并预告后续将分享构建检索增强服务的详情。
|
5天前
|
存储 人工智能 API
【AIGC】基于检索增强技术(RAG)构建大语言模型(LLM)应用程序
【5月更文挑战第7天】基于检索增强技术(RAG)构建大语言模型(LLM)应用程序实践
|
12天前
|
机器学习/深度学习 人工智能 自然语言处理
【活动】AIGC 技术的发展现状与未来趋势
AIGC技术现正快速发展,涉及文本、图像、音频和视频生成。GPT-3等模型已能生成连贯文本,GANs创造高质量图像,WaveNet合成逼真音频。尽管面临质量控制、原创性、可解释性和安全性的挑战,未来趋势将聚焦更高生成质量、多模态内容、个性化定制、增强可解释性和透明度,以及关注安全性和伦理问题。AIGC将在多领域创造更多可能性。
163 3
|
13天前
|
机器学习/深度学习 人工智能 自然语言处理
【AIGC】文档智能助手技术解决方案报告
【4月更文挑战第14天】智能文档处理助手技术解决方案报告整理输出
|
14天前
|
人工智能 搜索推荐 UED
如何评价AIGC技术的社会需求和市场环境?
【4月更文挑战第30天】如何评价AIGC技术的社会需求和市场环境?
99 0
|
14天前
|
机器学习/深度学习 人工智能 自然语言处理
AIGC技术是什么?
【4月更文挑战第30天】AIGC技术是什么?
101 0
|
14天前
|
人工智能 搜索推荐
如何利用AIGC技术实现个性化定制的绘画作品?
【4月更文挑战第30天】如何利用AIGC技术实现个性化定制的绘画作品?
81 1
|
14天前
|
人工智能 搜索推荐 测试技术
你是如何看待AIGC技术的?
AIGC(AI Generated Content)技术,即人工智能生成内容技术,是指利用人工智能技术来生成文本、图片、音频、视频等内容的生产方式。这一技术在近年来得到了迅速发展,并且在多个领域展现出巨大的潜力和应用价值。
127 1
|
17天前
|
人工智能 自然语言处理 搜索推荐
【AIGC】人工智能在教育领域的场景应用
【4月更文挑战第10天】人工智能对教育领域的发展有哪些应用及影像