CVPR论文 | 如何处理多种退化类型的卷积超分辨率?

简介: 近年来,深度卷积神经网络(CNN)方法在单幅图像超分辨率(SISR)领域取得了非常大的进展。

image.png

〔小叽导读〕:近年来,深度卷积神经网络(CNN)方法在单幅图像超分辨率(SISR)领域取得了非常大的进展。然而现有基于CNN的SISR方法主要假设低分辨率(LR)图像由高分辨率(HR)图像经过双三次(bicubic)降采样得到,因此当真实图像的退化过程不遵循该假设时,其超分辨结果会非常差。此外,现有的方法不能扩展到用单一模型解决多种不同的图像退化类型。

为此,提出了一种维度拉伸策略使得单个卷积超分辨率网络能够将SISR退化过程的两个关键因素(即模糊核和噪声水平)作为网络输入。归因于此,训练得到超分辨网络模型可以处理多个甚至是退化空间不均匀的退化类型。实验结果表明提出的卷积超分辨率网络可以快速、有效地处理多种图像退化类型,为SISR实际应用提供了一种高效、可扩展的解决方案。

1.引言

单幅图像超分辨率(SISR)的目的是根据单幅低分辨(LR)图像输入得到清晰的高分辨率(HR)图像。一般来说,LR图像y是清晰HR图像x由下面的退化过程得来:。

image.png

其中image.png表示HR清晰图像x与模糊核k之间的卷积,表示系数为s的降采样算子,n表示标准差(噪声水平)为的加性高斯白噪声(AWGN)。

SISR方法主要分为三类:基于插值的方法、基于模型的方法以及基于判别学习的方法。

基于插值的方法(例如:最近邻插值、双三次插值)虽然速度快,但是其效果比较差。基于模型的方法通过引入图像先验,例如:非局部相似性先验、去噪先验等,然后求解目标函数得到视觉质量较好的HR图像,然而速度较慢。虽然结合基于CNN的去噪先验可以在某种程度上提升速度,但仍然受限于一些弊端,例如:无法进行端对端的训练,包含一些比较难调的参数等。

基于判别学习的方法尤其是基于CNN的方法因其速度快、可以端对端的学习因而效果好等在近几年受到了广泛关注,并且逐渐成为解决SISR的主流方法。

自从首个用CNN解决SISR的工作SRCNN在ECCV(2014)发表以来,各种不同的改进方法相继提出。例如,VDSR在PSNR指标上取得了非常大的提升;ESPCN和FSRCNN分别在速度上进行了改进;SRGAN在放大倍数较大情况下针对视觉效果的改善提出了有效的方法。

然而这些方法都存在一个共同缺点,也就是它们只考虑双三次(bicubic)降采样退化模型并且不能灵活地将其模型扩展到同时(非盲)处理其它退化类型。由于真实图像的退化过程多种多样,因而此类方法的有效实际应用场景非常有限。

一些SISR工作已经指出图像退化过程中的模糊核的准确性对SISR起着至关重要的作用,然而并没有基于CNN的相关工作将模糊核等因素考虑在内。为此引出本文主要解决的问题:是否可以设计一个非盲超分辨率(non-blind SISR)模型用以解决不同的图像退化类型?

2.方法

本文首先分析了在最大后验(MAP)框架下的SISR方法,借此希望可以指导CNN网络结构的设计。由于SISR问题的不适定性,通常需要引入正则项来约束解空间。具体来说,LR图像y对应的HR图像x可以通过求解下述问题近似:。

其中为似然(也即数据保真)项,为先验(也即正则)项,为似然项和先验项之间的权衡参数。

简单来说,上述公式包含两点:

估计得到的HR图像不仅要符合SISR的退化过程,并且还要满足清晰图像所具有的先验特征;

对于非盲超分辨率问题,x的求解与LR图像y、模糊核k、噪声水平以及权衡参数有关。

简而言之,非盲SISR的MAP估计可以表示为,其中为MAP估计中的参数。进而如果将CNN看作MAP估计另一种形式的解,那么有如下结论:

由于数据保真项对应着SISR的退化过程,因此退化过程的准确建模对SISR的结果起着至关重要的作用。然而现有的基于CNN的方法其目标是求解下面的问题:image.png
。由于没有将模糊核和噪声等因素考虑在内,因此其实用性非常有限。

为了设计更加有效的基于CNN的SISR模型,应该将更多的图像退化类型考虑在内,一个简单的思路就是将模糊核k和噪声水平也作为网络的输入。由于权衡参数可以融入噪声水平之中,因此CNN映射函数可以简化成如下形式:image.png

由于MAP估计中大部分的参数都对应着图像先验部分,而图像先验是与图像退化过程不相关的,因此单一的CNN模型具有处理不同退化类型的建模能力。

通过上述分析可以得出非盲SISR应该将退化模型中的模糊核和噪声水平也作为网络的输入。然而LR图像、模糊核和噪声水平三者的维度是不同的,因此不能直接作为CNN的输入。

为此本文提出了一种维度拉伸策略。假设LR图像大小为,首先将向量化的模糊核PCA降维,然后和噪声水平并在一起得到一个t+1维的向量v,接着将v拉伸为维的张量,我们将此张量称之为退化图(Degradation Maps),其中第i个图的所有元素均为。

image.png

图1:维度拉伸示意图

至此,我们可以将退化图和LR图像合并在一起作为CNN的输入。为了证明此策略的有效性,选取了快速有效的ESPCN超分辨网络结构框架。值得注意的是为了加速训练过程的收敛速度,同时考虑到LR图像中包含高斯噪声,因此网络中加入了Batch Normalization层。

图2给出了提出的超分辨率网络(简称SRMD)结构框架。

image.png

图2:提出的超分辨率网络结构框架(卷积层数为12,每层通道数为128)。

3.实验

在训练阶段,SRMD采用了各向同性和各向异性的高斯模糊核、噪声水平在[0, 75]之间的高斯白噪声以及 bicubic降采样算子。需要指出的是SRMD可以扩展到其它降采样算子,甚至其它退化模型。

在测试阶段,SRMD比较了不同方法在同为bicubic降采样退化下的PSNR和SSIM结果(如表1所示)。可以看出虽然SRMD是用来处理各种不同的退化类型,但是仍然在bicubic降采样退化下取得不错的效果。需要指出的是SRMD在速度上也有很大的优势,在Titan Xp GPU上处理512×512的LR图像仅需0.084秒,是VDSR超分辨率两倍所用时间的一半。

表2给出了不同退化类型下的PSNR和SSIM结果比较,可以看到SRMD同样取得了不错的效果。图4举例说明了SRMD可以设定非均匀退化图,进而可以处理退化空间不均匀的LR图像。最后,图5展示了不同方法在真实图像上的视觉效果比较,可以看到SRMD复原的HR图像在视觉效果上明显优于其它方法。

image.png

表1:不同方法在bicubic降采样退化下的PSNR和SSIM结果比较(其中SRMDNF表示不考虑噪声情况下训练得到的模型)。

image.png

图3:不同方法在bicubic降采样退化下超分辨率四倍的视觉效果比较。

image.png

表2:不同方法在不同退化类型下的PSNR和SSIM结果比较。

image.png

图4:举例说明SRMD可以处理退化空间不均匀的情形。(a)噪声水平以及模糊核宽度的空间分布;(b)LR图像(最近邻插值放大);(c)复原得到的HR图像(放大两倍)。

image.png

图5:不同方法在SISR经典测试图像“Chip”上超分辨率四倍的视觉效果比较。

4.结论

最后总结一下,本文的主要贡献有三个方面:

  • 提出了一种简单、有效、可扩展的超分辨率模型,其不仅可以处理bicubic降采样退化模型,并且可以处理多个甚至是退化空间不均匀的退化类型,为SISR实际应用提供了一种解决方案。
  • 提出了一种简单有效的维度拉伸策略使得卷积神经网络可以处理维度不同的输入,此策略可以扩展到其他应用。
  • 通过实验展示了用合成图像训练得到的超分辨网络模型可以有效的处理真实图像复杂的退化类型。
目录
相关文章
|
Windows
mathtype7产品激活密钥最新
MathType是强大的数学公式编辑器,MathType公式编辑器可以说是专门为理科生准备的软件,它可以帮助用户快速的在各种文档中插入符号和公式,不论是简单的公式和符号,还是复杂的都可以非常轻松的输入,并且在与office文档结合使用时,表现的非常完美,是非常好的一款软件,与常见的文字处理软件和演示程序配合使用,能够在各种文档中加入复杂的数学公式和符号,可用在编辑数学试卷、书籍、报刊、论文、幻灯演示等方面,是编辑数学资料的得力工具。
60381 0
|
网络协议 网络安全 网络虚拟化
|
6月前
|
人工智能 算法 安全
集之互动AI创意视频解决方案:商业级可控,让品牌创意从“灵感”直达“落地”
集之互动依托国家备案“无垠大模型”与广告专属控制算法,打造AI创意视频解决方案,实现从脚本到成片的全流程“商业级可控”。面向品牌调性、视觉风格与内容安全,助力企业将创意想象转化为可量化、可复用的营销资产,推动营销进入高效、稳定、安全的AI工业化时代。
423 4
|
机器学习/深度学习 并行计算 PyTorch
【机器学习】探索GRU:深度学习中门控循环单元的魅力
【机器学习】探索GRU:深度学习中门控循环单元的魅力
2120 0
|
Linux 虚拟化 iOS开发
Windows Server 2008 R2 OVF (2025 年 4 月更新) - VMware 虚拟机模板
Windows Server 2008 R2 OVF (2025 年 4 月更新) - VMware 虚拟机模板
487 29
Windows Server 2008 R2 OVF (2025 年 4 月更新) - VMware 虚拟机模板
|
机器学习/深度学习 自然语言处理 PyTorch
深入剖析Transformer架构中的多头注意力机制
多头注意力机制(Multi-Head Attention)是Transformer模型中的核心组件,通过并行运行多个独立的注意力机制,捕捉输入序列中不同子空间的语义关联。每个“头”独立处理Query、Key和Value矩阵,经过缩放点积注意力运算后,所有头的输出被拼接并通过线性层融合,最终生成更全面的表示。多头注意力不仅增强了模型对复杂依赖关系的理解,还在自然语言处理任务如机器翻译和阅读理解中表现出色。通过多头自注意力机制,模型在同一序列内部进行多角度的注意力计算,进一步提升了表达能力和泛化性能。
11022 48
|
机器学习/深度学习 自然语言处理 搜索推荐
自注意力机制全解析:从原理到计算细节,一文尽览!
自注意力机制(Self-Attention)最早可追溯至20世纪70年代的神经网络研究,但直到2017年Google Brain团队提出Transformer架构后才广泛应用于深度学习。它通过计算序列内部元素间的相关性,捕捉复杂依赖关系,并支持并行化训练,显著提升了处理长文本和序列数据的能力。相比传统的RNN、LSTM和GRU,自注意力机制在自然语言处理(NLP)、计算机视觉、语音识别及推荐系统等领域展现出卓越性能。其核心步骤包括生成查询(Q)、键(K)和值(V)向量,计算缩放点积注意力得分,应用Softmax归一化,以及加权求和生成输出。自注意力机制提高了模型的表达能力,带来了更精准的服务。
13901 46
|
人工智能 弹性计算 关系型数据库
学生免费领取阿里云服务器一年的方法,以及各种活动
学生可以免费领取阿里云服务器一年,新人可获2核4G,非新人2核2G。访问链接注册并完成学生认证,领取300元无门槛优惠券,购买轻量应用服务器。此外,还有多项活动可赢取实物奖品。
9303 2
|
搜索推荐 安全 物联网
智能家居技术的未来:集成化与个性化的融合
本文将深入探讨智能家居技术的发展趋势,特别是集成化和个性化如何成为未来智能家居系统设计的核心。文章将分析当前智能家居技术面临的挑战,并展示通过集成化提高系统效率、降低成本的方法。同时,讨论个性化服务在提升用户体验方面的重要性,以及如何通过数据驱动和人工智能技术实现这一目标。最后,文章将预测未来智能家居技术的发展方向,包括物联网设备的进一步整合、安全性的提升,以及智能家居技术在健康监测和环境可持续性方面的应用潜力。
522 1
|
安全 测试技术 程序员
基于SpringBoot+Vue的电商应用系统的设计与实现(4)
基于SpringBoot+Vue的电商应用系统的设计与实现
268 1