北大&港大 CVPR 力作 | ESRT: 集轻量高效于一体的单图超分网络

简介: 北大&港大 CVPR 力作 | ESRT: 集轻量高效于一体的单图超分网络

640.png

Title: Transformer for Single Image Super-Resolution

PDF: https://arxiv.org/pdf/2108.11084

Code: https://github.com/luissen/ESRT

导读

基于深度学习的单张图像超分辨率(Single image super-resolutionSISR)近年来得到飞速发展。然而,以往的研究大都集中在构建更复杂的网络以提升超分性能。随着 ViT 的崛起,Transformer 在计算机视觉各个子领域遍地开花,其中便包括了图像超分。众所周知,视觉 Transformer 的一大核心痛点便是高计算成本和昂贵的显存开销。因此,本文提出了一种新颖的高效超分辨率 Transformer 模型——ESRT,其有机地结合了轻量级 CNN 和 Transformer 骨干(Lightweight CNN Backbone, LCB & Lightweight Transformer Backbone,LTB)。其中:

  • LCB可以动态调整特征图的大小,以低计算成本提取深层特征;
  • LTB则由一系列高效 Transformer 模块组成并结合高效多头注意力来进一步降低显存占用;

最后,与基于原始的 ViT 网络相比,所提方法仅需占用少量内存(4,191M vs. 16,057M),但能够获得更优的性能。代码已开源,欢迎大家尝试!

动机

相比于传统方法,深度卷积神经网络在SISR领域取得了突破性的进展,尽管这类方法已经取得了出色的性能,但由于高计算成本和内存占用使其应用于实际生产应用中变得困难。为了解决这个问题,许多循环网络和轻量级网络被提出,如DRCNSRRFNIMDNIDNCARNASSLNMAFFSRNRFDN。这些模型都致力于构建更高效更轻量的网络结构,但这类方法减少了网络容量势必导致性能不佳

为了解决这个问题,作者引入了Transformer架构以捕获图像的长远距离依赖(如上图1所示,相似的 patch 有助于其它 patch 的图像恢复),来模拟 SISR 任务中的纹理结构等详细信息。如前所述,Transformer 模型在计算机视觉任务中已经有了一些应用,不过这些方法通常占用大量 GPU 内存,这极大地限制了它们的灵活性和应用场景。此外这些方法不能直接应用于 SISR,因为图像恢复任务通常将较大分辨率的图像作为输入,这对显存占用是一个极大的挑战。下面我们具体介绍下这个方法。

方法

Framework

上图展示了 ESRT 的网络架构图,其主要包含四个部分:

  • Shallow Feature Extraction (SFE)
  • Lightweight CNN Backbone (LCB)
  • Lightweight Transformer Backbone (LTB)
  • Image Reconstruction (IR)

下面让我们整体描述下这整个工作流程。首先,假设  作为网络的输入, 作为网络的输出。首先,我们从输入  中提取浅层特征。这一步可以通过一个卷积层实现,记作:

其中, 代表浅层特征提取层, 则是提取的浅层特征。

接下来,我们将  作为送入 LCB,它是由多个 High Preserving Blocks, HPBs 模块所组成的。通过 HPBs 处理  以得到中间特征 :

其中 ζn 表示第 n 个 HPB 的映射, 表示第 n 个 HPB 的输出。随后,将所有 HPB 的输出拼接起来喂入 LTB (一个由多个 Efficient Transformers, ETs 组成的模块),并使用 ETs 来融合这些中间特征:

其中  是 LTB 的输出, 表示 ETs 的操作。最后,我们将再  和  同时送入重建模块以获得 SR图像 ISR:

其中, 和  分别代表卷积层和 Pixel-Shuffle 层。

至此,ESRT 通过这四个部分以低计算成本实现了对输入图像的高清晰度超分辨率重建。

Lightweight CNN Backbone

LCB 提出的主要动机是提前从输入低分辨率图像中提取出潜在的超分辨率特征,从而使得模型具备超分辨率的初始能力。从主框架图可以看出,LCB 主要由一系列高保真块(HPB)构成,通过降低特征映射的分辨率来减少计算成本,并利用自适应残差特征块和高频过滤模块来保留初始的细节信息。通过这种方式,可以在减少计算成本的同时提高超分辨率模型的性能。下面是 HPB 模块的具体结构设计:

可以看出,其包含两个主要的组件即保留高频滤波模块(HFM)和自适应残差特征块 (ARFB)。

High-frequency Filtering Module

HFM是一种新的可微分高频信息估计方法,其很好的规避了传统傅里叶变换难以嵌入卷积神经网络中的问题,以实现从低分辨率图像中估计高频信息。

Adaptive Residual Feature Block

ResNetVDSR启发,作者提出了一种基于残差映射的基础特征提取块ARFB,它由两个残差单元和卷积层组成,用于减少和恢复特征图的通道数,并使用自适应权重的残差比例(RSA)来动态调整残差路径和Identify路径的重要性。相比于固定的残差比例,RSA可以改善梯度流,并自动调整输入特征图的残差特征映射的内容。

Lightweight Transformer Backbone

在超分辨率图像重建任务中,相似的图像块可以被用作参考图像,从而恢复当前图像块的纹理细节,因此Transformer很适合干这个工作。然而,高昂的计算成本和显存要求进一步限制了它的应用。LTB的设计理念便是希望能够以较低的计算成本捕捉图像中类似局部区域的长期依赖性,其主要由一系列的高效 Transformer 模块组成。

ViT类似,ETs 也只使用了 Transformer 中的 encoder 结构,其主要工作是对原始 Transformer 结构的多头注意力组件进行了高效化的设计,如下所示:

总的来说,ETs可以很好地提高网络效率和降低对显存的占用。

实验

结论

本文结合 Transformer 和 CNN 建模长、短距离依赖的优势,提出了一种新颖的用于单图超分的高效超分网络——ESRT,其基于轻量级 CNN 骨干提取深层特征并利用 Transformer 骨干对图像中相似局部区域之间的长远依赖性进行建模。大量实验表明,ESRT 在模型性能和计算成本之间取得了最佳平衡,表现优异!

写在最后

如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!欢迎扫码与我交流,一起探讨更多有趣的话题!

目录
相关文章
|
6月前
|
机器学习/深度学习 计算机视觉 网络架构
【GhostNet】复现CVPR2020| 保证模型轻量化的同时,提升网络的性能表现
【GhostNet】复现CVPR2020| 保证模型轻量化的同时,提升网络的性能表现
717 0
【GhostNet】复现CVPR2020| 保证模型轻量化的同时,提升网络的性能表现
|
6月前
|
机器学习/深度学习 编解码 边缘计算
YOLOv5改进 | 卷积模块 | 用ShuffleNetV2卷积替换Conv【轻量化网络】
本文介绍了如何在YOLOv5中用ShuffleNetV2替换卷积以减少计算量。ShuffleNetV2是一个轻量级网络,采用深度可分离卷积、通道重组和多尺度特征融合技术。文中提供了一个逐步教程,包括ShuffleNetV2模块的代码实现和在YOLOv5配置文件中的添加方法。此外,还分享了完整的代码链接和GFLOPs的比较,显示了GFLOPs的显著减少。该教程适合初学者实践,以提升深度学习目标检测技能。
YOLOv5改进 | 卷积模块 | 用ShuffleNetV2卷积替换Conv【轻量化网络】
|
18天前
|
机器学习/深度学习 计算机视觉 网络架构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
【YOLO11改进 - C3k2融合】C3k2融合YOLO-MS的MSBlock : 分层特征融合策略,轻量化网络结构
|
4月前
|
机器学习/深度学习 文件存储 算法框架/工具
【YOLOv8改进- Backbone主干】2024最新轻量化网络MobileNetV4替换YoloV8的BackBone
YOLO目标检测专栏聚焦于模型的改进和实战应用,介绍了MobileNetV4,它在移动设备上优化了架构。文章提到了UIB(通用反向瓶颈)模块,结合了多种结构,增强了特征提取;Mobile MQA是专为移动平台设计的注意力层,提升了速度;优化的NAS提升了搜索效率。通过这些创新,MNv4在不同硬件上实现了性能和效率的平衡,且通过蒸馏技术提高了准确性。模型在Pixel 8 EdgeTPU上达到87%的ImageNet-1K准确率,延迟仅为3.8ms。论文、PyTorch和TensorFlow实现代码链接也已提供。
|
6月前
|
机器学习/深度学习 算法 计算机视觉
YOLOv8改进 | 融合模块 | 用Resblock+CBAM卷积替换Conv【轻量化网络】
在这个教程中,介绍了如何将YOLOv8的目标检测模型改进,用Resblock+CBAM替换原有的卷积层。Resblock基于ResNet的残差学习思想,减少信息丢失,而CBAM是通道和空间注意力模块,增强网络对特征的感知。教程详细解释了ResNet和CBAM的原理,并提供了代码示例展示如何在YOLOv8中实现这一改进。此外,还给出了新增的yaml配置文件示例以及如何注册模块和执行程序。作者分享了完整的代码,并对比了改进前后的GFLOPs计算量,强调了这种改进在提升性能的同时可能增加计算需求。教程适合深度学习初学者实践和提升YOLO系列模型的性能。
|
6月前
|
算法 计算机视觉 网络架构
CVPR 202:擅长处理复杂场景和语言表达,清华&博世提出全新实例分割网络架构MagNet
【5月更文挑战第10天】在CVPR 2024会议上,清华大学与博世团队推出MagNet,一种针对复杂场景和语言表达的实例分割网络。MagNet通过Mask Grounding辅助任务强化视觉-语言对应,缩小模态差距,并结合跨模态对齐损失与模块,提升RIS任务的准确性。在RefCOCO、RefCOCO+和G-Ref基准上取得显著优势,但对罕见表达和复杂场景的处理仍有待优化。[论文链接](https://arxiv.org/abs/2312.12198)
163 5
|
6月前
|
机器学习/深度学习 算法 计算机视觉
【CVPR轻量级网络】- 追求更高的FLOPS(FasterNet)
【CVPR轻量级网络】- 追求更高的FLOPS(FasterNet)
269 2
|
6月前
|
机器学习/深度学习 存储 算法
【轻量化:实操】动手实现神经网络中的裁枝操作(附演示代码&yolo系列)
【轻量化:实操】动手实现神经网络中的裁枝操作(附演示代码&yolo系列)
183 1
|
6月前
|
机器学习/深度学习 计算机视觉 Python
【SKConv】即插即用!来自CVPR 2019的选择性内核网络帮你论文涨点
【SKConv】即插即用!来自CVPR 2019的选择性内核网络帮你论文涨点
235 0
【SKConv】即插即用!来自CVPR 2019的选择性内核网络帮你论文涨点
|
6月前
|
机器学习/深度学习 计算机视觉 异构计算
【CVPR2023】Backbone FasterNet:我不允许你不知道世界上还有比ShuffleNetV2还轻量的网络!
【CVPR2023】Backbone FasterNet:我不允许你不知道世界上还有比ShuffleNetV2还轻量的网络!
280 0
【CVPR2023】Backbone FasterNet:我不允许你不知道世界上还有比ShuffleNetV2还轻量的网络!