北大&港大 CVPR 力作 | ESRT: 集轻量高效于一体的单图超分网络

简介: 北大&港大 CVPR 力作 | ESRT: 集轻量高效于一体的单图超分网络

640.png

Title: Transformer for Single Image Super-Resolution

PDF: https://arxiv.org/pdf/2108.11084

Code: https://github.com/luissen/ESRT

导读

基于深度学习的单张图像超分辨率(Single image super-resolutionSISR)近年来得到飞速发展。然而,以往的研究大都集中在构建更复杂的网络以提升超分性能。随着 ViT 的崛起,Transformer 在计算机视觉各个子领域遍地开花,其中便包括了图像超分。众所周知,视觉 Transformer 的一大核心痛点便是高计算成本和昂贵的显存开销。因此,本文提出了一种新颖的高效超分辨率 Transformer 模型——ESRT,其有机地结合了轻量级 CNN 和 Transformer 骨干(Lightweight CNN Backbone, LCB & Lightweight Transformer Backbone,LTB)。其中:

  • LCB可以动态调整特征图的大小,以低计算成本提取深层特征;
  • LTB则由一系列高效 Transformer 模块组成并结合高效多头注意力来进一步降低显存占用;

最后,与基于原始的 ViT 网络相比,所提方法仅需占用少量内存(4,191M vs. 16,057M),但能够获得更优的性能。代码已开源,欢迎大家尝试!

动机

相比于传统方法,深度卷积神经网络在SISR领域取得了突破性的进展,尽管这类方法已经取得了出色的性能,但由于高计算成本和内存占用使其应用于实际生产应用中变得困难。为了解决这个问题,许多循环网络和轻量级网络被提出,如DRCNSRRFNIMDNIDNCARNASSLNMAFFSRNRFDN。这些模型都致力于构建更高效更轻量的网络结构,但这类方法减少了网络容量势必导致性能不佳

为了解决这个问题,作者引入了Transformer架构以捕获图像的长远距离依赖(如上图1所示,相似的 patch 有助于其它 patch 的图像恢复),来模拟 SISR 任务中的纹理结构等详细信息。如前所述,Transformer 模型在计算机视觉任务中已经有了一些应用,不过这些方法通常占用大量 GPU 内存,这极大地限制了它们的灵活性和应用场景。此外这些方法不能直接应用于 SISR,因为图像恢复任务通常将较大分辨率的图像作为输入,这对显存占用是一个极大的挑战。下面我们具体介绍下这个方法。

方法

Framework

上图展示了 ESRT 的网络架构图,其主要包含四个部分:

  • Shallow Feature Extraction (SFE)
  • Lightweight CNN Backbone (LCB)
  • Lightweight Transformer Backbone (LTB)
  • Image Reconstruction (IR)

下面让我们整体描述下这整个工作流程。首先,假设  作为网络的输入, 作为网络的输出。首先,我们从输入  中提取浅层特征。这一步可以通过一个卷积层实现,记作:

其中, 代表浅层特征提取层, 则是提取的浅层特征。

接下来,我们将  作为送入 LCB,它是由多个 High Preserving Blocks, HPBs 模块所组成的。通过 HPBs 处理  以得到中间特征 :

其中 ζn 表示第 n 个 HPB 的映射, 表示第 n 个 HPB 的输出。随后,将所有 HPB 的输出拼接起来喂入 LTB (一个由多个 Efficient Transformers, ETs 组成的模块),并使用 ETs 来融合这些中间特征:

其中  是 LTB 的输出, 表示 ETs 的操作。最后,我们将再  和  同时送入重建模块以获得 SR图像 ISR:

其中, 和  分别代表卷积层和 Pixel-Shuffle 层。

至此,ESRT 通过这四个部分以低计算成本实现了对输入图像的高清晰度超分辨率重建。

Lightweight CNN Backbone

LCB 提出的主要动机是提前从输入低分辨率图像中提取出潜在的超分辨率特征,从而使得模型具备超分辨率的初始能力。从主框架图可以看出,LCB 主要由一系列高保真块(HPB)构成,通过降低特征映射的分辨率来减少计算成本,并利用自适应残差特征块和高频过滤模块来保留初始的细节信息。通过这种方式,可以在减少计算成本的同时提高超分辨率模型的性能。下面是 HPB 模块的具体结构设计:

可以看出,其包含两个主要的组件即保留高频滤波模块(HFM)和自适应残差特征块 (ARFB)。

High-frequency Filtering Module

HFM是一种新的可微分高频信息估计方法,其很好的规避了传统傅里叶变换难以嵌入卷积神经网络中的问题,以实现从低分辨率图像中估计高频信息。

Adaptive Residual Feature Block

ResNetVDSR启发,作者提出了一种基于残差映射的基础特征提取块ARFB,它由两个残差单元和卷积层组成,用于减少和恢复特征图的通道数,并使用自适应权重的残差比例(RSA)来动态调整残差路径和Identify路径的重要性。相比于固定的残差比例,RSA可以改善梯度流,并自动调整输入特征图的残差特征映射的内容。

Lightweight Transformer Backbone

在超分辨率图像重建任务中,相似的图像块可以被用作参考图像,从而恢复当前图像块的纹理细节,因此Transformer很适合干这个工作。然而,高昂的计算成本和显存要求进一步限制了它的应用。LTB的设计理念便是希望能够以较低的计算成本捕捉图像中类似局部区域的长期依赖性,其主要由一系列的高效 Transformer 模块组成。

ViT类似,ETs 也只使用了 Transformer 中的 encoder 结构,其主要工作是对原始 Transformer 结构的多头注意力组件进行了高效化的设计,如下所示:

总的来说,ETs可以很好地提高网络效率和降低对显存的占用。

实验

结论

本文结合 Transformer 和 CNN 建模长、短距离依赖的优势,提出了一种新颖的用于单图超分的高效超分网络——ESRT,其基于轻量级 CNN 骨干提取深层特征并利用 Transformer 骨干对图像中相似局部区域之间的长远依赖性进行建模。大量实验表明,ESRT 在模型性能和计算成本之间取得了最佳平衡,表现优异!

写在最后

如果您也对人工智能和计算机视觉全栈领域感兴趣,强烈推荐您关注有料、有趣、有爱的公众号『CVHub』,每日为大家带来精品原创、多领域、有深度的前沿科技论文解读及工业成熟解决方案!欢迎扫码与我交流,一起探讨更多有趣的话题!

目录
相关文章
|
1月前
|
机器学习/深度学习 编解码 自动驾驶
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
44 3
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV1,用于移动视觉应用的高效卷积神经网络
|
1月前
|
机器学习/深度学习 移动开发 测试技术
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
46 1
RT-DETR改进策略【模型轻量化】| 替换骨干网络为MoblieNetV2,含模型详解和完整配置步骤
|
1月前
|
机器学习/深度学习 编解码 TensorFlow
RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v1 高效的移动倒置瓶颈结构
RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v1 高效的移动倒置瓶颈结构
51 0
RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v1 高效的移动倒置瓶颈结构
|
1月前
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V3 2024华为的重参数轻量化模型
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V3 2024华为的重参数轻量化模型
48 2
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 GhostNet V3 2024华为的重参数轻量化模型
|
21天前
|
机器学习/深度学习 人工智能 自然语言处理
揭示Transformer周期建模缺陷!北大提出新型神经网络FAN,填补周期性特征建模能力缺陷
北京大学研究团队发现,Transformer等主流神经网络在周期特征建模方面存在缺陷,如记忆数据模式而非理解内在规律,导致泛化能力受限。为此,团队提出基于傅里叶分析的Fourier Analysis Network(FAN),通过显式建模周期性特征,提升模型的理解和预测能力,减少参数和计算量,并在多个实验中验证其优越性。论文链接:https://arxiv.org/pdf/2410.02675.pdf
31 3
|
1月前
|
机器学习/深度学习
RT-DETR改进策略【Neck】| GSConv+Slim Neck:混合深度可分离卷积和标准卷积的轻量化网络设计
RT-DETR改进策略【Neck】| GSConv+Slim Neck:混合深度可分离卷积和标准卷积的轻量化网络设计
60 11
|
1月前
|
机器学习/深度学习 文件存储 异构计算
RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v2,加速训练,快速收敛
RT-DETR改进策略【模型轻量化】| 替换骨干网络为EfficientNet v2,加速训练,快速收敛
39 1
|
1月前
|
机器学习/深度学习 存储
RT-DETR改进策略【模型轻量化】| PP-LCNet:轻量级的CPU卷积神经网络
RT-DETR改进策略【模型轻量化】| PP-LCNet:轻量级的CPU卷积神经网络
46 0
RT-DETR改进策略【模型轻量化】| PP-LCNet:轻量级的CPU卷积神经网络
|
1月前
|
机器学习/深度学习 编解码 异构计算
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注
32 0
RT-DETR改进策略【模型轻量化】| 替换骨干网络为 ICCV 2023的EfficientViT 用于高分辨率密集预测的多尺度线性关注
|
20天前
|
网络协议 测试技术 Linux
Golang 实现轻量、快速的基于 Reactor 模式的非阻塞 TCP 网络库
gev 是一个基于 epoll 和 kqueue 实现的高性能事件循环库,适用于 Linux 和 macOS(Windows 暂不支持)。它支持多核多线程、动态扩容的 Ring Buffer 读写缓冲区、异步读写和 SO_REUSEPORT 端口重用。gev 使用少量 goroutine,监听连接并处理读写事件。性能测试显示其在不同配置下表现优异。安装命令:`go get -u github.com/Allenxuxu/gev`。

热门文章

最新文章