ICLR 2024:泛化递归Transformer,降低超分辨率复杂度

简介: 【2月更文挑战第16天】ICLR 2024:泛化递归Transformer,降低超分辨率复杂度

92ad169ed96686ff9f3017e6a7dee383.jpeg
在2024年的ICLR上,来自上海交通大学、上海人工智能实验室和悉尼大学的研究人员共同发布了一篇题为《Recursive Generalization Transformer for Image Super-Resolution 》的论文,提出了一种新型的Transformer架构,专门用于解决图像超分辨率(SR)任务。该论文的核心创新是提出了一种名为Recursive Generalization Transformer(RGT)的模型,该模型不仅能够有效地捕获全局空间信息,还适用于高分辨率图像,并且在计算复杂度上具有显著优势。

图像超分辨率的主要目标是从低分辨率(LR)图像中恢复出高分辨率(HR)图像,这是一个极具挑战性的任务,因为存在多种可能的解决方案可以映射到任何给定的LR输入。为了应对这一挑战,研究人员们提出了各种基于深度卷积神经网络(CNN)的方法。虽然CNN在SR领域取得了显著进展,但它们在全局上下文感知方面仍然存在一定局限性,主要是由于卷积操作的局部处理原理所导致的。

近年来,Transformer架构在多个高级计算机视觉任务中展现出了与CNN相比的显著性能。Transformer的核心组件是自注意力(Self-Attention,SA)机制,它能够通过捕获所有输入数据之间的交互来直接建模长距离依赖关系。然而,传统的自注意力在图像大小上的计算复杂度呈二次方增长,这限制了其在高分辨率场景中的应用,尤其是在低级视觉任务(如图像SR)中。

为了在图像SR中应用Transformer,研究者们提出了多种方法来降低自注意力的计算成本。其中一些方法采用了局部自注意力,将特征图划分为子区域以限制自注意力的范围。同时,他们利用了位移机制、重叠窗口或交叉聚合操作来增强窗口之间的交互。这些方法在图像大小上实现了线性复杂度,并超越了之前的CNN方法。然而,与全局注意力相比,局部设计需要堆叠多个块来建立全局依赖关系。此外,一些方法提出了“转置”自注意力,它在通道维度而不是空间维度上操作。尽管这种方法可以隐式地捕获全局信息,但它阻碍了空间依赖关系的建模,这对于图像SR至关重要。

为了解决这些问题,本文提出了RGT模型,它能够直接在线性复杂度下探索全局信息。RGT的核心是递归泛化自注意力(Recursive-Generalization Self-Attention,RG-SA),它首先通过递归泛化模块(Recursive Generalization Module,RGM)将任意分辨率的输入特征聚合成具有小常量大小的代表性特征图。然后,利用交叉注意力在输入特征和代表性特征图之间交换全局信息。由于代表性特征图的大小远小于输入特征,整个过程的计算成本较低。此外,RG-SA进一步调整了自注意力中查询、键和值矩阵的通道维度,以减轻通道域中的冗余。

为了更好地利用全局上下文,研究者们将RG-SA与局部自注意力(Local Self-Attention,L-SA)结合,并提出了混合自适应集成(Hybrid Adaptive Integration,HAI)用于模块集成。HAI允许在Transformer块的外部直接融合不同层次(局部或全局)的特征。此外,HAI通过可学习的适配器自适应地调整输入特征以实现特征对齐。总体而言,RGT在捕获全局信息以实现准确图像SR的同时,保持了可管理的复杂度。

论文的贡献可以总结如下:一是提出了RGT模型,它能够捕获全局空间信息,适用于高分辨率图像,并在定量和视觉上取得了显著的SR性能。二是提出了RG-SA,利用递归聚合模块和交叉注意力在线性复杂度下建模全局依赖关系。三是将RG-SA与L-SA结合,更好地利用全局上下文,并提出了HAI用于模块集成。

RGT是一种新的Transformer模型,它能够有效地进行图像SR,同时保持低计算成本。RGT的设计,特别是RG-SA和HAI,使得模型能够在捕获全局信息的同时,保持可管理的复杂度。这些特点使得RGT在图像SR任务中具有显著的优势。

目录
打赏
0
1
1
0
396
分享
相关文章
TurboAttention:基于多项式近似和渐进式量化的高效注意力机制优化方案,降低LLM计算成本70%
**TurboAttention**提出了一种全新的LLM信息处理方法。该方法通过一系列优化手段替代了传统的二次复杂度注意力机制,包括稀疏多项式软最大值近似和高效量化技术。
156 5
TurboAttention:基于多项式近似和渐进式量化的高效注意力机制优化方案,降低LLM计算成本70%
YOLOv11改进策略【SPPF】| AIFI : 基于Transformer的尺度内特征交互,在降低计算成本的同时提高模型的性能
YOLOv11改进策略【SPPF】| AIFI : 基于Transformer的尺度内特征交互,在降低计算成本的同时提高模型的性能
102 9
YOLOv11改进策略【SPPF】| AIFI : 基于Transformer的尺度内特征交互,在降低计算成本的同时提高模型的性能
2023最新 | 单目深度估计网络结构的通用性研究
单目深度估计已经被广泛研究,最近已经报道了许多在性能上显著改进的方法。然而,大多数先前的工作都是在一些基准数据集(如KITTI数据集)上进行评估的,并且没有一项工作对单目深度估计的泛化性能进行深入分析。本文深入研究了各种骨干网络(例如CNN和Transformer模型),以推广单目深度估计。首先,评估了分布内和分布外数据集上的SOTA模型,这在网络训练期间从未见过。然后,使用合成纹理移位数据集研究了基于CNN和Transformer的模型中间层表示的内部属性。通过大量实验,观察到transformer呈现出强烈的形状偏差,而CNN具有强烈纹理偏差。
2023最新 | 单目深度估计网络结构的通用性研究
DHVT:在小数据集上降低VIT与卷积神经网络之间差距,解决从零开始训练的问题
VIT在归纳偏置方面存在空间相关性和信道表示的多样性两大缺陷。所以论文提出了动态混合视觉变压器(DHVT)来增强这两种感应偏差。
329 0
简单有效 | Transformer通过剪枝降低FLOPs以走向部署(文末获取论文)
简单有效 | Transformer通过剪枝降低FLOPs以走向部署(文末获取论文)
449 0
下一篇
oss创建bucket
AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等