ICLR 2024:泛化递归Transformer,降低超分辨率复杂度

简介: 【2月更文挑战第16天】ICLR 2024:泛化递归Transformer,降低超分辨率复杂度

92ad169ed96686ff9f3017e6a7dee383.jpeg
在2024年的ICLR上,来自上海交通大学、上海人工智能实验室和悉尼大学的研究人员共同发布了一篇题为《Recursive Generalization Transformer for Image Super-Resolution 》的论文,提出了一种新型的Transformer架构,专门用于解决图像超分辨率(SR)任务。该论文的核心创新是提出了一种名为Recursive Generalization Transformer(RGT)的模型,该模型不仅能够有效地捕获全局空间信息,还适用于高分辨率图像,并且在计算复杂度上具有显著优势。

图像超分辨率的主要目标是从低分辨率(LR)图像中恢复出高分辨率(HR)图像,这是一个极具挑战性的任务,因为存在多种可能的解决方案可以映射到任何给定的LR输入。为了应对这一挑战,研究人员们提出了各种基于深度卷积神经网络(CNN)的方法。虽然CNN在SR领域取得了显著进展,但它们在全局上下文感知方面仍然存在一定局限性,主要是由于卷积操作的局部处理原理所导致的。

近年来,Transformer架构在多个高级计算机视觉任务中展现出了与CNN相比的显著性能。Transformer的核心组件是自注意力(Self-Attention,SA)机制,它能够通过捕获所有输入数据之间的交互来直接建模长距离依赖关系。然而,传统的自注意力在图像大小上的计算复杂度呈二次方增长,这限制了其在高分辨率场景中的应用,尤其是在低级视觉任务(如图像SR)中。

为了在图像SR中应用Transformer,研究者们提出了多种方法来降低自注意力的计算成本。其中一些方法采用了局部自注意力,将特征图划分为子区域以限制自注意力的范围。同时,他们利用了位移机制、重叠窗口或交叉聚合操作来增强窗口之间的交互。这些方法在图像大小上实现了线性复杂度,并超越了之前的CNN方法。然而,与全局注意力相比,局部设计需要堆叠多个块来建立全局依赖关系。此外,一些方法提出了“转置”自注意力,它在通道维度而不是空间维度上操作。尽管这种方法可以隐式地捕获全局信息,但它阻碍了空间依赖关系的建模,这对于图像SR至关重要。

为了解决这些问题,本文提出了RGT模型,它能够直接在线性复杂度下探索全局信息。RGT的核心是递归泛化自注意力(Recursive-Generalization Self-Attention,RG-SA),它首先通过递归泛化模块(Recursive Generalization Module,RGM)将任意分辨率的输入特征聚合成具有小常量大小的代表性特征图。然后,利用交叉注意力在输入特征和代表性特征图之间交换全局信息。由于代表性特征图的大小远小于输入特征,整个过程的计算成本较低。此外,RG-SA进一步调整了自注意力中查询、键和值矩阵的通道维度,以减轻通道域中的冗余。

为了更好地利用全局上下文,研究者们将RG-SA与局部自注意力(Local Self-Attention,L-SA)结合,并提出了混合自适应集成(Hybrid Adaptive Integration,HAI)用于模块集成。HAI允许在Transformer块的外部直接融合不同层次(局部或全局)的特征。此外,HAI通过可学习的适配器自适应地调整输入特征以实现特征对齐。总体而言,RGT在捕获全局信息以实现准确图像SR的同时,保持了可管理的复杂度。

论文的贡献可以总结如下:一是提出了RGT模型,它能够捕获全局空间信息,适用于高分辨率图像,并在定量和视觉上取得了显著的SR性能。二是提出了RG-SA,利用递归聚合模块和交叉注意力在线性复杂度下建模全局依赖关系。三是将RG-SA与L-SA结合,更好地利用全局上下文,并提出了HAI用于模块集成。

RGT是一种新的Transformer模型,它能够有效地进行图像SR,同时保持低计算成本。RGT的设计,特别是RG-SA和HAI,使得模型能够在捕获全局信息的同时,保持可管理的复杂度。这些特点使得RGT在图像SR任务中具有显著的优势。

目录
相关文章
|
10月前
|
机器学习/深度学习
YOLOv8改进 | 注意力篇 | ACmix自注意力与卷积混合模型(提高FPS+检测效率)
YOLOv8改进 | 注意力篇 | ACmix自注意力与卷积混合模型(提高FPS+检测效率)
399 0
|
3月前
|
机器学习/深度学习 PyTorch 测试技术
TurboAttention:基于多项式近似和渐进式量化的高效注意力机制优化方案,降低LLM计算成本70%
**TurboAttention**提出了一种全新的LLM信息处理方法。该方法通过一系列优化手段替代了传统的二次复杂度注意力机制,包括稀疏多项式软最大值近似和高效量化技术。
110 5
TurboAttention:基于多项式近似和渐进式量化的高效注意力机制优化方案,降低LLM计算成本70%
|
27天前
|
计算机视觉
YOLOv11改进策略【SPPF】| AIFI : 基于Transformer的尺度内特征交互,在降低计算成本的同时提高模型的性能
YOLOv11改进策略【SPPF】| AIFI : 基于Transformer的尺度内特征交互,在降低计算成本的同时提高模型的性能
48 9
YOLOv11改进策略【SPPF】| AIFI : 基于Transformer的尺度内特征交互,在降低计算成本的同时提高模型的性能
|
4月前
|
机器学习/深度学习 PyTorch API
优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本
Transformer架构自2017年被Vaswani等人提出以来,凭借其核心的注意力机制,已成为AI领域的重大突破。该机制允许模型根据任务需求灵活聚焦于输入的不同部分,极大地增强了对复杂语言和结构的理解能力。起初主要应用于自然语言处理,Transformer迅速扩展至语音识别、计算机视觉等多领域,展现出强大的跨学科应用潜力。然而,随着模型规模的增长,注意力层的高计算复杂度成为发展瓶颈。为此,本文探讨了在PyTorch生态系统中优化注意力层的各种技术,
172 6
优化注意力层提升 Transformer 模型效率:通过改进注意力机制降低机器学习成本
|
9月前
|
算法 测试技术 异构计算
【SAM模型超级进化】MobileSAM轻量化的分割一切大模型出现,模型缩小60倍,速度提高40倍,效果不减
【SAM模型超级进化】MobileSAM轻量化的分割一切大模型出现,模型缩小60倍,速度提高40倍,效果不减
|
10月前
|
人工智能 搜索推荐 物联网
DoRA(权重分解低秩适应):一种新颖的模型微调方法_dora模型
DoRA(权重分解低秩适应):一种新颖的模型微调方法_dora模型
449 0
|
10月前
|
机器学习/深度学习
YOLOv5改进 | 注意力篇 | ACmix自注意力与卷积混合模型(提高FPS+检测效率)
YOLOv5改进 | 注意力篇 | ACmix自注意力与卷积混合模型(提高FPS+检测效率)
249 0
|
机器学习/深度学习 数据可视化
DHVT:在小数据集上降低VIT与卷积神经网络之间差距,解决从零开始训练的问题
VIT在归纳偏置方面存在空间相关性和信道表示的多样性两大缺陷。所以论文提出了动态混合视觉变压器(DHVT)来增强这两种感应偏差。
297 0
|
存储 机器学习/深度学习 算法
简单有效 | Transformer通过剪枝降低FLOPs以走向部署(文末获取论文)
简单有效 | Transformer通过剪枝降低FLOPs以走向部署(文末获取论文)
431 0
|
机器学习/深度学习 计算机视觉
高效Transformer | 85FPS!CNN + Transformer语义分割的又一境界,真的很快!
高效Transformer | 85FPS!CNN + Transformer语义分割的又一境界,真的很快!
227 0