ICCV 2023 | SPIN:轻量级图像超分辨率与超像素令牌交互

简介: ICCV 2023 | SPIN:轻量级图像超分辨率与超像素令牌交互

前言

论文:Lightweight Image Super-Resolution with Superpixel Token Interaction

代码:https://github.com/ArcticHare105/SPIN


一、Introduction

基于transformer的方法在单图像超分辨率(SISR)任务中显示了令人印象深刻的结果。然而,当应用于整个图像时,自注意机制的计算成本很高。

现状

目前的方法是将低分辨率的输入图像分割成小块,这些小块分别进行处理,然后融合生成高分辨率图像。然而,这种常规的patch划分过于粗糙,缺乏可解释性,导致在注意操作过程中产生伪影和非相似结构干扰。

解决

提出了一种新的超级token交互网络(SPIN)。该方法利用超像素对局部相似像素进行聚类,形成可解释的局部区域,利用超像素内的注意实现局部信息交互。它是可解释的,因为只有相似的区域相互补充,不同的区域被排除在外。

此外,我们设计了一个超像素交叉关注模块,通过超像素的替代实现信息的传播。大量的实验表明,所提出的自旋模型在精度和轻量化方面优于最先进的SR方法。

创新

  • 提出了一种新的超分辨率模型,将超像素聚类与transformer结构相结合,产生了一个更可解释的框架。
  • 提出了超像素内注意(ISPA)和超像素交叉注意(SPCA)模块,它们在超像素内和像素之间运行,在保持捕获远程依赖关系的能力的同时,能够在不规则区域进行计算。

基于固定形状划分图像块导致连续结构的分割,这意味着在其他区域使用相似的信息来增强图像的细节。此外,在每个patch中应用的局部注意机制在计算中涉及到不相关的区域,导致了不良的推理。

为了解决这些问题,我们提出了一种融合局部和全局注意力机制和精细超像素划分的新方法。我们首先对输入图像的像素进行基于CNN的浅层特征提取,然后进行局部聚类,将相邻的像素分组为超像素。然后通过基于相似度的超像素聚类得到局部区域,并分别对其进行局部特征提取。

以往的方法采用固定形状的patch分割,只是为了提高并行计算效率,而我们的区域分割策略具有更强的可解释性,可以对输入图像进行更灵活、更自适应的分割,防止连续结构的分裂。然后引入超像素交叉注意模块,通过超像素的代理实现远程信息交互。此外,我们设计了一种超像素内注意(Intra-Superpixel Attention, ISPA)机制应用于超像素的像素,扩展了原来只在规则图像区域的注意操作这保证了局部注意机制信息交互发生在相似的区域,消除了干扰和无关计算。这两种注意机制相互交织,在局部和全局特征提取中相互协作。如图1所示,所提出的SPIN算法在PSNR和模型大小之间有很好的权衡。

我们的贡献总结如下:

(a) 我们提出了一种新的超分辨率模型,该模型将超像素聚类与变压器结构相结合,形成了一个更易于解释的框架。

(b) 我们提出了超像素内注意(ISPA)和超像素交叉注意(SPCA)模块,它们在超像素内和超像素之间运行,在保持捕获远程依赖的能力的同时,可以在不规则区域进行计算。

(c) 实验表明,与最先进的轻量级SR方法相比,本文方法具有更好的SR重构性能。

二、Method

1. Network Architecture

本文模型的体系结构如图2所示,主要由本文提出的超像素交互(SPI)块组成。在SPI块之前,我们利用一个3 × 3卷积的编码器,将低分辨率的图像 嵌入到高维特征空间。给定编码器,我们可以得到 的浅层特性:

其中 表示所提模型的编码器。

然后,我们将K个SPI块堆叠在编码器的顶部,提取出更深层的特征,这些特征包含了输入图像的丰富的低层和高层信息。每个SPI块包括四个部分:超像素聚合(SPA)、超像素交叉注意(SPCA)、超像素内注意(ISPA)和局部注意。

首先通过SPA模块将每个块的输入特征聚合成超像素。然后,ISPA模块捕获每个超像素内像素之间的依赖关系和交互,SPCA模块捕获长像素之间的依赖关系和交互。为了增强局部区域内像素之间的交互作用,在ISPA和SPCA模块之后,我们使用了一个局部注意模块,该模块使用基于窗口的注意。我们使用重叠补丁来加强特征交互。在形式上,对于第 个SPI块,整个过程可以表示为:

式中, 为第 个SPI块的超像素特征, 每个独立分量的函数。在之前的工作基础上,利用剩余连接来简化整个训练过程。

K SPI分块后,我们采用3×3卷积层和像素洗牌操作获得全局残差信息,将残差信息添加到上采样的 图像中,用于分辨高分辨率图像

2. The SPA Module

与以往将输入图像或特征分割成规则的小块的方法不同,我们提出了将输入特征分割成超像素的方法。与常规斑块容易将连通区域分割成不同的斑块相比,超像素分割可以感知地将相似的像素聚在一起,可以描述更精确的边界,减少了边界产生模糊和不准确的风险。

图3:我们的方法的超像素聚合(SPA)模块,它通过平均池初始化超像素,然后以迭代的方式更新它们

3. The SPCA Module

由于超像素只捕获局部区域像素的局部性和互联性,因此可能缺乏捕获超分辨率长期依赖关系的能力。在这里,我们利用自我注意范式通过超像素替代来增强远程通信,这有助于利用特征之间的互补性来产生高质量的超分辨率图像。由于像素特征与所归属的超像素特征高度相似,使得超像素成为一种很有希望的替代方法,尽可能地在像素之间传播信息。

一旦信息从像素传播到超像素,就需要将聚合后的信息重新分布到像素上,从而实现像素之间的信息传播。在这里,我们进一步采用了注意力机制。具体来说,我们利用另一个权重矩阵 从像素特征中获取查询。为了减少参数的数量,我们直接以超像素特征 为键,以更新后的超像素特征为值,利用交叉注意将更新后的超像素特征映射回像素级。与Transformer块类似,经过上述处理后,我们也采用了前馈网络(FFN)。我们的FFN包含一层归一化层,然后利用特征门控对输入特征进行调制,利用通道注意提取全局信息。然后使用两个全连接层和GELU激活函数。

图4:提出的超像素交叉注意(SPCA)模块。该算法首先将信息从像素传播到超像素,然后通过交叉注意机制将聚合后的信息分布到像素上

4. The ISPA Module

在给定关联图的情况下,一种提高超分辨率图像质量的直观方法是利用同一超像素内相似像素的互补性。为此,我们需要获取每个超像素对应的像素。但是,不同的超级像素包含的像素数量可能不同,这使得并行处理变得困难,也会导致意外的内存消耗,因为总会有一些超级像素包含大量的像素。为了解决这个问题,如图5所示,我们利用关联图AT,选择与每个超像素最相似的top-N个像素。

top-N的选择可能会导致一些“被忽略”的像素,也就是说,这些像素不包含在任何超像素中。对于那些“被忽略”的像素,我们利用值投影 来投影得到更新后的特征,然后将这些特征与那些通过超像素内交互更新的像素进行整合。与SPCA模块类似,我们在ISPA模块之后采用了相同的FFN。

图5:提出的超像素内注意力(ISPA)模块。我们选择与每个超像素最相似的top-N个像素进行超像素内注意。对“被忽略”的像素点进行特征整合

三、Experiment

Quantitative comparison

不同方法的定量指标见表1。我们可以观察到,基于Transformer的模型在PSNR和SSIM方面始终优于基于CNN的方法,利用图像小块之间的长距离相似性。然而,他们总是将图像分割成规则的小块,这些小块可能会破坏输入图像中的对象、边界等。

相比之下,我们的方法利用超像素为Transformer实现可解释和连续的区域划分。在所有五个基准数据集和所有三个尺度上,我们获得了最好或次最好的PSNR/SSIM分数。而且,该方法的参数数量比现有的基于Transformer的方法要少。

Qualitative comparison

图6显示了Urban100、BSDS100和Set14数据集上的比例因子×4的可视化比较。结果表明,只要LR图像中存在相应的非局部信息,所提出的自旋方法就能有效地恢复严重受损的纹理。相反,缺乏非局部注意的深度SISR模型无法准确地重建受损的纹理。例如,对比“B100/148026”图像的重建结果,我们的模型得到的结果与HR非常接近,而其他没有非局部注意的竞争SISR模型如CARN和IMDN不适合恢复这样严重受损的区域。

此外,与ESRT、SwinIR-light和ELAN-light等其他基于注意力的深度SISR方法相比,我们的SPIN模型仍然保持了较好的重建质量。此外,对于“Urban100/img020”这幅图像,即使没有太多的纹理信息,我们的方法也可以准确地恢复受损的图像。


Conclusion

在本文中,我们提出了一种名为超级令牌交互网络(SPIN)的新方法,该方法利用超像素将局部相似像素分组成可解释的局部区域。该方法利用超像元内注意促进不规则局部超像元区域内的局部信息交互,超像元交叉注意模块通过超像元替代实现远程信息交互。大量的实验表明,SPIN在精度和轻量级方面优于目前最先进的超分辨率方法。此外,该方法还解决了利用可解释区域划分来处理整个图像的难题。

目录
相关文章
|
机器学习/深度学习 编解码
ICCV2023 | SRFormer:基于置换自注意力的图像超分辨率
ICCV2023 | SRFormer:基于置换自注意力的图像超分辨率
796 0
|
8月前
|
人工智能 物联网 API
ModelScope魔搭25年8月发布月报
🔥 这个夏天,开源热潮比气温更燃!Qwen3、GLM4.5、混元、Wan2.2、Qwen-Image等重磅模型密集发布,MoE、多模态、Agent、生图视频全爆发,ModelScope 全程 Day0 支持,生态持续进化中!
643 0
|
资源调度
npm i时报错npm ERR! code ERESOLVE npm ERR! ERESOLVE could not resolve npm ERR! npm ERR! While resolving
npm i时报错npm ERR! code ERESOLVE npm ERR! ERESOLVE could not resolve npm ERR! npm ERR! While resolving
955 0
|
机器学习/深度学习 人工智能 运维
《AI领航工业制造:解锁智能转型新密码》
在科技飞速发展的今天,人工智能(AI)正深刻变革工业制造领域。AI通过优化生产流程、提升产品质量和实现设备智能运维,为企业带来前所未有的机遇。它不仅提高了生产效率,降低了成本,还增强了企业的全球竞争力。然而,数据安全、技术人才短缺和系统集成难度大等挑战也亟待解决。尽管如此,AI的应用正引领工业制造迈向智能化新时代,推动产业升级,重塑全球制造业格局。
310 14
|
机器学习/深度学习 人工智能 自然语言处理
【人工智能】Foxmail邮箱在人工智能领域的应用方法及代码解析
Foxmail邮箱作为一款流行的邮件客户端软件,主要用于个人和企业的邮件收发、管理等功能。虽然它与人工智能(AI)技术有着潜在的融合点,但直接关于Foxmail邮箱在人工智能方面的应用代码并不是常规的讨论内容,因为邮箱客户端本身并不直接包含复杂的AI算法或代码。
1306 58
|
Ubuntu Linux Python
Ubuntu学习笔记(六):ubuntu切换Anaconda和系统自带Python
本文介绍了在Ubuntu系统中切换Anaconda和系统自带Python的方法。方法1涉及编辑~/.bashrc和/etc/profile文件,更新Anaconda的路径。方法2提供了详细的步骤指导,帮助用户在Anaconda和系统自带Python之间进行切换。
683 1
|
运维 监控 Cloud Native
深入理解云原生技术:从概念到实践
在数字化转型的浪潮中,云原生技术如同星辰指引航船,引领企业驶向灵活、高效的未来。本文将深入浅出地探讨云原生的核心理念、关键技术及应用实例,旨在为读者揭开云原生的神秘面纱,展示其如何重塑软件开发与运维模式。通过理论与实践的结合,我们将一窥云原生技术的强大动力和无限可能。
|
前端开发 算法 JavaScript
java电商项目(三)
本文介绍了乐购商城的商品数据分析和管理功能。首先解释了SPU(标准产品单位)和SKU(库存量单位)的概念,以及它们在商品管理和销售中的作用。接着详细分析了SPU、SPU详情和SKU三个表的结构及其关系。文章还介绍了商品管理的需求分析、实现思路和后台代码,包括实体类、持久层、业务层和控制层的实现。最后,文章讲解了前端组件的设计和实现,包括列表组件、添加修改组件、商品描述、通用规格、SKU特有规格和SKU列表的处理。通过这些内容,读者可以全面了解乐购商城的商品管理和数据分析系统。
320 0
|
安全 Unix Linux
`/var/log/wtmp` 和 `/var/run/utmp`日志详解
`/var/log/wtmp` 和 `/var/run/utmp` 是Unix/Linux系统中记录用户登录信息的关键文件。`wtmp` 文件存储所有登录和注销事件,供 `last` 命令显示登录历史,而 `utmp` 文件实时更新,记录当前登录用户信息,可由 `who` 或 `w` 命令解析展示。两者皆为root用户访问,系统重启可能清空,且常受安全措施保护,用于系统管理和安全审计。
1559 1

热门文章

最新文章