CVPR录用+NTIRE冠军!清华提出首个高光谱图像重建Transformer

简介: CVPR录用+NTIRE冠军!清华提出首个高光谱图像重建Transformer
【新智元导读】清华大学、哈佛大学和苏黎世联邦理工学院等提出「多快好省」的高光谱图像重建方法 MST 及 MST++ 相继登上顶会。


话不多说,先上结果。


图1 MST 与 MST++ 与 SOTA 算法的对比图(横轴代表计算量,纵轴代表性能,圆半径代表参数量)


由上图可以得出,MST 与 MST++ 不仅消耗的计算量少,而且参数量也非常小。


如此看来,刷个 SOTA 入个顶会也是情理之中了——MST 被 CVPR 2022 接收,其改进版 MST++ 被 CVPRW 2022 接收,并且在 NTIRE 2022 Spectral Reconstruction Challlenge 中取得第一名。


首个基于Transformer的快照压缩成像方法:

论文地址:https://arxiv.org/abs/2111.07910
项目地址:https://github.com/caiyuanhao1998/MST/

首个基于Transformer的高光谱重建方法:论文地址:https://arxiv.org/abs/2204.07908

项目地址:https://github.com/caiyuanhao1998/MST-plus-plus


高光谱图像简介


高光谱图像(Hyperspectral Image, HSI)指的是光谱分辨率在0.01λ数量级范围内的光谱图像。

相较于常规的RGB图像而言,高光谱图像有着更多的波段(即通道数更多)来更加准确全面的描述被捕获场景的特性。

在很多时候,从RGB图像中无法观测出异常,但是从高光谱图像的某一个波段中却能一眼看出问题所在。

这么说可能不太好理解,举个例子,比如在深夜,如果直接看RGB图像的话,可能是一片漆黑,但是如果通过红外夜视仪的话,就能很清晰看到发热的活物。这个红外夜视仪捕获的就是红外光谱图像。

也正因为光谱图像有着这样的特性,它被广泛地应用于目标检测与追踪,图像识别,遥感,医疗影像等领域。

图2 高光谱图像的应用场景举例


那么既然高光谱图像那么有用,我们应该如何获取它呢?

传统的成像设备采用光谱仪对成像场景进行空间域通道维度的扫描,费时费力,不适用于运动场景。

近些年,科学家们专门设计了快照压缩成像(Snapshot Compressive Imaging,SCI)系统来解决这一问题。

在诸多SCI系统当中,编码孔径快照光谱成像(Coded Aperture Snapshot Spectral Imaging,CASSI)系统脱颖而出,成为捕获获取光谱图像的重要手段,其结构如图3所示

图3 编码孔径快照光谱成像系统示意图


CASSI系统首先通过一个编码孔径掩膜对成像场景的各光谱通道进行调制,然后通过一个三棱镜进行色散后在相机上生成一个二维的快照估计图(compressive measurement)。

那么有一种获取高光谱图像的方法就是用CASSI结合从measurement到HSI的复原算法,我们将这样的方法记为SCI-to-HSI,如图4所示。

图4 SCI-to-HSI:从快照压缩成像进行高光谱重建效果图


这种方法好不好?

好,但是还不够好。

因为CASSI的设备很贵,价格在 10,000 到 100,000 美金。不过它有一个优势就是,存储的时候只需要存储二维的measurement,这可以极大降低存储与传输数据的成本。

那么,聪明的朋友可能就会发现了,既然本质上RGB和HSI都是同一场景的不同光谱通道成像,既然深度学习模型如 CNN,Transformer 又无所不能,那我何不直接学习一个从 RGB 到 HSI 的映射呢?

而且,RGB 相机遍地都是,RGB 图像遍地都是,RGB-to-HSI 的映射要是学得好,那岂不是点石成金,想啥来啥?何必还要破费买CASSI系统?没有中间商赚我几万美金的差价,这简直是零糖零卡零负担。

正是基于 RGB-to-HSI 的构想,NTIRE 举办了 Spectral Reconstruction Challenge 并提供了相应的数据集,效果如图5所示。

图5 RGB-to-HSI:从常规 RGB 图像重建 HSI 效果图


这次要讲的 MST 与 MST++ 就分别针对 SCI-to-HSI 与 RGB-to-HSI 设计了历史上第一个用于高光谱图像重建的 Transformer。

高光谱图像复原算法


MST 用于 SCI-to-HSI 的高光谱图像复原


针对从 2D measurement 到 3D HSI cube 的光谱图像复原,作者提出了 Mask-guided Spectral-wise Transformer (MST),如图6 (a) 所示。

MST是一个对称的 U 形的网络,其基本组成单元为 Mask-guided Self-Attention Block (MSAB), 如图6 (b) 所示。

MSAB 中最重要的就是 Mask-guided Spectral-wise Multi-head Self-Attention (MS-MSA)。

MSAB 包含两个 Layer Normalization (LN),一个 MS-MSA 和一个前向神经网络 Feed Forward Network (FFN),如图6 (c) 所示。

图6 MST的结构示意图


其中的 MS-MSA 又可以拆解为两部分,即 Mask-guided Mechanism (MM) 和 Spectral-wise Multi-head Sefl-Attention (S-MSA)。

为了避免大家觉得枯燥无味,这里就不给大家看比较琐屑的公式了,相关细节请参照原文。

图7 MS-MSA结构示意图


S-MSA:如图7 (c1) 所示。通常来说,之前的Transformer将一个 pixel vector 作为一个token。然而,高光谱具有空间稀疏而通道上高度相似的特性,因此,计算空间维度的 self-attention 会比计算光谱通道维度的 self-attention 更加低效。基于这样一个motivation,S-MSA 将每一个光谱通道的特征图作为一个 token 去计算 self-attention。

MM:如图7 (c2) 所示。在 CASSI 成像过程中,我们注意到编码孔径掩膜(mask)被用来进行调制,而 mask 上各个位置的透光率不同,导致了生成 measurement 上的各个位置的保真度不同。因此为了获得保真度随空间位置变化的信息,将 mask 作为输入生成 Mask Attention Map,然后作用在 S-MSA 的 value 上。

通过改变 MST 中各层 block 的数量 (N1, N2, N3)来得到一簇 MST family,他们是 MST-S (2, 2, 2), MST-M (2, 4, 4), MST-L (4, 7, 5)。

定量对比:在 KAIST 数据集上的效果如表1 所示。参数量-计算量-性能对比如表2 所示,可以看到,我们的MST采用更少的参数量与计算量,取得了更好的效果。画成对比图的话就如图1 所示。

表1 MST 与 SOTA 方法在 KASIT 数据集上的性能内对比


表2 MST 与 部分开源 SOTA 方法的性能-参数量-计算量对比


定性对比:在 simulation 和 real 数据上的定性对比分别如图8和图9所示。MST恢复出更多的光谱细节,同时从光谱曲线上来看,也取得了更高的 consistency, 更印证了我们方法的优越性。

图8 MST 与 SOTA 方法在 simulation 数据上的定性对比图


图9 MST 与 SOTA 方法在 real 数据上的定性对比图


MST++ 用于 RGB-to-HSI 的高光谱图像复原


MST++ 是 MST 的后续工作,其全称为 Multi-stage Spectral-wise Transformer。

顾名思义,这很好理解,就是将 MST 的 MM 去掉,然后改成首尾串联的多阶段网络。输入变成 RGB 图像,输出还是 HSI。

图10 MST++ 算法结构示意图


定量对比:MST++ 与其他 SOTA 方法在 NTIRE 2022 的 validation 和 test 数据集上的对比如表3所示。MST++ 使用更少的计算量和参数量,达到了更高的性能指标,同时取得了 NTIRE 2022 Challenge on Spectral Reconstruction from RGB 的冠军。

表3 MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 和 test 数据集上的性能对比


定性对比:MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 数据集上的定性对比如图11和图12所示。

图11 MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 数据集上的定性对比


图12 MST++ 与 SOTA 方法在 NTIRE 2022 的 validation 数据集上的定性对比


目前为止,从 RGB 到 HSI 图像复原的研究缺乏一个好用的 baseline,作者将自己的方法连同 10 个 SOTA 复原算法,预训练模型,都开源在了MST++,希望推动这个方向的发展。

小结


针对从快照压缩估计图(measurement)和从常规图像(RGB)重建出高光谱图像,作者分别提出了领域内第一个基于Transformer的方法,MST 与 MST++,以更少的参数量,更低的计算量取得了更高的性能。

同时,MST++ 还取得了 NTIRE 2022 Challenge on Spectral Reconstruction 的第一名。

相关文章
|
4月前
|
机器学习/深度学习 人工智能 算法
300多篇相关研究,复旦、南洋理工最新多模态图像编辑综述论文
【7月更文挑战第11天】复旦、南洋理工联合研究综述了多模态图像编辑,聚焦T2I扩散模型在融合多种输入模式、保持图像真实性和用户友好性方面的挑战与解决方案。论文探讨统一编辑框架,分析算法组件,指出技术进步及未来方向,同时警示伦理和社会影响。[链接:https://arxiv.org/abs/2406.14555]
51 1
|
5月前
|
数据采集 人工智能 算法
ICLR 2024 Spotlight:单模型斩获蛋白质突变预测榜一!西湖大学提出基于结构词表方法
【6月更文挑战第1天】西湖大学团队研发的蛋白质语言模型SaProt,在结构词表方法下,于蛋白质突变预测任务中荣登榜首。SaProt利用Foldseek编码的结构标记理解蛋白质行为,超越现有基准模型,在10个下游任务中表现出色。尽管训练资源需求大,且有特定任务优化空间,但该模型为生物医学研究带来新工具,促进科学理解与合作。论文链接:[https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4](https://www.biorxiv.org/content/10.1101/2023.10.01.560349v4)
184 7
|
6月前
|
测试技术 网络架构 计算机视觉
中科院领衔发表首篇基于扩散模型的图像编辑综述
【2月更文挑战第17天】中科院领衔发表首篇基于扩散模型的图像编辑综述
133 1
中科院领衔发表首篇基于扩散模型的图像编辑综述
|
机器学习/深度学习 量子技术 计算机视觉
CVPR 2022 | 图像也是德布罗意波!华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
CVPR 2022 | 图像也是德布罗意波!华为诺亚&北大提出量子启发MLP,性能超越Swin Transfomer
198 0
|
机器学习/深度学习 存储 人工智能
对比学习引领弱标签学习新SOTA,浙大新研究入选ICLR Oral
对比学习引领弱标签学习新SOTA,浙大新研究入选ICLR Oral
151 0
|
机器学习/深度学习 人工智能 自然语言处理
稀疏模型最新进展!马毅+LeCun强强联手:「白盒」非监督式学习|ICLR 2023
稀疏模型最新进展!马毅+LeCun强强联手:「白盒」非监督式学习|ICLR 2023
370 0
|
机器学习/深度学习 编解码 人工智能
图像翻译哪家强?香港科技大学博士揭秘:预训练is All You Need!
图像翻译哪家强?香港科技大学博士揭秘:预训练is All You Need!
146 0
|
机器学习/深度学习 存储 算法
清华提出首个退化可感知的展开式Transformer|NeurIPS 2022
清华提出首个退化可感知的展开式Transformer|NeurIPS 2022
190 0
|
机器学习/深度学习 人工智能 编解码
小模型实现大一统!Meta RL华人一作FBNetV5一举包揽CV任务3个SOTA
Meta现实实验室(Meta Reality Lab)华人一作提出FBNetV5,这是一种在一次运行中同时为多个任务搜索架构的神经架构搜索(NAS)算法。针对三个基本的视觉任务:图像分类、物体检测和语义分割,FBNetV5搜索到的模型在所有三个任务中都超过了目前的SoTA水平。
225 0
小模型实现大一统!Meta RL华人一作FBNetV5一举包揽CV任务3个SOTA
|
编解码 算法 数据可视化
小模型实现大一统!Meta RL华人一作FBNetV5一举包揽CV任务3个SOTA(二)
Meta现实实验室(Meta Reality Lab)华人一作提出FBNetV5,这是一种在一次运行中同时为多个任务搜索架构的神经架构搜索(NAS)算法。针对三个基本的视觉任务:图像分类、物体检测和语义分割,FBNetV5搜索到的模型在所有三个任务中都超过了目前的SoTA水平。
306 0
小模型实现大一统!Meta RL华人一作FBNetV5一举包揽CV任务3个SOTA(二)
下一篇
无影云桌面