回顾60多种transformer研究,一文总结遥感领域最新进展(1)

简介: 回顾60多种transformer研究,一文总结遥感领域最新进展

过去十年,基于深度学习的算法在遥感图像分析中得到广泛应用。最初引入到 NLP 领域的 transformer 已经渗透到计算机视觉领域。遥感社区也是如此,他们见证了视觉 transformer 用于各种任务的增加。不过,到目前为止许多调查都集中在计算机视觉中的 transformer,而关于遥感方面的调查却很少。本文系统回顾了遥感中使用基于 transformer 的最新进展,多达 60 多种方法,这些方法可用于解决遥感子领域中不同的遥感问题:超高分辨率 (VHR)、高光谱 (HSI) 和合成孔径雷达 (SAR) 图像。


遥感成像技术在过去几十年取得显着进步。现代机载传感器在空间、光谱和分辨率上的不断提升,已经能覆盖地球表面大部分范围,因此遥感技术在生态学、环境科学、土壤科学、水污染、冰川学、土地测量和分析等众多研究领域发挥着至关重要的作用。由于遥感数据通常是多模态的、位于地理空间(地理定位)中,并且尺度通常是全球范围、数据规模也在不断增长等等,这些特性都为遥感成像的自动分析带来独特的挑战。


计算机视觉的许多领域中,如对象识别、检测和分割等等,深度学习尤其是卷积神经网络 (CNN) 已经是主流。卷积神经网络通常将 RGB 图像作为输入并执行一系列卷积、局部归一化和池化操作。CNN 通常依赖于大量的训练数据,然后将生成的预训练模型用作各种下游应用的通用特征提取器。基于深度学习的计算机视觉技术的成功也启发了遥感界,并且在许多遥感任务中取得重大进展,如高光谱图像分类、变化检测和超高分辨率卫星实例分割。


CNN 主要基础之一是卷积运算,它捕捉输入图像中元素(如轮廓和边缘信息)之间的局部交互。CNN 对空间连通性和平移等效性等偏差进行编码,这些特征有助于构建通用高效的架构。CNN 中的局部感受野限制了对图像中的远距离依赖关系(如远距离部分间的关系)的建模。卷积是与内容无关的,因为卷积滤波器的权重是固定的,无论其性质如何,都将相同的权重应用于所有输入。视觉 transfomer (ViTs) 在计算机视觉的各种任务中展示了令人印象深刻的性能。ViT 基于 self-attention 机制,通过学习序列元素之间的关系有效地捕捉全局交互。最近的研究表明,ViT 具有依赖于内容的远程交互建模能力,并且可以灵活地调整其感受野以对抗数据中的干扰并学习有效的特征表示。因此,ViT 及其变体已成功用于许多计算机视觉任务,包括分类、检测和分割。


ViT 在计算机视觉领域的成功,遥感分析中使用基于 transformer 框架的的任务显着增长(见图 1),像超高分辨率图像分类、变化检测、全色锐化 ,建筑物检测和图像字幕都有 transformer 的身影。这开启遥感分析的新纪元,研究者采用各种不同的方法,如利用 ImageNet 预训练或使用视觉 transformer 执行遥感预训练。


类似地,相关文献中也有基于纯 transformer 设计或利用基于 transformer 和 CNN 的混合方法的方法。由于针对不同遥感问题的基于 transformer 的方法的迅速涌现,跟上最新的进展变得越来越具有挑战性。


在文章中,作者回顾遥感分析领域取得的进展,并介绍在遥感领域中流行的基于 transformer 的方法,文章主要贡献如下:


对基于 transformer 的模型在遥感成像中的应用进行整体概述,并且作者是第一个对遥感分析中使用 transformer 进行调研的,弥合了计算机视觉和遥感在这个快速发展和受欢迎的领域的最新进展之间的差距。


  • 对 CNN 和 Transformer 进行概述,讨论它们各自的优缺点。
  • 回顾文献中 60 多种基于 transformer 的研究工作,讨论遥感领域的最新进展。
  • 探讨遥感分析中 transformer 的不同挑战和研究方向。


文章的其余部分安排:第 2 节讨论有关遥感成像的其他相关调研;第 3 节概述遥感中不同的成像模式;第 4 节简要概述 CNN 和视觉 transformer;第 5 节回顾超高分辨率 (VHR) 成像;第 6 节介绍高光谱图像分析;第 7 节介绍合成孔径雷达(SAR)中基于 transformer 的方法进展;第 8 节讨论未来研究方向。


更多细节请参考原论文。


相关文章
|
机器学习/深度学习 编解码 算法
【动手学计算机视觉】第九讲:传统目标检测之DPM模型
DPM模型在我心里的印象一直都非常深刻,不仅是因为它非常经典,此外,它是我进入CV领域看的第一篇文章。还记得当初开始做项目时,老师就发给我一篇文章,并反复声明,要认真研究,好好学习。我反复把这篇文章看了很多遍,也把源码看了几遍,真是深深的被这个神作惊叹到了。真不愧为传统目标识别领域的经典之作,虽然时间过去很多年,特征提取加机器学习这一套在效率上远不如深度学习,但是DPM的影响力和思想依然非常有生命力,从后面深度学习模型中经常可以看到DPM的身影,DPM的原文从2009年至今引用已经超过8000次,它的价值可见一斑,下面就来介绍一下这个经典的目标检测模型。
【动手学计算机视觉】第九讲:传统目标检测之DPM模型
|
9天前
|
机器学习/深度学习 编解码 vr&ar
NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构
本文详细解读NeurIPS 2024最佳论文《视觉自回归建模:基于下一尺度预测的可扩展图像生成》。该研究提出VAR模型,通过多尺度token图和VAR Transformer结构,实现高效、高质量的图像生成,解决了传统自回归模型在二维结构信息、泛化能力和计算效率上的局限。实验表明,VAR在图像质量和速度上超越现有扩散模型,并展示出良好的扩展性和零样本泛化能力。未来研究将聚焦于文本引导生成和视频生成等方向。
55 8
NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构
|
2月前
|
机器学习/深度学习 人工智能 机器人
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
推荐一些关于将图形学先验知识融入人工智能模型的研究论文
|
7月前
|
机器学习/深度学习 人工智能 自然语言处理
深度学习中的自适应学习算法研究与应用
在深度学习领域,传统的静态模型在处理动态环境和非平稳数据时面临挑战。本文探讨了自适应学习算法在深度学习中的重要性及其应用。通过分析自适应学习算法在模型参数、损失函数和数据分布上的应用,展示了其在提升模型鲁棒性和泛化能力方面的潜力。具体讨论了几种代表性的自适应学习方法,并探索了它们在现实世界中的应用案例,从而展示了其在处理复杂问题和动态数据中的效果。
322 0
|
6月前
|
机器学习/深度学习 人工智能 自然语言处理
计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。
【7月更文挑战第2天】计算机视觉借助深度学习实现了革命性进步,从图像分类到复杂场景理解,深度学习模型如CNN、RNN重塑了领域边界。AlexNet开启新时代,后续模型不断优化,推动对象检测、语义分割、图像生成等领域发展。尽管面临数据隐私、模型解释性等挑战,深度学习已广泛应用于安防、医疗、零售和农业,预示着更智能、高效的未来,同时也强调了技术创新、伦理考量的重要性。
81 1
|
7月前
|
机器学习/深度学习 自动驾驶 TensorFlow
【机器学习】卷积神经(CNN)在图像识别中的革命性应用:自动驾驶的崛起
【机器学习】卷积神经(CNN)在图像识别中的革命性应用:自动驾驶的崛起
136 1
|
8月前
|
机器学习/深度学习 计算机视觉
YOLOv8改进 | 2023 | 通过RFAConv重塑空间注意力(深度学习的前沿突破)
YOLOv8改进 | 2023 | 通过RFAConv重塑空间注意力(深度学习的前沿突破)
286 0
|
机器学习/深度学习 人工智能 自然语言处理
关于医学多模态大模型,你需要来学习这些最新研究
关于医学多模态大模型,你需要来学习这些最新研究
334 0
|
人工智能 计算机视觉 索引
目标检测顶流的碰撞 | YOLOv5+DETR成就地表最强目标检测器DEYO,超越DINO!(二)
目标检测顶流的碰撞 | YOLOv5+DETR成就地表最强目标检测器DEYO,超越DINO!(二)
533 0
|
机器学习/深度学习 算法 固态存储
目标检测顶流的碰撞 | YOLOv5+DETR成就地表最强目标检测器DEYO,超越DINO!(一)
目标检测顶流的碰撞 | YOLOv5+DETR成就地表最强目标检测器DEYO,超越DINO!(一)
676 0