一、Transformer(14篇)
1.1 LEFormer: A Hybrid CNN-Transformer Architecture for Accurate Lake Extraction from Remote Sensing Imagery
LEFormer:一种用于从遥感图像中准确提取湖泊的混合CNN-Transformer结构
https://arxiv.org/abs/2308.04397
由于湖泊形状复杂,且存在噪声,遥感图像湖泊提取具有挑战性。现有的方法遭受模糊的分割边界和差的前景建模。在本文中,我们提出了一种混合CNN变压器架构,称为LEFormer,准确的湖泊提取。LEFormer包含四个主要模块:CNN编码器、Transformer编码器、交叉编码器融合和轻量级解码器。CNN编码器恢复局部空间信息并改善精细尺度细节。同时,Transformer编码器捕获任意长度的序列之间的长距离依赖关系,使它们能够更好地获得全局特征和上下文信息。最后,采用轻量级解码器进行掩码预测。我们评估了LEFormer两个数据集,地表水(SW)和青藏高原湖泊(QTPL)的性能和效率。实验结果表明,LEFormer始终实现国家的最先进(SOTA)的性能和效率,这两个数据集,优于现有的方法。具体而言,LEFormer在SW和QTPL数据集上分别实现了90.86%和97.42%的mIoU,参数计数为3.61M,而比之前的SOTA方法小20倍。
1.2 Pelta: Shielding Transformers to Mitigate Evasion Attacks in Federated Learning
Pelta:在联合学习中屏蔽Transformer以减少逃避攻击
https://arxiv.org/abs/2308.04373
联合学习的主要前提是机器学习模型更新是在本地计算的,特别是为了保护用户数据隐私,因为这些数据永远不会离开其设备的边界。这种机制假设的一般模型,一旦聚合,被广播到合作和非恶意节点。然而,如果没有适当的防御措施,被入侵的客户端可以很容易地在本地内存中探测模型,以寻找对抗性的例子。例如,考虑到基于图像的应用程序,对抗性示例包括由本地模型错误分类的不可感知的扰动图像(人眼),这些图像可以稍后呈现给受害者节点的对应模型以复制攻击。为了减轻这种恶意探测,我们引入Pelta,一种利用可信硬件的新型屏蔽机制。通过利用可信执行环境(TEE)的功能,Pelta掩盖了部分反向传播链规则,否则通常会被攻击者用于恶意样本的设计。我们评估Pelta的最先进的集成模型的状态,并证明其对自注意梯度对抗攻击的有效性。
1.3 SSTFormer: Bridging Spiking Neural Network and Memory Support Transformer for Frame-Event based Recognition
SSTFormer:基于帧-事件识别的桥接尖峰神经网络和记忆支持转换器
https://arxiv.org/abs/2308.04369
基于事件相机的模式识别是近年来兴起的一个新的研究课题。目前的研究人员通常将事件流转换为图像,图形或体素,并采用深度神经网络进行基于事件的分类。尽管可以在简单的事件识别数据集上实现良好的性能,但是,由于以下两个问题,它们的结果可能仍然受到限制。首先,它们仅采用空间稀疏事件流进行识别,这可能无法很好地捕获颜色和细节纹理信息。其次,它们采用尖峰神经网络(SNN)进行具有次优结果的节能识别,或者采用人工神经网络(ANN)进行能量密集型高性能识别。然而,很少有人考虑在这两个方面之间取得平衡。在本文中,我们正式提出通过融合RGB帧和事件流同时识别模式,并提出了一个新的RGB帧事件识别框架,以解决上述问题。所提出的方法包含四个主要模块,即,存储器支持用于RGB帧编码的Transformer网络、用于原始事件流编码的尖峰神经网络、用于RGB事件特征聚合的多模态瓶颈融合模块以及预测头。由于缺乏基于RGB事件的分类数据集,我们还提出了一个大规模的扑克事件数据集,其中包含114个类,和27102帧事件对使用DVS 346事件相机记录。在两个基于RGB-Event的分类数据集上的实验充分验证了该框架的有效性。我们希望这项工作能够通过融合RGB帧和事件流来促进模式识别的发展。我们的数据集和源代码都将在https://github.com/Event-AHU/SSTFormer上发布。
1.4 3D-VisTA: Pre-trained Transformer for 3D Vision and Text Alignment
3D-Vista:用于3D视觉和文本对齐的预先训练的转换器
https://arxiv.org/abs/2308.04352
3D视觉语言基础(3D-VL)是一个新兴的领域,旨在将3D物理世界与自然语言连接起来,这对于实现体现智能至关重要。目前的3D-VL模型严重依赖于复杂的模块,辅助损耗和优化技巧,这需要一个简单而统一的模型。在本文中,我们提出了3D-VisTA,这是一种用于3D视觉和文本对齐的预训练Transformer,可以轻松地适应各种下游任务。3D-VisTA简单地利用自我注意层进行单模态建模和多模态融合,而无需任何复杂的特定任务设计。为了进一步提高其在3D-VL任务上的性能,我们构建了ScanScribe,这是第一个用于3D-VL预训练的大规模3D场景-文本对数据集。ScanScribe包含来自ScanNet和3R-Scan数据集的1,185个独特室内场景的2,995个RGB-D扫描,以及从现有3D-VL任务,模板和GPT-3生成的配对278 K场景描述。3D-VisTA通过掩码语言/对象建模和场景文本匹配在ScanScribe上进行预训练。它在各种3D-VL任务上取得了最先进的结果,从视觉基础和密集字幕到问答和情景推理。此外,3D-VisTA展示了卓越的数据效率,即使在下游任务微调期间具有有限的注释也能获得强大的性能。
1.5 Unifying Two-Stream Encoders with Transformers for Cross-Modal Retrieval
统一双流编码器和Transformer的跨通道检索
https://arxiv.org/abs/2308.04343
大多数现有的跨模态检索方法使用具有不同架构的图像和文本的双流编码器,\textit{e.g.},CNN用于图像,RNN/Transformer用于文本。这种架构上的差异可能导致不同的语义分布空间,限制图像和文本之间的交互,并进一步导致图像和文本之间的对齐不良。为了填补这一研究空白,受Transformers在视觉任务中的最新进展的启发,我们建议将编码器架构与变压器统一起来。具体来说,我们设计了一个跨模态检索框架,纯粹基于双流Transformers,被称为\textbf{层次对齐变压器(HAT)},它由一个图像变压器,一个文本变压器,和一个层次对齐模块。使用这种相同的架构,编码器可以为图像和文本生成具有更相似特征的表示,并使它们之间的交互和对齐变得更加容易。此外,为了利用丰富的语义,我们设计了一个层次对齐方案,探索图像和文本之间的不同层的多级对应关系。为了评估所提出的HAT的有效性,我们进行了广泛的实验,两个基准数据集,MSCOCO和Flickr 30 K。实验结果表明,HAT优于SOTA基线的大幅度。具体而言,在两个关键任务上,\texit {即},在图像到文本和文本到图像检索中,HAT在MSCOCO上的相对得分分别比Recall@1提高了7.6%和16.7%,在Flickr 30 k上的相对得分分别提高了4.4%和11.6%。代码可在\url{https://github.com/LuminosityX/HAT}获得。
1.6 Exploring Transformers for Open-world Instance Segmentation
探索开放世界实例分割的Transformer
https://arxiv.org/abs/2308.04206
开放世界实例分割是一个新兴的课题,其目的是通过学习有限数量的基本类别对象来分割图像中的所有对象。这项任务是具有挑战性的,因为看不见的类别的数量可能是看不见类别的数百倍。近年来,DETR类模型在封闭世界中得到了广泛的研究,而在开放世界中还处于探索阶段。在本文中,我们利用Transformer开放世界的实例分割和目前SWORD。首先,我们引入在分类头之前附加停止梯度操作,并进一步添加IoU头来发现新的对象。我们证明,一个简单的停止梯度操作,不仅防止新的对象被抑制为背景,但也允许网络享受启发式标签分配的优点。其次,我们提出了一个新的对比学习框架,以扩大对象和背景之间的表征。具体来说,我们维护一个通用的对象队列,以获得对象中心,并动态地选择阳性和阴性样本的对象查询进行对比学习。虽然以前的作品只专注于追求平均召回率和忽视平均精度,我们显示出突出的SWORD考虑到这两个标准。我们的模型在各种开放世界的跨类别和跨数据集概括中实现了最先进的性能。特别是,在VOC到非VOC设置中,我们的方法在ARb100上设置了40.0%的最新结果,在ARm100上设置了34.9%。对于COCO到UVO的泛化,SWORD显着优于以前最好的开放世界模型,APm和ARm100分别为5.9%和8.1%。
1.7 EPCFormer: Expression Prompt Collaboration Transformer for Universal Referring Video Object Segmentation
EPCFormer:通用参考视频对象分割的表情提示协作转换器
https://arxiv.org/abs/2308.04162
音频引导的视频对象分割(A-VOS)和参考视频对象分割(R-VOS)是两个高度相关的任务,它们都旨在根据用户提供的表达提示从视频序列中分割特定对象。然而,由于在不同模态的建模表示中的挑战,当代方法努力在交互灵活性与高精度定位和分割之间取得平衡。在本文中,我们从两个角度来解决这个问题:音频和文本的对齐表示以及音频、文本和视觉特征之间的深度交互。首先,我们提出了一个通用的架构,表达式提示协作Transformer,这里EPCFormer。接下来,我们提出了一个表达式对齐(EA)的机制,音频和文本表达。通过引入音频和文本表达的对比学习,建议EPCFormer实现的音频和文本表达表示相同的对象之间的语义等价的理解。然后,为了促进音频,文本和视频功能之间的深度交互,我们引入了表达视觉注意力(EVA)机制。在表达提示方面的视频对象分割的知识可以通过深入探索文本和音频之间的互补线索在两个任务之间无缝地转移。在公认的基准测试上的实验表明,我们的通用EPCFormer在这两项任务上都达到了最先进的结果。EPCFormer的源代码将在https://github.com/lab206/EPCFormer上公开。
1.8 SODFormer: Streaming Object Detection with Transformer Using Events and Frames
SODFormer:使用事件和帧的Transformer流对象检测
https://arxiv.org/abs/2308.04047
流式传输异步事件和帧的两种互补感测模态的DAVIS相机已逐渐用于解决主要对象检测挑战(例如,快速运动模糊和低光)。然而,如何有效地利用丰富的时间线索和融合两个异构的视觉流仍然是一个具有挑战性的努力。为了解决这一挑战,我们提出了一种新的流式对象检测器与Transformer,即SODFormer,它首先集成了事件和帧,以异步的方式连续检测对象。从技术上讲,我们首先构建大规模多模态神经形态对象检测数据集(即,PKU-DAVIS-SOD)超过1080.1k个手动标签。然后,我们设计了一个时空Transformer架构,通过端到端的序列预测问题,其中新颖的时间变换器模块利用丰富的时间线索,从两个视觉流,以提高检测性能检测对象。最后,提出了一种基于注意力的异步融合模块,将两种异构感知方式进行融合,实现了两端优势互补,可以随时查询,定位目标,突破了基于同步帧的融合策略输出频率的限制。结果表明,建议的SODFormer优于四个国家的最先进的方法和我们的八个基线的显着保证金。我们还表明,我们的统一框架工作良好,即使在传统的基于帧的相机失败的情况下,例如,高速运动和低光照条件下。我们的数据集和代码可以在https://github.com/dianzl/SODFormer上获得。
1.9 CheXFusion: Effective Fusion of Multi-View Features using Transformers for Long-Tailed Chest X-Ray Classification
CheXFusion:基于变换的多视点特征的有效融合用于长尾胸部X线分类
https://arxiv.org/abs/2308.03968
医学图像分类由于疾病的长尾分布、诊断发现的共现以及每个研究或患者可用的多个视图而带来独特的挑战。本文介绍了我们在CXR-LT上对ICCV CVAMD 2023共享任务的解决方案:胸部X线片的多标签长尾分类。我们的方法介绍了CheXFusion,一个基于变换器的融合模块,结合多视图图像。融合模块,引导自注意和交叉注意机制,有效地聚合多视图特征,同时考虑标签共现。此外,我们探索数据平衡和自我训练的方法,以优化模型的性能。我们的解决方案在MIMIC-CXR测试集中以0.372 mAP实现了最先进的测试结果,在竞争中获得了第一名。我们在这项任务中的成功强调了医学图像分类中考虑多视图设置、类不平衡和标签共现的重要性。公开代码可在https://github.com/dongkyuk/CXR-LT-public-solution获得
1.10 Recurrent Multi-scale Transformer for High-Resolution Salient Object Detection
用于高分辨率显著目标检测的递归多尺度Transformer
https://arxiv.org/abs/2308.03826
显著对象检测(SOD)的目的是识别和分割图像或视频中最显著的对象。作为一个重要的预处理步骤,它在多媒体和视觉任务中有许多潜在的应用。随着成像设备的进步,近来对具有高分辨率图像的SOD的需求很大。然而,传统的SOD方法在很大程度上局限于低分辨率图像,难以适应高分辨率SOD(HRSOD)的发展。虽然出现了一些HRSOD方法,但没有足够大的数据集用于训练和评估。此外,目前的HRSOD方法通常产生不完整的对象区域和不规则的对象边界。为了解决上述问题,在这项工作中,我们首先提出了一个新的HRS 10 K数据集,其中包含10,500张2K-8 K分辨率的高质量注释图像。据我们所知,它是HRSOD任务的最大数据集,这将大大有助于未来训练和评估模型的工作。此外,为了提高HRSOD的性能,我们提出了一种新的循环多尺度Transformer(RMFormer),它循环地利用共享Transformers和多尺度细化架构。因此,可以在较低分辨率预测的指导下生成高分辨率显著性图。在高分辨率和低分辨率基准上的大量实验表明了该框架的有效性和优越性。源代码和数据集发布于:https://github.com/DrowsyMon/RMFormer。
1.11 GeoTransformer: Fast and Robust Point Cloud Registration with Geometric Transformer
GeoTransformer:基于几何变换的快速、健壮的点云配准
https://arxiv.org/abs/2308.03768
研究了点云配准中提取精确对应关系的问题。最近的无关键点方法已经通过绕过检测可重复的关键点而显示出巨大的潜力,这在低重叠场景中尤其难以做到。它们在下采样超点上寻找对应关系,然后将其传播到密集点。基于它们的相邻块是否重叠来匹配超级点。这种稀疏和松散的匹配需要捕获点云的几何结构的上下文特征。我们提出几何Transformer,或简称GeoTransformer,学习几何特征的鲁棒超点匹配。它编码成对距离和三重态角度,使其对刚性变换不变,并且在低重叠情况下具有鲁棒性。简化的设计达到令人惊讶的高匹配精度,使得在对准变换的估计中不需要RANSAC,导致100倍的加速。在包括室内、室外、合成、多路和非刚性在内的丰富基准上进行的大量实验证明了GeoTransformer的有效性。值得注意的是,我们的方法提高了18 {\sim}31$个百分点的内点比和注册召回超过$7$点的挑战性3DLoMatch基准。我们的代码和模型可以在\url{https://github.com/qinzheng93/GeoTransformer}上找到。
1.12 Enhancing image captioning with depth information using a Transformer-based framework
使用基于Transformer的框架增强具有深度信息的图像字幕
https://arxiv.org/abs/2308.03767
图像字幕是一项具有挑战性的场景理解任务,它连接了计算机视觉和自然语言处理。虽然图像字幕模型已经成功地产生了优秀的描述,但该领域主要集中在为2D图像生成单个句子。本文研究了是否集成深度信息与RGB图像可以提高字幕任务,并产生更好的描述。为此,我们提出了一个基于变换器的编码器-解码器框架,用于生成一个多句子的3D场景描述。RGB图像及其相应的深度图作为输入提供给我们的框架,将它们结合起来,以产生对输入场景的更好的理解。深度图可以是真实的或估计的,这使得我们的框架广泛适用于任何RGB字幕数据集。我们探索了不同的融合方法来融合RGB和深度图像。在NYU-v2数据集和斯坦福图像段落字幕数据集上进行实验。在我们使用NYU-v2数据集的工作中,我们发现了不一致的标签,这阻碍了使用深度信息来增强字幕任务的好处。结果甚至比仅使用RGB图像更糟糕。因此,我们提出了一个清洁版本的NYU-v2数据集,更一致和信息。我们对这两个数据集的结果表明,所提出的框架有效地受益于深度信息,无论是地面真相还是估计,并生成更好的字幕。代码、预训练模型和NYU-v2数据集的清理版本将公开提供。
1.13 SDLFormer: A Sparse and Dense Locality-enhanced Transformer for Accelerated MR Image Reconstruction
SDLFormer:一种用于MR图像加速重建的稀密局域增强转换器
https://arxiv.org/abs/2308.04262
Transformers已经成为卷积神经网络的可行替代方案,因为它们能够学习空间域中的非局部区域关系。Transformer的自注意机制使得Transformers能够捕获图像中的长程依赖性,这对于加速的MRI图像重建可能是期望的,因为欠采样的影响在图像域中是非局部的。尽管其计算效率,基于窗口的Transformers遭受受限制的感受野,因为依赖性被限制在图像窗口的范围内。我们提出了一个基于窗口的Transformer网络,它集成了扩张的注意力机制和卷积加速MRI图像重建。该网络由扩张和密集的邻域注意Transformers组成,以增强远距离邻域像素关系,并在变换器模块中引入深度卷积,以学习低级平移不变特征,用于加速MRI图像重建。所提出的模型是在一个自我监督的方式进行训练。我们对冠状PD,冠状PDFS和轴向T2的多线圈MRI加速进行了广泛的实验,并在基于k空间分裂的自监督学习中进行了4x和5x欠采样对比。我们将我们的方法与其他重建架构和并行域自监督学习基线进行比较。结果表明,所提出的模型表现出的改善幅度(i)约1.40 dB的PSNR和0.028左右的SSIM平均超过其他架构(ii)约1.44 dB的PSNR和0.029左右的SSIM比并行域自监督学习。该代码可在https://github.com/rahul-gs-16/sdlformer.git上获得
1.14 High-Resolution Cranial Defect Reconstruction by Iterative, Low-Resolution, Point Cloud Completion Transformers
迭代低分辨率点云完成Transformer高分辨率颅骨缺损重建
https://arxiv.org/abs/2308.03813
每年有成千上万的人遭受各种类型的颅骨损伤,需要个性化的植入物,其手动设计昂贵且耗时。因此,非常需要一种用于增加个性化颅骨重建的可用性的自动专用系统。自动颅骨缺损重建的问题可以被公式化为形状完成任务,并使用专用的深度网络来解决。目前,最常见的方法是使用体积表示并应用专用于图像分割的深度网络。然而,这种方法有几个限制,并没有很好地扩展到高分辨率的卷,也没有考虑到数据的稀疏性。在我们的工作中,我们将问题重新表述为点云完成任务。我们提出了一种迭代的、基于变换器的方法来以任何分辨率重建颅骨缺陷,同时在训练和推理过程中也是快速和资源高效的。我们比较所提出的方法,以国家的最先进的体积的方法和表现出优越的性能,在GPU的内存消耗,同时保持高品质的重建缺陷。