一、检测相关(13篇)(上)
1.1 FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels
FSD V2:利用虚拟体素改进完全稀疏3D目标检测
https://arxiv.org/abs/2308.03755
基于激光雷达的完全稀疏架构引起了越来越多的关注。 FSDv1 是一款脱颖而出的代表作品,尽管结构复杂且设计精巧,但仍实现了令人印象深刻的功效和效率。 在本文中,我们提出了 FSDv2,这是一种演变,旨在简化之前的 FSDv1,同时消除其手工制作的实例级表示引入的归纳偏差,从而促进更好的普遍适用性。 为此,我们引入了 \textbf{virtual voxels} 的概念,它接管了 FSDv1 中基于聚类的实例分割。 虚拟体素不仅解决了完全稀疏检测器中臭名昭著的中心特征缺失问题,而且还赋予该框架更优雅和简化的方法。 因此,我们开发了一套组件来补充虚拟体素概念,包括虚拟体素编码器、虚拟体素混合器和虚拟体素分配策略。 通过实证验证,我们证明虚拟体素机制在功能上类似于 FSDv1 中的手工聚类,但更通用。 我们在三个大型数据集上进行了实验:Waymo Open Dataset、Argoverse 2 数据集和 nuScenes 数据集。 我们的结果展示了所有三个数据集上最先进的性能,突出了 FSDv2 在远程场景中的优越性及其在不同场景中实现竞争性能的普遍适用性。 此外,我们提供全面的实验分析来阐明 FSDv2 的工作原理。
1.2 Dimensionality Reduction for Improving Out-of-Distribution Detection in Medical Image Segmentation
改进医学图像分割中非分布检测的降维方法
https://arxiv.org/abs/2308.03723
众所周知,临床部署的分割模型在训练分布之外的数据上会失败。 由于这些模型在大多数情况下都表现良好,因此必须在推理时检测分布外 (OOD) 图像,以防止自动化偏差。 这项工作将马哈拉诺比斯距离事后应用于 Swin UNETR 模型的瓶颈特征,该模型在 T1 加权磁共振成像上分割肝脏。 通过主成分分析减少瓶颈特征的维度,以高性能和最小的计算负载检测 OOD 图像。
1.3 FeatEnHancer: Enhancing Hierarchical Features for Object Detection and Beyond Under Low-Light Vision
FeatEnHancer:增强弱光视觉下目标检测及超越的层次特征
https://arxiv.org/abs/2308.03594
在弱光视觉下,为下游任务提取有用的视觉线索尤其具有挑战性。 先前的工作通过将视觉质量与机器感知相关联或设计需要对合成数据集进行预训练的照明退化转换方法来创建增强的表示。 我们认为,优化与下游任务丢失相关的增强图像表示可以产生更具表现力的表示。 因此,在这项工作中,我们提出了一个新颖的模块 FeatEnHancer,它使用由任务相关损失函数引导的多头注意力来分层组合多尺度特征,以创建合适的表示。 此外,我们的尺度内增强提高了在每个尺度或级别提取的特征的质量,并以反映不同尺度的特征对当前任务的相对重要性的方式组合特征。 FeatEnHancer 是一个通用的即插即用模块,可以合并到任何低光视觉管道中。 我们通过大量实验证明,使用 FeatEnHancer 生成的增强表示显着且持续地改善了多项弱光视觉任务的结果,包括暗物体检测(ExDark 上 +5.7 mAP)、人脸检测(DARK FACE 上 +1.5 mAP)、夜间语义分割 (ACDC 上+5.1 mIoU)和视频对象检测(DarkVision 上+1.8 mAP),突出了在低光视觉下增强分层特征的有效性。
1.4 Improving Mass Detection in Mammography Images: A Study of Weakly Supervised Learning and Class Activation Map Methods
改进乳腺摄影图像的质量检测:弱监督学习和类激活映射方法的研究
https://arxiv.org/abs/2308.03486
近年来,弱监督模型有助于使用乳腺 X 线摄影图像进行大规模检测,减少对像素级注释的需求。 然而,文献中的大多数现有模型都依赖类激活图(CAM)作为激活方法,忽视了探索其他激活技术的潜在好处。 这项工作提出了一项研究,结合最先进的方法探索和比较不同的激活图,以进行乳腺 X 线摄影图像的弱监督训练。 具体来说,我们研究了 GMIC 模型框架内的 CAM、GradCAM、GradCAM++、XGradCAM 和 LayerCAM 方法,用于乳房 X 线摄影图像中的质量检测。 该评估是在 VinDr-Mammo 数据集上进行的,利用指标准确度、真阳性率 (TPR)、假阴性率 (FNR) 和每幅图像的假阳性率 (FPPI)。 结果表明,在训练和测试阶段使用不同的激活图策略可以改进模型。 通过这种策略,我们改进了 GMIC 方法的结果,降低了 FPPI 值并提高了 TPR。
1.5 Exploring the Physical World Adversarial Robustness of Vehicle Detection
探索车辆检测的物理世界对抗稳健性
https://arxiv.org/abs/2308.03476
对抗性攻击可能会损害现实世界检测模型的稳健性。 然而,由于资源密集型实验,在现实条件下评估这些模型带来了挑战。 虚拟模拟提供了一种替代方案,但缺乏标准化基准阻碍了进展。 为了解决这个问题,我们提出了一种使用 CARLA 模拟器的创新即时级数据生成管道。 通过这个管道,我们建立了离散和连续即时级(DCI)数据集,从而能够进行涉及三种检测模型和三种物理对抗攻击的综合实验。 我们的研究结果强调了对抗条件下不同模型的表现。 Yolo v6 表现出了非凡的弹性,平均精度 (AP) 仅略有 6.59% 的平均下降。 相比之下,ASA 攻击的平均 AP 减少量高达 14.51%,是其他算法效果的两倍。 我们还注意到,静态场景会产生更高的识别 AP 值,并且结果在不同的天气条件下保持相对一致。 有趣的是,我们的研究表明,对抗性攻击算法的进步可能正在接近其“局限性”。总之,我们的工作强调了对抗性攻击在现实世界中的重要性,并引入了 DCI 数据集作为通用基准。 我们的研究结果为增强检测模型的稳健性提供了宝贵的见解,并为对抗性攻击领域的未来研究工作提供了指导。
1.6 Deepfake Detection: A Comparative Analysis
深伪检测:一种比较分析
https://arxiv.org/abs/2308.03471
本文对深度伪造检测的监督模型和自监督模型进行了全面的比较分析。 我们在四个基准(FakeAVCeleb、CelebDF-V2、DFDC 和 FaceForensics++)上评估了八个监督深度学习架构和两个基于 Transformer 的模型,这些模型使用自监督策略(DINO、CLIP)进行预训练。 我们的分析包括数据集内和数据集间评估,检查最佳性能模型、泛化能力和增强的影响。 我们还研究了模型大小和性能之间的权衡。 我们的主要目标是深入了解不同深度学习架构(变压器、CNN)、训练策略(监督、自监督)和 Deepfake 检测基准的有效性。 这些见解可以帮助指导开发更准确、更可靠的深度伪造检测系统,这对于减轻深度伪造对个人和社会的有害影响至关重要。