【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 8 日论文合集)(二)(上)

简介: 【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 8 日论文合集)(二)(上)

一、检测相关(13篇)(上)

1.1 FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels

FSD V2:利用虚拟体素改进完全稀疏3D目标检测
https://arxiv.org/abs/2308.03755
基于激光雷达的完全稀疏架构引起了越来越多的关注。 FSDv1 是一款脱颖而出的代表作品,尽管结构复杂且设计精巧,但仍实现了令人印象深刻的功效和效率。 在本文中,我们提出了 FSDv2,这是一种演变,旨在简化之前的 FSDv1,同时消除其手工制作的实例级表示引入的归纳偏差,从而促进更好的普遍适用性。 为此,我们引入了 \textbf{virtual voxels} 的概念,它接管了 FSDv1 中基于聚类的实例分割。 虚拟体素不仅解决了完全稀疏检测器中臭名昭著的中心特征缺失问题,而且还赋予该框架更优雅和简化的方法。 因此,我们开发了一套组件来补充虚拟体素概念,包括虚拟体素编码器、虚拟体素混合器和虚拟体素分配策略。 通过实证验证,我们证明虚拟体素机制在功能上类似于 FSDv1 中的手工聚类,但更通用。 我们在三个大型数据集上进行了实验:Waymo Open Dataset、Argoverse 2 数据集和 nuScenes 数据集。 我们的结果展示了所有三个数据集上最先进的性能,突出了 FSDv2 在远程场景中的优越性及其在不同场景中实现竞争性能的普遍适用性。 此外,我们提供全面的实验分析来阐明 FSDv2 的工作原理。

1.2 Dimensionality Reduction for Improving Out-of-Distribution Detection in Medical Image Segmentation

改进医学图像分割中非分布检测的降维方法
https://arxiv.org/abs/2308.03723
众所周知,临床部署的分割模型在训练分布之外的数据上会失败。 由于这些模型在大多数情况下都表现良好,因此必须在推理时检测分布外 (OOD) 图像,以防止自动化偏差。 这项工作将马哈拉诺比斯距离事后应用于 Swin UNETR 模型的瓶颈特征,该模型在 T1 加权磁共振成像上分割肝脏。 通过主成分分析减少瓶颈特征的维度,以高性能和最小的计算负载检测 OOD 图像。

1.3 FeatEnHancer: Enhancing Hierarchical Features for Object Detection and Beyond Under Low-Light Vision

FeatEnHancer:增强弱光视觉下目标检测及超越的层次特征
https://arxiv.org/abs/2308.03594
在弱光视觉下,为下游任务提取有用的视觉线索尤其具有挑战性。 先前的工作通过将视觉质量与机器感知相关联或设计需要对合成数据集进行预训练的照明退化转换方法来创建增强的表示。 我们认为,优化与下游任务丢失相关的增强图像表示可以产生更具表现力的表示。 因此,在这项工作中,我们提出了一个新颖的模块 FeatEnHancer,它使用由任务相关损失函数引导的多头注意力来分层组合多尺度特征,以创建合适的表示。 此外,我们的尺度内增强提高了在每个尺度或级别提取的特征的质量,并以反映不同尺度的特征对当前任务的相对重要性的方式组合特征。 FeatEnHancer 是一个通用的即插即用模块,可以合并到任何低光视觉管道中。 我们通过大量实验证明,使用 FeatEnHancer 生成的增强表示显着且持续地改善了多项弱光视觉任务的结果,包括暗物体检测(ExDark 上 +5.7 mAP)、人脸检测(DARK FACE 上 +1.5 mAP)、夜间语义分割 (ACDC 上+5.1 mIoU)和视频对象检测(DarkVision 上+1.8 mAP),突出了在低光视觉下增强分层特征的有效性。

1.4 Improving Mass Detection in Mammography Images: A Study of Weakly Supervised Learning and Class Activation Map Methods

改进乳腺摄影图像的质量检测:弱监督学习和类激活映射方法的研究
https://arxiv.org/abs/2308.03486
近年来,弱监督模型有助于使用乳腺 X 线摄影图像进行大规模检测,减少对像素级注释的需求。 然而,文献中的大多数现有模型都依赖类激活图(CAM)作为激活方法,忽视了探索其他激活技术的潜在好处。 这项工作提出了一项研究,结合最先进的方法探索和比较不同的激活图,以进行乳腺 X 线摄影图像的弱监督训练。 具体来说,我们研究了 GMIC 模型框架内的 CAM、GradCAM、GradCAM++、XGradCAM 和 LayerCAM 方法,用于乳房 X 线摄影图像中的质量检测。 该评估是在 VinDr-Mammo 数据集上进行的,利用指标准确度、真阳性率 (TPR)、假阴性率 (FNR) 和每幅图像的假阳性率 (FPPI)。 结果表明,在训练和测试阶段使用不同的激活图策略可以改进模型。 通过这种策略,我们改进了 GMIC 方法的结果,降低了 FPPI 值并提高了 TPR。

1.5 Exploring the Physical World Adversarial Robustness of Vehicle Detection

探索车辆检测的物理世界对抗稳健性
https://arxiv.org/abs/2308.03476
对抗性攻击可能会损害现实世界检测模型的稳健性。 然而,由于资源密集型实验,在现实条件下评估这些模型带来了挑战。 虚拟模拟提供了一种替代方案,但缺乏标准化基准阻碍了进展。 为了解决这个问题,我们提出了一种使用 CARLA 模拟器的创新即时级数据生成管道。 通过这个管道,我们建立了离散和连续即时级(DCI)数据集,从而能够进行涉及三种检测模型和三种物理对抗攻击的综合实验。 我们的研究结果强调了对抗条件下不同模型的表现。 Yolo v6 表现出了非凡的弹性,平均精度 (AP) 仅略有 6.59% 的平均下降。 相比之下,ASA 攻击的平均 AP 减少量高达 14.51%,是其他算法效果的两倍。 我们还注意到,静态场景会产生更高的识别 AP 值,并且结果在不同的天气条件下保持相对一致。 有趣的是,我们的研究表明,对抗性攻击算法的进步可能正在接近其“局限性”。总之,我们的工作强调了对抗性攻击在现实世界中的重要性,并引入了 DCI 数据集作为通用基准。 我们的研究结果为增强检测模型的稳健性提供了宝贵的见解,并为对抗性攻击领域的未来研究工作提供了指导。

1.6 Deepfake Detection: A Comparative Analysis

深伪检测:一种比较分析
https://arxiv.org/abs/2308.03471
本文对深度伪造检测的监督模型和自监督模型进行了全面的比较分析。 我们在四个基准(FakeAVCeleb、CelebDF-V2、DFDC 和 FaceForensics++)上评估了八个监督深度学习架构和两个基于 Transformer 的模型,这些模型使用自监督策略(DINO、CLIP)进行预训练。 我们的分析包括数据集内和数据集间评估,检查最佳性能模型、泛化能力和增强的影响。 我们还研究了模型大小和性能之间的权衡。 我们的主要目标是深入了解不同深度学习架构(变压器、CNN)、训练策略(监督、自监督)和 Deepfake 检测基准的有效性。 这些见解可以帮助指导开发更准确、更可靠的深度伪造检测系统,这对于减轻深度伪造对个人和社会的有害影响至关重要。

相关文章
|
2月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
40 0
|
4月前
|
算法 计算机视觉
计算机视觉目标检测性能指标
目标检测是计算机视觉领域中的一个重要任务,其目标是在图像或视频中识别出物体的位置和类别。为了评估目标检测算法的性能,需要使用一系列指标来量化模型的准确性、召回率、精确率以及对不同类别的处理能力。本文将详细介绍常见的目标检测性能指标,包括精确率、召回率、F1分数、IoU、AP、mAP、P-R曲线等,同时提供相关公式和案例。
|
3月前
|
机器学习/深度学习 编解码 监控
计算机视觉实战项目4(单目测距与测速+摔倒检测+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A_路径规划+行人车辆计数+动物识别等)-1
计算机视觉实战项目4(单目测距与测速+摔倒检测+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A_路径规划+行人车辆计数+动物识别等)-1
106 1
|
3月前
|
机器学习/深度学习 监控 算法
计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)
计算机视觉实战项目(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别)
50 1
|
3月前
|
机器学习/深度学习 算法 数据可视化
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-2
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
100 0
|
3天前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
16 0
|
3月前
|
机器学习/深度学习 Ubuntu Linux
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-1
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
56 1
|
3月前
|
机器学习/深度学习 编解码 算法
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-2
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-2
68 1
|
3月前
|
机器学习/深度学习 监控 算法
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-1
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)-1
48 0
|
3月前
|
机器学习/深度学习 算法 安全
计算机视觉实战项目4(单目测距与测速+摔倒检测+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A_路径规划+行人车辆计数+动物识别等)-2
计算机视觉实战项目4(单目测距与测速+摔倒检测+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A_路径规划+行人车辆计数+动物识别等)-2
76 1
计算机视觉实战项目4(单目测距与测速+摔倒检测+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A_路径规划+行人车辆计数+动物识别等)-2

热门文章

最新文章