【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 8 日论文合集)(二)(上)

简介: 【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 8 日论文合集)(二)(上)

一、检测相关(13篇)(上)

1.1 FSD V2: Improving Fully Sparse 3D Object Detection with Virtual Voxels

FSD V2:利用虚拟体素改进完全稀疏3D目标检测
https://arxiv.org/abs/2308.03755
基于激光雷达的完全稀疏架构引起了越来越多的关注。 FSDv1 是一款脱颖而出的代表作品,尽管结构复杂且设计精巧,但仍实现了令人印象深刻的功效和效率。 在本文中,我们提出了 FSDv2,这是一种演变,旨在简化之前的 FSDv1,同时消除其手工制作的实例级表示引入的归纳偏差,从而促进更好的普遍适用性。 为此,我们引入了 \textbf{virtual voxels} 的概念,它接管了 FSDv1 中基于聚类的实例分割。 虚拟体素不仅解决了完全稀疏检测器中臭名昭著的中心特征缺失问题,而且还赋予该框架更优雅和简化的方法。 因此,我们开发了一套组件来补充虚拟体素概念,包括虚拟体素编码器、虚拟体素混合器和虚拟体素分配策略。 通过实证验证,我们证明虚拟体素机制在功能上类似于 FSDv1 中的手工聚类,但更通用。 我们在三个大型数据集上进行了实验:Waymo Open Dataset、Argoverse 2 数据集和 nuScenes 数据集。 我们的结果展示了所有三个数据集上最先进的性能,突出了 FSDv2 在远程场景中的优越性及其在不同场景中实现竞争性能的普遍适用性。 此外,我们提供全面的实验分析来阐明 FSDv2 的工作原理。

1.2 Dimensionality Reduction for Improving Out-of-Distribution Detection in Medical Image Segmentation

改进医学图像分割中非分布检测的降维方法
https://arxiv.org/abs/2308.03723
众所周知,临床部署的分割模型在训练分布之外的数据上会失败。 由于这些模型在大多数情况下都表现良好,因此必须在推理时检测分布外 (OOD) 图像,以防止自动化偏差。 这项工作将马哈拉诺比斯距离事后应用于 Swin UNETR 模型的瓶颈特征,该模型在 T1 加权磁共振成像上分割肝脏。 通过主成分分析减少瓶颈特征的维度,以高性能和最小的计算负载检测 OOD 图像。

1.3 FeatEnHancer: Enhancing Hierarchical Features for Object Detection and Beyond Under Low-Light Vision

FeatEnHancer:增强弱光视觉下目标检测及超越的层次特征
https://arxiv.org/abs/2308.03594
在弱光视觉下,为下游任务提取有用的视觉线索尤其具有挑战性。 先前的工作通过将视觉质量与机器感知相关联或设计需要对合成数据集进行预训练的照明退化转换方法来创建增强的表示。 我们认为,优化与下游任务丢失相关的增强图像表示可以产生更具表现力的表示。 因此,在这项工作中,我们提出了一个新颖的模块 FeatEnHancer,它使用由任务相关损失函数引导的多头注意力来分层组合多尺度特征,以创建合适的表示。 此外,我们的尺度内增强提高了在每个尺度或级别提取的特征的质量,并以反映不同尺度的特征对当前任务的相对重要性的方式组合特征。 FeatEnHancer 是一个通用的即插即用模块,可以合并到任何低光视觉管道中。 我们通过大量实验证明,使用 FeatEnHancer 生成的增强表示显着且持续地改善了多项弱光视觉任务的结果,包括暗物体检测(ExDark 上 +5.7 mAP)、人脸检测(DARK FACE 上 +1.5 mAP)、夜间语义分割 (ACDC 上+5.1 mIoU)和视频对象检测(DarkVision 上+1.8 mAP),突出了在低光视觉下增强分层特征的有效性。

1.4 Improving Mass Detection in Mammography Images: A Study of Weakly Supervised Learning and Class Activation Map Methods

改进乳腺摄影图像的质量检测:弱监督学习和类激活映射方法的研究
https://arxiv.org/abs/2308.03486
近年来,弱监督模型有助于使用乳腺 X 线摄影图像进行大规模检测,减少对像素级注释的需求。 然而,文献中的大多数现有模型都依赖类激活图(CAM)作为激活方法,忽视了探索其他激活技术的潜在好处。 这项工作提出了一项研究,结合最先进的方法探索和比较不同的激活图,以进行乳腺 X 线摄影图像的弱监督训练。 具体来说,我们研究了 GMIC 模型框架内的 CAM、GradCAM、GradCAM++、XGradCAM 和 LayerCAM 方法,用于乳房 X 线摄影图像中的质量检测。 该评估是在 VinDr-Mammo 数据集上进行的,利用指标准确度、真阳性率 (TPR)、假阴性率 (FNR) 和每幅图像的假阳性率 (FPPI)。 结果表明,在训练和测试阶段使用不同的激活图策略可以改进模型。 通过这种策略,我们改进了 GMIC 方法的结果,降低了 FPPI 值并提高了 TPR。

1.5 Exploring the Physical World Adversarial Robustness of Vehicle Detection

探索车辆检测的物理世界对抗稳健性
https://arxiv.org/abs/2308.03476
对抗性攻击可能会损害现实世界检测模型的稳健性。 然而,由于资源密集型实验,在现实条件下评估这些模型带来了挑战。 虚拟模拟提供了一种替代方案,但缺乏标准化基准阻碍了进展。 为了解决这个问题,我们提出了一种使用 CARLA 模拟器的创新即时级数据生成管道。 通过这个管道,我们建立了离散和连续即时级(DCI)数据集,从而能够进行涉及三种检测模型和三种物理对抗攻击的综合实验。 我们的研究结果强调了对抗条件下不同模型的表现。 Yolo v6 表现出了非凡的弹性,平均精度 (AP) 仅略有 6.59% 的平均下降。 相比之下,ASA 攻击的平均 AP 减少量高达 14.51%,是其他算法效果的两倍。 我们还注意到,静态场景会产生更高的识别 AP 值,并且结果在不同的天气条件下保持相对一致。 有趣的是,我们的研究表明,对抗性攻击算法的进步可能正在接近其“局限性”。总之,我们的工作强调了对抗性攻击在现实世界中的重要性,并引入了 DCI 数据集作为通用基准。 我们的研究结果为增强检测模型的稳健性提供了宝贵的见解,并为对抗性攻击领域的未来研究工作提供了指导。

1.6 Deepfake Detection: A Comparative Analysis

深伪检测:一种比较分析
https://arxiv.org/abs/2308.03471
本文对深度伪造检测的监督模型和自监督模型进行了全面的比较分析。 我们在四个基准(FakeAVCeleb、CelebDF-V2、DFDC 和 FaceForensics++)上评估了八个监督深度学习架构和两个基于 Transformer 的模型,这些模型使用自监督策略(DINO、CLIP)进行预训练。 我们的分析包括数据集内和数据集间评估,检查最佳性能模型、泛化能力和增强的影响。 我们还研究了模型大小和性能之间的权衡。 我们的主要目标是深入了解不同深度学习架构(变压器、CNN)、训练策略(监督、自监督)和 Deepfake 检测基准的有效性。 这些见解可以帮助指导开发更准确、更可靠的深度伪造检测系统,这对于减轻深度伪造对个人和社会的有害影响至关重要。

相关文章
|
6月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
136 0
|
6月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
|
6月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
142 0
|
2月前
|
人工智能 并行计算 PyTorch
AI计算机视觉笔记十八:Swin Transformer目标检测环境搭建
本文详细记录了Swin Transformer在AutoDL平台上的环境搭建与训练过程。作者从租用GPU实例开始,逐步介绍了虚拟环境的创建、PyTorch安装、mmcv及mmdetection的配置,并解决了安装过程中遇到的各种问题,如cython版本冲突等。最后,通过修改代码实现目标检测结果的保存。如需了解更多细节或获取完整代码,请联系作者。原文链接:[原文链接](请在此处插入原文链接)。
|
2月前
|
机器学习/深度学习 人工智能 算法
AI计算机视觉笔记十一:yolo5+Deepsort实现目标检测与跟踪(CPU版)
DeepSORT是一种基于深度学习的计算机视觉跟踪算法,扩展了SORT算法,通过添加外观描述符减少身份切换,提高跟踪效率。本文档提供了DeepSORT环境搭建步骤,包括创建虚拟环境、安装依赖及解决常见错误等,最终实现人员和车辆的跟踪计数功能。适合无GPU设备的学习者参考。
|
5月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
137 8
|
4月前
|
机器学习/深度学习 人工智能 算法
计算机视觉:目标检测算法综述
【7月更文挑战第13天】目标检测作为计算机视觉领域的重要研究方向,近年来在深度学习技术的推动下取得了显著进展。然而,面对复杂多变的实际应用场景,仍需不断研究和探索更加高效、鲁棒的目标检测算法。随着技术的不断发展和应用场景的不断拓展,相信目标检测算法将在更多领域发挥重要作用。
|
6月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
236 3
|
6月前
|
机器学习/深度学习 计算机视觉
AIGC核心技术——计算机视觉(CV)预训练大模型
【1月更文挑战第13天】AIGC核心技术——计算机视觉(CV)预训练大模型
606 3
AIGC核心技术——计算机视觉(CV)预训练大模型
|
11月前
|
机器学习/深度学习 PyTorch 算法框架/工具
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
121 0

热门文章

最新文章