【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 10 日论文合集)(下)

简介: 【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 10 日论文合集)(下)

一、检测相关(12篇)(下)

1.7 Multi-View Fusion and Distillation for Subgrade Distresses Detection based on 3D-GPR

基于3D-GPR的路基病害检测多视点融合与提取
https://arxiv.org/abs/2308.04779
三维探地雷达(3D-GPR)在路基病害检测中的应用得到了广泛的推广。为了提高检测的效率和准确性,开创性的研究尝试采用自动检测技术,特别是深度学习。然而,现有的工作通常依赖于传统的一维A扫描,二维B扫描或三维C扫描数据的探地雷达,导致空间信息不足或高计算复杂度。为了解决这些挑战,我们引入了一种新的方法,利用从3D-GPR数据的多视图信息的路基病害检测任务。此外,我们构建了一个真正的多视图图像数据集来自原始的3D-GPR数据的检测任务,它提供了更丰富的空间信息相比,A-扫描和B-扫描数据,同时降低计算复杂度相比,C-扫描数据。随后,我们开发了一种新的\textbf{M}ulti-\textbf {V} view\textbf{V}usion和\textbf{D} istilation框架,\textbf{GPR-MVFD},专门设计用于优化利用多视图GPR数据集。该框架巧妙地结合了多视图蒸馏和基于注意力的融合,以促进路基病害的重要特征提取。此外,自适应学习机制,采用稳定的模型训练,防止性能退化,在每个分支。在这个新的探地雷达基准上进行的大量实验证明了我们所提出的框架的有效性和效率。我们的框架不仅优于现有的GPR基线,而且在多视图学习,多模态学习和知识蒸馏领域的最先进的方法。我们将发布构建的多视图GPR数据集与专家注释的标签和拟议的框架的源代码。

1.8 E3-UAV: An Edge-based Energy-Efficient Object Detection System for Unmanned Aerial Vehicles

E3-UAV:一种基于边缘的无人机节能目标检测系统
https://arxiv.org/abs/2308.04774
受深度学习技术进步的推动,基于无人机(UAV)的物体检测的应用已经在一系列领域中激增,包括车辆计数、火灾检测和城市监控。虽然大多数现有的研究仅研究基于UAV的目标检测所固有的挑战的子集,但很少有研究平衡各个方面以设计用于降低能耗的实用系统。作为回应,我们提出了E3-UAV,一个基于边缘的节能目标检测系统的无人机。该系统被设计为动态地支持各种UAV设备、边缘设备和检测算法,目的是通过决定满足任务的检测要求所需的最节能的飞行参数(包括飞行高度、飞行速度、检测算法和采样率)来最小化能量消耗。我们首先提出了一个有效的实际任务的评估指标,并建立了一个透明的能源消耗模型的基础上,数百个实际的飞行数据,形式化的能源消耗和飞行参数之间的关系。然后,我们提出了一个轻量级的能量有效的优先级决策算法的基础上,大量的实际飞行数据,以帮助系统决定飞行参数。最后,我们评估了系统的性能,我们的实验结果表明,它可以显着降低能源消耗在现实世界中的场景。此外,我们还提供了四个见解,可以帮助研究人员和工程师进一步研究基于无人机的目标检测。

1.9 Objects do not disappear: Video object detection by single-frame object location anticipation

目标不消失:基于单帧目标定位预测的视频目标检测
https://arxiv.org/abs/2308.04770
视频中的对象通常以连续平滑运动为特征。我们利用连续平滑运动在三种方式。1)通过使用对象运动作为额外的监督源来提高准确性,我们通过从静态关键帧中预测对象位置来获得。2)通过仅在所有帧的一小部分上进行昂贵的特征计算来提高效率。由于相邻视频帧通常是冗余的,因此我们仅计算单个静态关键帧的特征并预测后续帧中的对象位置。3)降低了注释成本,我们只注释关键帧,并在关键帧之间使用平滑的伪运动。我们在四个数据集上展示了计算效率,注释效率和与最先进技术相比提高的平均精度:ImageNet VID、EPIC KITCHENS-55、YouTube-BoundingBoxes和Waymo Open数据集。我们的源代码可以在https://github.com/L-KID/Videoobject-detection-by-location-anticipation上找到。

1.10 FocalFormer3D : Focusing on Hard Instance for 3D Object Detection

FocalFormer3D:关注3D对象检测的硬实例
https://arxiv.org/abs/2308.04556
3D对象检测中的假阴性(FN),对行人、车辆或其他障碍物的预测缺失可能导致自动驾驶中的潜在危险情况。虽然是致命的,但这个问题在许多当前的3D检测方法中研究不足。在这项工作中,我们提出了硬实例探测(HIP),一个通用的管道,以多阶段的方式识别\textit{FN},并引导模型专注于挖掘困难的实例。对于3D对象检测,我们将此方法实例化为FocalFormer 3D,这是一种简单而有效的检测器,擅长挖掘困难对象并提高预测召回率。FocalFormer 3D具有多阶段查询生成以发现硬对象和框级Transformer解码器,以有效地区分对象和大量对象候选者。在nuScenes和Waymo数据集上的实验结果验证了FocalFormer 3D的优越性能。该优势导致在LiDAR和多模态设置中的检测和跟踪的强大性能。值得注意的是,FocalFormer 3D在nuScenes检测基准测试中获得了70.5 mAP和73.9 NDS,而nuScenes跟踪基准测试显示了72.1 AMOTA,两者都在nuScenes LiDAR排行榜上排名第一。我们的代码可以在\url{https://github.com/NVlabs/FocalFormer3D}上找到。

1.11 YUDO: YOLO for Uniform Directed Object Detection

YUDO:用于均匀定向目标检测的YOLO
https://arxiv.org/abs/2308.04542
提出了一种通过预测目标中心坐标和方向角来检测有向目标的有效方法。由于对象是统一的大小,所提出的模型的工作原理,而无需预测对象的宽度和高度。用于此问题的数据集在Honeybee Segmentation and Tracking Datasets项目中给出。这项工作的贡献之一是检查的标准实时对象检测架构,如YoloV7的位置和方向检测进行定制的能力。在这种方法中使用了一种非常高效的小型架构。此外,三个检测头中只有一个没有锚就足以完成这项任务。我们还介绍了旋转盒定向IoU(DirIoU)的扩展的联合上的斜交(SkewIoU)计算,其包括绝对角度差。DirIoU用于mAP计算的目标和预测边界框的匹配过程以及NMS过滤过程。代码和型号可在https://github.com/djordjened92/yudo获得。

1.12 Toward unlabeled multi-view 3D pedestrian detection by generalizable AI: techniques and performance analysis

基于泛化人工智能的无标记多视角三维行人检测:技术与性能分析
https://arxiv.org/abs/2308.04515
我们揭示了如何可推广的人工智能可以用于改善多视图3D行人检测在未标记的目标场景。增加对新场景的泛化的一种方法是自动标记目标数据,然后可以将其用于训练检测器模型。在这种情况下,我们研究了两种自动标记目标数据的方法:使用监督检测器的伪标记和使用未经训练的检测器的自动标记(其可以在没有任何训练的情况下开箱即用)。我们采用了一个训练框架,用于优化检测器模型,使用自动标记程序。该框架包括不同的训练集/模式和多轮自动标记策略。我们对公开可用的WILDTRACK和MultiviewX数据集进行分析。我们表明,通过使用基于未经训练的检测器的自动标记方法,我们可以获得优于直接使用未经训练的检测器或检测器与现有的标记源数据集训练的结果。当使用WILDTRACK和MultiviewX作为目标数据集时,它实现了MODA约4%和1%的最佳现有未标记方法。

相关文章
|
6月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
138 0
|
6月前
|
机器学习/深度学习 编解码 监控
计算机视觉实战项目4(单目测距与测速+摔倒检测+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A_路径规划+行人车辆计数+动物识别等)-1
计算机视觉实战项目4(单目测距与测速+摔倒检测+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A_路径规划+行人车辆计数+动物识别等)-1
|
6月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
117 2
|
6月前
|
机器学习/深度学习 算法 数据可视化
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-2
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
|
6月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
|
6月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
142 0
|
2月前
|
人工智能 并行计算 PyTorch
AI计算机视觉笔记十八:Swin Transformer目标检测环境搭建
本文详细记录了Swin Transformer在AutoDL平台上的环境搭建与训练过程。作者从租用GPU实例开始,逐步介绍了虚拟环境的创建、PyTorch安装、mmcv及mmdetection的配置,并解决了安装过程中遇到的各种问题,如cython版本冲突等。最后,通过修改代码实现目标检测结果的保存。如需了解更多细节或获取完整代码,请联系作者。原文链接:[原文链接](请在此处插入原文链接)。
|
2月前
|
机器学习/深度学习 人工智能 算法
AI计算机视觉笔记十一:yolo5+Deepsort实现目标检测与跟踪(CPU版)
DeepSORT是一种基于深度学习的计算机视觉跟踪算法,扩展了SORT算法,通过添加外观描述符减少身份切换,提高跟踪效率。本文档提供了DeepSORT环境搭建步骤,包括创建虚拟环境、安装依赖及解决常见错误等,最终实现人员和车辆的跟踪计数功能。适合无GPU设备的学习者参考。
|
5月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
140 8
|
4月前
|
机器学习/深度学习 人工智能 算法
计算机视觉:目标检测算法综述
【7月更文挑战第13天】目标检测作为计算机视觉领域的重要研究方向,近年来在深度学习技术的推动下取得了显著进展。然而,面对复杂多变的实际应用场景,仍需不断研究和探索更加高效、鲁棒的目标检测算法。随着技术的不断发展和应用场景的不断拓展,相信目标检测算法将在更多领域发挥重要作用。

热门文章

最新文章