【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 10 日论文合集）（下）-阿里云开发者社区

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 10 日论文合集）（下）

2023-08-16 95

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 10 日论文合集）（下）

一、检测相关(12篇)（下）

1.7 Multi-View Fusion and Distillation for Subgrade Distresses Detection based on 3D-GPR

基于3D-GPR的路基病害检测多视点融合与提取
https://arxiv.org/abs/2308.04779
三维探地雷达（3D-GPR）在路基病害检测中的应用得到了广泛的推广。为了提高检测的效率和准确性，开创性的研究尝试采用自动检测技术，特别是深度学习。然而，现有的工作通常依赖于传统的一维A扫描，二维B扫描或三维C扫描数据的探地雷达，导致空间信息不足或高计算复杂度。为了解决这些挑战，我们引入了一种新的方法，利用从3D-GPR数据的多视图信息的路基病害检测任务。此外，我们构建了一个真正的多视图图像数据集来自原始的3D-GPR数据的检测任务，它提供了更丰富的空间信息相比，A-扫描和B-扫描数据，同时降低计算复杂度相比，C-扫描数据。随后，我们开发了一种新的\textbf{M}ulti-\textbf {V} view\textbf{V}usion和\textbf{D} istilation框架，\textbf{GPR-MVFD}，专门设计用于优化利用多视图GPR数据集。该框架巧妙地结合了多视图蒸馏和基于注意力的融合，以促进路基病害的重要特征提取。此外，自适应学习机制，采用稳定的模型训练，防止性能退化，在每个分支。在这个新的探地雷达基准上进行的大量实验证明了我们所提出的框架的有效性和效率。我们的框架不仅优于现有的GPR基线，而且在多视图学习，多模态学习和知识蒸馏领域的最先进的方法。我们将发布构建的多视图GPR数据集与专家注释的标签和拟议的框架的源代码。

1.8 E3-UAV: An Edge-based Energy-Efficient Object Detection System for Unmanned Aerial Vehicles

E3-UAV：一种基于边缘的无人机节能目标检测系统
https://arxiv.org/abs/2308.04774
受深度学习技术进步的推动，基于无人机（UAV）的物体检测的应用已经在一系列领域中激增，包括车辆计数、火灾检测和城市监控。虽然大多数现有的研究仅研究基于UAV的目标检测所固有的挑战的子集，但很少有研究平衡各个方面以设计用于降低能耗的实用系统。作为回应，我们提出了E3-UAV，一个基于边缘的节能目标检测系统的无人机。该系统被设计为动态地支持各种UAV设备、边缘设备和检测算法，目的是通过决定满足任务的检测要求所需的最节能的飞行参数（包括飞行高度、飞行速度、检测算法和采样率）来最小化能量消耗。我们首先提出了一个有效的实际任务的评估指标，并建立了一个透明的能源消耗模型的基础上，数百个实际的飞行数据，形式化的能源消耗和飞行参数之间的关系。然后，我们提出了一个轻量级的能量有效的优先级决策算法的基础上，大量的实际飞行数据，以帮助系统决定飞行参数。最后，我们评估了系统的性能，我们的实验结果表明，它可以显着降低能源消耗在现实世界中的场景。此外，我们还提供了四个见解，可以帮助研究人员和工程师进一步研究基于无人机的目标检测。

1.9 Objects do not disappear: Video object detection by single-frame object location anticipation

目标不消失：基于单帧目标定位预测的视频目标检测
https://arxiv.org/abs/2308.04770
视频中的对象通常以连续平滑运动为特征。我们利用连续平滑运动在三种方式。1)通过使用对象运动作为额外的监督源来提高准确性，我们通过从静态关键帧中预测对象位置来获得。2)通过仅在所有帧的一小部分上进行昂贵的特征计算来提高效率。由于相邻视频帧通常是冗余的，因此我们仅计算单个静态关键帧的特征并预测后续帧中的对象位置。3)降低了注释成本，我们只注释关键帧，并在关键帧之间使用平滑的伪运动。我们在四个数据集上展示了计算效率，注释效率和与最先进技术相比提高的平均精度：ImageNet VID、EPIC KITCHENS-55、YouTube-BoundingBoxes和Waymo Open数据集。我们的源代码可以在https://github.com/L-KID/Videoobject-detection-by-location-anticipation上找到。

1.10 FocalFormer3D : Focusing on Hard Instance for 3D Object Detection

FocalFormer3D：关注3D对象检测的硬实例
https://arxiv.org/abs/2308.04556
3D对象检测中的假阴性（FN），对行人、车辆或其他障碍物的预测缺失可能导致自动驾驶中的潜在危险情况。虽然是致命的，但这个问题在许多当前的3D检测方法中研究不足。在这项工作中，我们提出了硬实例探测（HIP），一个通用的管道，以多阶段的方式识别\textit{FN}，并引导模型专注于挖掘困难的实例。对于3D对象检测，我们将此方法实例化为FocalFormer 3D，这是一种简单而有效的检测器，擅长挖掘困难对象并提高预测召回率。FocalFormer 3D具有多阶段查询生成以发现硬对象和框级Transformer解码器，以有效地区分对象和大量对象候选者。在nuScenes和Waymo数据集上的实验结果验证了FocalFormer 3D的优越性能。该优势导致在LiDAR和多模态设置中的检测和跟踪的强大性能。值得注意的是，FocalFormer 3D在nuScenes检测基准测试中获得了70.5 mAP和73.9 NDS，而nuScenes跟踪基准测试显示了72.1 AMOTA，两者都在nuScenes LiDAR排行榜上排名第一。我们的代码可以在\url{https：//github.com/NVlabs/FocalFormer3D}上找到。

1.11 YUDO: YOLO for Uniform Directed Object Detection

YUDO：用于均匀定向目标检测的YOLO
https://arxiv.org/abs/2308.04542
提出了一种通过预测目标中心坐标和方向角来检测有向目标的有效方法。由于对象是统一的大小，所提出的模型的工作原理，而无需预测对象的宽度和高度。用于此问题的数据集在Honeybee Segmentation and Tracking Datasets项目中给出。这项工作的贡献之一是检查的标准实时对象检测架构，如YoloV7的位置和方向检测进行定制的能力。在这种方法中使用了一种非常高效的小型架构。此外，三个检测头中只有一个没有锚就足以完成这项任务。我们还介绍了旋转盒定向IoU（DirIoU）的扩展的联合上的斜交（SkewIoU）计算，其包括绝对角度差。DirIoU用于mAP计算的目标和预测边界框的匹配过程以及NMS过滤过程。代码和型号可在https://github.com/djordjened92/yudo获得。

1.12 Toward unlabeled multi-view 3D pedestrian detection by generalizable AI: techniques and performance analysis

基于泛化人工智能的无标记多视角三维行人检测：技术与性能分析
https://arxiv.org/abs/2308.04515
我们揭示了如何可推广的人工智能可以用于改善多视图3D行人检测在未标记的目标场景。增加对新场景的泛化的一种方法是自动标记目标数据，然后可以将其用于训练检测器模型。在这种情况下，我们研究了两种自动标记目标数据的方法：使用监督检测器的伪标记和使用未经训练的检测器的自动标记（其可以在没有任何训练的情况下开箱即用）。我们采用了一个训练框架，用于优化检测器模型，使用自动标记程序。该框架包括不同的训练集/模式和多轮自动标记策略。我们对公开可用的WILDTRACK和MultiviewX数据集进行分析。我们表明，通过使用基于未经训练的检测器的自动标记方法，我们可以获得优于直接使用未经训练的检测器或检测器与现有的标记源数据集训练的结果。当使用WILDTRACK和MultiviewX作为目标数据集时，它实现了MODA约4%和1%的最佳现有未标记方法。

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 10 日论文合集）（下）

一、检测相关(12篇)（下）

1.7 Multi-View Fusion and Distillation for Subgrade Distresses Detection based on 3D-GPR

1.8 E3-UAV: An Edge-based Energy-Efficient Object Detection System for Unmanned Aerial Vehicles

1.9 Objects do not disappear: Video object detection by single-frame object location anticipation

1.10 FocalFormer3D : Focusing on Hard Instance for 3D Object Detection

1.11 YUDO: YOLO for Uniform Directed Object Detection

1.12 Toward unlabeled multi-view 3D pedestrian detection by generalizable AI: techniques and performance analysis

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递（8 月 10 日论文合集）（下）

一、检测相关(12篇)（下）

1.7 Multi-View Fusion and Distillation for Subgrade Distresses Detection based on 3D-GPR

1.8 E3-UAV: An Edge-based Energy-Efficient Object Detection System for Unmanned Aerial Vehicles

1.9 Objects do not disappear: Video object detection by single-frame object location anticipation

1.10 FocalFormer3D : Focusing on Hard Instance for 3D Object Detection

1.11 YUDO: YOLO for Uniform Directed Object Detection

1.12 Toward unlabeled multi-view 3D pedestrian detection by generalizable AI: techniques and performance analysis

热门文章

最新文章

相关课程

相关电子书