【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 14 日论文合集)

简介: 【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 14 日论文合集)

一、检测相关(7篇)

1.1 Continual Face Forgery Detection via Historical Distribution Preserving

基于保持历史分布的连续人脸伪造检测
https://arxiv.org/abs/2308.06217
人脸伪造技术发展迅速,并带来了严重的安全威胁。现有的人脸伪造检测方法试图学习可推广的特征,但它们仍然缺乏实际应用。此外,在历史训练数据上微调这些方法在时间和存储方面是资源密集型的。在本文中,我们关注一个新颖且具有挑战性的问题:连续人脸伪造检测(CFFD),旨在有效地学习新的伪造攻击,而不会忘记以前的攻击。具体来说,我们提出了一个历史分布保存(HDP)的框架,保留和保存的历史面孔的分布。为了实现这一目标,我们使用通用对抗扰动(UAP)来模拟历史伪造分布,并使用知识蒸馏来保持真实人脸在不同模型中的分布变化。我们还构建了一个新的基准CFFD与三个评估协议。我们在基准测试上的大量实验表明,我们的方法优于最先进的竞争对手。

1.2 Exploring Predicate Visual Context in Detecting of Human-Object Interactions

谓词视觉语境在人-物交互检测中的探索
https://arxiv.org/abs/2308.06202
最近,DETR框架已成为人-物交互(HOI)研究的主导方法。特别地,基于两级变压器的H 0 I检测器是最具性能和训练效率的方法之一。然而,这些通常条件的HOI分类的对象特征,缺乏细粒度的上下文信息,避开姿势和方向信息有利于视觉线索的对象身份和框的四肢。这自然阻碍了复杂或模糊的相互作用的识别。在这项工作中,我们通过可视化和精心设计的实验来研究这些问题。因此,我们研究如何最好地重新引入图像功能,通过交叉注意。通过改进的查询设计,对键和值的广泛探索,以及作为空间指导的框对位置嵌入,我们的模型具有增强的谓词视觉上下文(PViC),在HICO-DET和V-COCO基准测试中优于最先进的方法,同时保持低的训练成本。

1.3 Out-of-Distribution Detection for Monocular Depth Estimation

用于单目深度估计的非分布检测
https://arxiv.org/abs/2308.06072
在单目深度估计中,不确定性估计方法主要针对图像噪声引入的数据不确定性。与之前的工作相比,我们解决了由于缺乏知识而导致的不确定性,这与检测未由训练分布表示的数据(所谓的分布外(OOD)数据)有关。出于异常检测的动机,我们建议从基于重构误差的编码器-解码器深度估计模型检测OOD图像。给定用固定深度编码器提取的特征,我们训练图像解码器以仅使用分布内数据进行图像重建。因此,OOD图像导致高重建误差,我们使用该误差来区分分布内和分布外样本。我们在标准NYU Depth V2和KITTI基准上建立了我们的实验,作为分布数据。我们的事后方法在不同的模型上表现得非常好,并且在不修改训练的编码器-解码器深度估计模型的情况下优于现有的不确定性估计方法。

1.4 Cyclic-Bootstrap Labeling for Weakly Supervised Object Detection

用于弱监督目标检测的循环Bootstrap标记法
https://arxiv.org/abs/2308.05991
弱监督对象检测的最新进展是多实例检测网络(MIDN)和有序在线细化的组合。然而,只有图像级的注释,MIDN不可避免地分配高分,一些意想不到的区域建议时,生成伪标签。这些不准确的高评分区域建议将误导后续细化模块的训练,从而妨碍检测性能。在这项工作中,我们探讨了如何改善质量的伪标记MIDN。形式上,我们设计了循环引导标记(CBL),一种新的弱监督对象检测管道,它优化了MIDN与排名信息从一个可靠的教师网络。具体来说,我们通过引入加权指数移动平均策略,利用各种细化模块,获得了这种教师网络。提出了一种新的类特定排序提取算法,利用加权集成教师网络的输出提取具有排序信息的MIDN。因此,MIDN被引导分配更高的分数,以准确的建议,在他们的邻居,从而有利于后续的伪标记。在流行的PASCAL VOC 2007 \& 2012和COCO数据集上进行了大量的实验,证明了我们的CBL框架的优越性能。代码将在https://github.com/Yinyf0804/WSOD-CBL/上提供。

1.5 MS3D++: Ensemble of Experts for Multi-Source Unsupervised Domain Adaption in 3D Object Detection

MS3D++:三维目标检测中的多源无监督域自适应专家集成
https://arxiv.org/abs/2308.05988
在不熟悉的领域部署3D探测器已被证明会导致检测率急剧下降高达70-90%,这是由于激光雷达、地理区域或天气条件与原始训练数据集的差异。该域间隙导致对密集观察的对象的缺失检测、未对准的置信度分数和增加的高置信度假阳性,使得检测器高度不可靠。为了解决这个问题,我们引入了MS 3D ++,这是一个用于3D对象检测中多源无监督域自适应的自训练框架。MS 3D ++通过生成高质量的伪标签提供了一种简单的域自适应方法,使3D探测器能够适应各种激光雷达类型,而无论其密度如何。我们的方法有效地融合了来自不同源域的多帧预训练检测器的集合的预测,以提高域泛化。随后,我们在时间上细化预测,以确保在框定位和对象分类的时间一致性。此外,我们提出了一个深入的研究各种3D检测器组件的性能和特质在跨域的上下文中,改进跨域检测器集成提供有价值的见解。在Waymo、nuScenes和Lyft上的实验结果表明,使用MS 3D ++伪标签训练的检测器实现了最先进的性能,与在低密度和高密度激光雷达的鸟瞰图(BEV)评估中使用人类注释标签进行训练的性能相当。

1.6 YOLOrtho -- A Unified Framework for Teeth Enumeration and Dental Disease Detection

YOLOrtho--牙齿计数和牙病检测的统一框架
https://arxiv.org/abs/2308.05967
Detecting dental diseases through panoramic X-rays images is a standard procedure for dentists. Normally, a dentist need to identify diseases and find the infected teeth. While numerous machine learning models adopting this two-step procedure have been developed, there has not been an end-to-end model that can identify teeth and their associated diseases at the same time. To fill the gap, we develop YOLOrtho, a unified framework for teeth enumeration and dental disease detection. We develop our model on Dentex Challenge 2023 data, which consists of three distinct types of annotated data. The first part is labeled with quadrant, and the second part is labeled with quadrant and enumeration and the third part is labeled with quadrant, enumeration and disease. To further improve detection, we make use of Tufts Dental public dataset. To fully utilize the data and learn both teeth detection and disease identification simultaneously, we formulate diseases as attributes attached to their corresponding teeth. Due to the nature of position relation in teeth enumeration, We replace convolution layer with CoordConv in our model to provide more position information for the model. We also adjust the model architecture and insert one more upsampling layer in FPN in favor of large object detection. Finally, we propose a post-process strategy for teeth layout that corrects teeth enumeration based on linear sum assignment. Results from experiments show that our model exceeds large Diffusion-based model.

1.7 Aphid Cluster Recognition and Detection in the Wild Using Deep Learning Models

基于深度学习模型的野外麦长管蚜识别与检测
https://arxiv.org/abs/2308.05881
蚜虫侵扰对作物生产、农村社区和全球粮食安全构成重大威胁。虽然化学虫害防治对于最大限度地提高产量至关重要,但在整个田地中施用化学品既不可持续,又成本高昂。因此,蚜虫的精确定位和管理对于有针对性地施用农药至关重要。本文主要关注使用深度学习模型来检测蚜虫集群。我们提出了一种新的方法来估计感染水平检测蚜虫集群。为了促进这项研究,我们从高粱地捕获了一个大规模的数据集,手动选择了5,447张包含蚜虫的图像,并在这些图像中注释了每个单独的蚜虫集群。为了便于使用机器学习模型,我们通过将图像裁剪成补丁来进一步处理图像,从而产生包括151,380个图像补丁的标记数据集。然后,我们在蚜虫数据集上实现并比较了四种最先进的对象检测模型(VFNet,GFLV2,PAA和ATSS)的性能。大量的实验结果表明,所有的模型产生稳定的平均精度和召回方面的相似性能。然后,我们提出合并邻近的集群,并删除由裁剪引起的微小集群,性能进一步提高了约17%。该研究证明了使用机器学习模型自动检测和管理昆虫的可行性。标记的数据集将公开提供给研究社区。

相关文章
|
6月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
123 0
|
6月前
|
机器学习/深度学习 编解码 监控
计算机视觉实战项目4(单目测距与测速+摔倒检测+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A_路径规划+行人车辆计数+动物识别等)-1
计算机视觉实战项目4(单目测距与测速+摔倒检测+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A_路径规划+行人车辆计数+动物识别等)-1
|
6月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A路径规划+单目测距与测速+行人车辆计数等)
108 2
|
6月前
|
机器学习/深度学习 算法 数据可视化
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)-2
计算机视觉+深度学习+机器学习+opencv+目标检测跟踪+一站式学习(代码+视频+PPT)
|
6月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
|
6月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
138 0
|
2月前
|
人工智能 并行计算 PyTorch
AI计算机视觉笔记十八:Swin Transformer目标检测环境搭建
本文详细记录了Swin Transformer在AutoDL平台上的环境搭建与训练过程。作者从租用GPU实例开始,逐步介绍了虚拟环境的创建、PyTorch安装、mmcv及mmdetection的配置,并解决了安装过程中遇到的各种问题,如cython版本冲突等。最后,通过修改代码实现目标检测结果的保存。如需了解更多细节或获取完整代码,请联系作者。原文链接:[原文链接](请在此处插入原文链接)。
|
2月前
|
机器学习/深度学习 人工智能 算法
AI计算机视觉笔记十一:yolo5+Deepsort实现目标检测与跟踪(CPU版)
DeepSORT是一种基于深度学习的计算机视觉跟踪算法,扩展了SORT算法,通过添加外观描述符减少身份切换,提高跟踪效率。本文档提供了DeepSORT环境搭建步骤,包括创建虚拟环境、安装依赖及解决常见错误等,最终实现人员和车辆的跟踪计数功能。适合无GPU设备的学习者参考。
|
5月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
132 8
|
4月前
|
机器学习/深度学习 人工智能 算法
计算机视觉:目标检测算法综述
【7月更文挑战第13天】目标检测作为计算机视觉领域的重要研究方向,近年来在深度学习技术的推动下取得了显著进展。然而,面对复杂多变的实际应用场景,仍需不断研究和探索更加高效、鲁棒的目标检测算法。随着技术的不断发展和应用场景的不断拓展,相信目标检测算法将在更多领域发挥重要作用。

热门文章

最新文章