一、检测相关(12篇)(上)
1.1 Volumetric Fast Fourier Convolution for Detecting Ink on the Carbonized Herculaneum Papyri
体积快速傅里叶卷积法检测炭化纸页上的油墨
https://arxiv.org/abs/2308.05070
数字文档恢复(DDR)的最新进展在分析高度损坏的书面文物方面取得了重大突破。其中,应用人工智能技术来虚拟地展开和自动检测Herculaneum papyri集合上的墨水的兴趣越来越大。该系列由碳化卷轴和文件碎片组成,这些文件已通过X射线断层扫描进行数字化,以便开发基于深度学习的特定DDR解决方案。在这项工作中,我们提出了一个修改的快速傅立叶卷积运算符的体积数据,并将其应用于具有挑战性的Herculaneum papyri油墨检测的分割架构,通过深入的实验分析证明其适用性。为了鼓励对该任务的研究以及将所提出的运算符应用于涉及体积数据的其他任务,我们将发布我们的实现(https://github.com/aimagelab/vffc)
1.2 Density Crop-guided Semi-supervised Object Detection in Aerial Images
基于密度作物制导的航空图像半监督目标检测
https://arxiv.org/abs/2308.05032
训练现代对象检测器的重要瓶颈之一是需要标记的图像,其中边界框注释必须为图像中存在的每个对象产生。这种瓶颈在航空图像中进一步加剧,其中注释器必须标记小对象,通常分布在高分辨率图像上的集群中。近年来,利用伪标签和弱-强增强一致性训练的均值教师方法在半监督对象检测中越来越受欢迎。然而,这种半监督检测器的空中图像的直接适应,其中小的集群对象经常存在,可能不会导致最佳的结果。在本文中,我们提出了一种密度裁剪引导的半监督检测器,识别集群的小对象在训练过程中,并利用它们来提高性能,在推理。在训练期间,使用从标记和未标记图像识别的聚类的图像裁剪来增强训练集,这反过来增加了检测小对象和为未标记图像上的小对象创建良好伪标签的机会。在推断期间,检测器不仅能够检测感兴趣的对象,而且能够检测具有高密度的小对象(密度裁剪)的区域,使得来自输入图像的检测和来自图像裁剪的检测被组合,从而导致总体上更准确的对象预测,特别是对于小对象。对VisDrone和DOTA数据集的常用基准进行了实证研究,结果表明,我们的密度作物引导半监督检测器的有效性比COCO风格AP中的基本mean-teacher方法平均提高了2%以上.我们的代码可从以下网址获得:https://github.com/akhilpm/DroneSSOD。
1.3 An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images
一种端到端的单目图像道路用户检测、跟踪和预测框架
https://arxiv.org/abs/2308.05026
涉及多目标检测和跟踪的感知以及轨迹预测是自动驾驶的两个主要任务。然而,它们目前主要被单独研究,这导致大多数轨迹预测模块基于地面实况轨迹开发,而不考虑从现实世界场景中的检测和跟踪模块提取的轨迹是有噪声的。这些噪声轨迹可能对轨迹预测器的性能具有显著影响,并且可能导致严重的预测误差。在本文中,我们建立了一个端到端的框架检测,跟踪和轨迹预测称为OTTP(在线检测,跟踪和预测)。它采用最先进的在线多目标跟踪模型QD-3DT进行感知,并直接根据检测结果训练轨迹预测器DCENet++,而不纯粹依赖于地面真实轨迹。我们在广泛使用的nuScenes自动驾驶数据集上评估了ODTP的性能。大量的实验表明,ODPT实现了高性能的端到端的轨迹预测。DCENet++具有增强的动态地图,比其基础模型预测更准确的轨迹。当与在噪声检测结果上训练的其他生成和确定性轨迹预测模型相比时,它也更鲁棒。
1.4 Gaussian Image Anomaly Detection with Greedy Eigencomponent Selection
基于贪婪特征分量选择的高斯图像异常检测
https://arxiv.org/abs/2308.04944
图像中的异常检测(AD)是计算机视觉中的一个关键问题,它可以识别与正态的显著偏差。本文介绍了一种新的方法,使用预训练的卷积神经网络(CNN),结合了EfficientNet模型的AD降维。我们调查的重要性的组件选择,并提出了两种类型的树搜索方法,都采用贪婪的策略,最佳的特征组件选择。我们的研究进行了三个主要的实验来评估我们的方法的有效性。第一个实验探讨了测试集性能对组件选择的影响,第二个实验考察了当我们训练一个异常类型和评估所有其他类型时的性能,第三个实验调查使用最少数量的图像进行训练和选择它们的异常类型的影响。我们的方法的目的是找到最佳的子集的组件,提供最高的性能得分,而不是只关注每个组件解释的方差的比例,也了解组件在不同设置的行为。我们的研究结果表明,所提出的方法超过主成分分析(PCA)和否定主成分分析(NPCA)的检测精度,即使使用较少的组件。因此,我们的方法提供了一个有前途的替代传统的降维技术在AD,并有潜力,以提高效率和有效性的AD系统。
1.5 Unsupervised Out-of-Distribution Dialect Detection with Mahalanobis Distance
基于马氏距离的无监督异地方言检测
https://arxiv.org/abs/2308.04886
方言分类被用于各种应用中,例如机器翻译和语音识别,以提高系统的整体性能。在现实世界的场景中,部署的方言分类模型可能会遇到与训练数据分布不同的异常输入,也称为分布外(OOD)样本。这些OOD样本可能会导致意外的输出,因为这些样本的方言在模型训练期间是不可见的。分布外检测是一个新的研究领域,在方言分类的背景下,很少受到关注。为此,我们提出了一个简单而有效的无监督马氏距离特征为基础的方法来检测出的分布样本。我们利用潜在的嵌入从所有中间层的wav2vec 2.0转换为基础的方言分类模型的多任务学习。我们提出的方法优于其他国家的最先进的OOD检测方法显着。
1.6 Multi-Scale Memory Comparison for Zero-/Few-Shot Anomaly Detection
用于零/少激发异常检测的多尺度记忆比较
https://arxiv.org/abs/2308.04789
异常检测由于其广泛的应用,特别是在工业缺陷检测中,获得了相当大的关注。为了解决数据收集的挑战,研究人员已经引入了零/Few-Shot异常检测技术,该技术需要每个类别的最小正常图像。然而,复杂的工业场景通常涉及多个对象,这带来了重大挑战。鉴于此,我们提出了一个简单而强大的多尺度内存比较框架,用于零/Few-Shot异常检测。我们的方法采用了一个全球性的内存银行捕捉整个图像的功能,而一个单独的内存银行专注于简化的场景包含一个单一的对象。我们的方法的有效性进行了验证,其显着的成就,第四名在zero-shot轨道和第二名在Few-Shot轨道的视觉异常和新奇检测(VAND)的竞争。