【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 10 日论文合集)(上)

简介: 【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 10 日论文合集)(上)

一、检测相关(12篇)(上)

1.1 Volumetric Fast Fourier Convolution for Detecting Ink on the Carbonized Herculaneum Papyri

体积快速傅里叶卷积法检测炭化纸页上的油墨
https://arxiv.org/abs/2308.05070
数字文档恢复(DDR)的最新进展在分析高度损坏的书面文物方面取得了重大突破。其中,应用人工智能技术来虚拟地展开和自动检测Herculaneum papyri集合上的墨水的兴趣越来越大。该系列由碳化卷轴和文件碎片组成,这些文件已通过X射线断层扫描进行数字化,以便开发基于深度学习的特定DDR解决方案。在这项工作中,我们提出了一个修改的快速傅立叶卷积运算符的体积数据,并将其应用于具有挑战性的Herculaneum papyri油墨检测的分割架构,通过深入的实验分析证明其适用性。为了鼓励对该任务的研究以及将所提出的运算符应用于涉及体积数据的其他任务,我们将发布我们的实现(https://github.com/aimagelab/vffc)

1.2 Density Crop-guided Semi-supervised Object Detection in Aerial Images

基于密度作物制导的航空图像半监督目标检测
https://arxiv.org/abs/2308.05032
训练现代对象检测器的重要瓶颈之一是需要标记的图像,其中边界框注释必须为图像中存在的每个对象产生。这种瓶颈在航空图像中进一步加剧,其中注释器必须标记小对象,通常分布在高分辨率图像上的集群中。近年来,利用伪标签和弱-强增强一致性训练的均值教师方法在半监督对象检测中越来越受欢迎。然而,这种半监督检测器的空中图像的直接适应,其中小的集群对象经常存在,可能不会导致最佳的结果。在本文中,我们提出了一种密度裁剪引导的半监督检测器,识别集群的小对象在训练过程中,并利用它们来提高性能,在推理。在训练期间,使用从标记和未标记图像识别的聚类的图像裁剪来增强训练集,这反过来增加了检测小对象和为未标记图像上的小对象创建良好伪标签的机会。在推断期间,检测器不仅能够检测感兴趣的对象,而且能够检测具有高密度的小对象(密度裁剪)的区域,使得来自输入图像的检测和来自图像裁剪的检测被组合,从而导致总体上更准确的对象预测,特别是对于小对象。对VisDrone和DOTA数据集的常用基准进行了实证研究,结果表明,我们的密度作物引导半监督检测器的有效性比COCO风格AP中的基本mean-teacher方法平均提高了2%以上.我们的代码可从以下网址获得:https://github.com/akhilpm/DroneSSOD。

1.3 An End-to-End Framework of Road User Detection, Tracking, and Prediction from Monocular Images

一种端到端的单目图像道路用户检测、跟踪和预测框架
https://arxiv.org/abs/2308.05026
涉及多目标检测和跟踪的感知以及轨迹预测是自动驾驶的两个主要任务。然而,它们目前主要被单独研究,这导致大多数轨迹预测模块基于地面实况轨迹开发,而不考虑从现实世界场景中的检测和跟踪模块提取的轨迹是有噪声的。这些噪声轨迹可能对轨迹预测器的性能具有显著影响,并且可能导致严重的预测误差。在本文中,我们建立了一个端到端的框架检测,跟踪和轨迹预测称为OTTP(在线检测,跟踪和预测)。它采用最先进的在线多目标跟踪模型QD-3DT进行感知,并直接根据检测结果训练轨迹预测器DCENet++,而不纯粹依赖于地面真实轨迹。我们在广泛使用的nuScenes自动驾驶数据集上评估了ODTP的性能。大量的实验表明,ODPT实现了高性能的端到端的轨迹预测。DCENet++具有增强的动态地图,比其基础模型预测更准确的轨迹。当与在噪声检测结果上训练的其他生成和确定性轨迹预测模型相比时,它也更鲁棒。

1.4 Gaussian Image Anomaly Detection with Greedy Eigencomponent Selection

基于贪婪特征分量选择的高斯图像异常检测
https://arxiv.org/abs/2308.04944
图像中的异常检测(AD)是计算机视觉中的一个关键问题,它可以识别与正态的显著偏差。本文介绍了一种新的方法,使用预训练的卷积神经网络(CNN),结合了EfficientNet模型的AD降维。我们调查的重要性的组件选择,并提出了两种类型的树搜索方法,都采用贪婪的策略,最佳的特征组件选择。我们的研究进行了三个主要的实验来评估我们的方法的有效性。第一个实验探讨了测试集性能对组件选择的影响,第二个实验考察了当我们训练一个异常类型和评估所有其他类型时的性能,第三个实验调查使用最少数量的图像进行训练和选择它们的异常类型的影响。我们的方法的目的是找到最佳的子集的组件,提供最高的性能得分,而不是只关注每个组件解释的方差的比例,也了解组件在不同设置的行为。我们的研究结果表明,所提出的方法超过主成分分析(PCA)和否定主成分分析(NPCA)的检测精度,即使使用较少的组件。因此,我们的方法提供了一个有前途的替代传统的降维技术在AD,并有潜力,以提高效率和有效性的AD系统。

1.5 Unsupervised Out-of-Distribution Dialect Detection with Mahalanobis Distance

基于马氏距离的无监督异地方言检测
https://arxiv.org/abs/2308.04886
方言分类被用于各种应用中,例如机器翻译和语音识别,以提高系统的整体性能。在现实世界的场景中,部署的方言分类模型可能会遇到与训练数据分布不同的异常输入,也称为分布外(OOD)样本。这些OOD样本可能会导致意外的输出,因为这些样本的方言在模型训练期间是不可见的。分布外检测是一个新的研究领域,在方言分类的背景下,很少受到关注。为此,我们提出了一个简单而有效的无监督马氏距离特征为基础的方法来检测出的分布样本。我们利用潜在的嵌入从所有中间层的wav2vec 2.0转换为基础的方言分类模型的多任务学习。我们提出的方法优于其他国家的最先进的OOD检测方法显着。

1.6 Multi-Scale Memory Comparison for Zero-/Few-Shot Anomaly Detection

用于零/少激发异常检测的多尺度记忆比较
https://arxiv.org/abs/2308.04789
异常检测由于其广泛的应用,特别是在工业缺陷检测中,获得了相当大的关注。为了解决数据收集的挑战,研究人员已经引入了零/Few-Shot异常检测技术,该技术需要每个类别的最小正常图像。然而,复杂的工业场景通常涉及多个对象,这带来了重大挑战。鉴于此,我们提出了一个简单而强大的多尺度内存比较框架,用于零/Few-Shot异常检测。我们的方法采用了一个全球性的内存银行捕捉整个图像的功能,而一个单独的内存银行专注于简化的场景包含一个单一的对象。我们的方法的有效性进行了验证,其显着的成就,第四名在zero-shot轨道和第二名在Few-Shot轨道的视觉异常和新奇检测(VAND)的竞争。

相关文章
|
6月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
136 0
|
6月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
|
6月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
142 0
|
2月前
|
人工智能 并行计算 PyTorch
AI计算机视觉笔记十八:Swin Transformer目标检测环境搭建
本文详细记录了Swin Transformer在AutoDL平台上的环境搭建与训练过程。作者从租用GPU实例开始,逐步介绍了虚拟环境的创建、PyTorch安装、mmcv及mmdetection的配置,并解决了安装过程中遇到的各种问题,如cython版本冲突等。最后,通过修改代码实现目标检测结果的保存。如需了解更多细节或获取完整代码,请联系作者。原文链接:[原文链接](请在此处插入原文链接)。
|
2月前
|
机器学习/深度学习 人工智能 算法
AI计算机视觉笔记十一:yolo5+Deepsort实现目标检测与跟踪(CPU版)
DeepSORT是一种基于深度学习的计算机视觉跟踪算法,扩展了SORT算法,通过添加外观描述符减少身份切换,提高跟踪效率。本文档提供了DeepSORT环境搭建步骤,包括创建虚拟环境、安装依赖及解决常见错误等,最终实现人员和车辆的跟踪计数功能。适合无GPU设备的学习者参考。
|
5月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
137 8
|
4月前
|
机器学习/深度学习 人工智能 算法
计算机视觉:目标检测算法综述
【7月更文挑战第13天】目标检测作为计算机视觉领域的重要研究方向,近年来在深度学习技术的推动下取得了显著进展。然而,面对复杂多变的实际应用场景,仍需不断研究和探索更加高效、鲁棒的目标检测算法。随着技术的不断发展和应用场景的不断拓展,相信目标检测算法将在更多领域发挥重要作用。
|
6月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
236 3
|
6月前
|
机器学习/深度学习 计算机视觉
AIGC核心技术——计算机视觉(CV)预训练大模型
【1月更文挑战第13天】AIGC核心技术——计算机视觉(CV)预训练大模型
606 3
AIGC核心技术——计算机视觉(CV)预训练大模型
|
11月前
|
机器学习/深度学习 PyTorch 算法框架/工具
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
121 0

热门文章

最新文章