【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 9 日论文合集)

简介: 【计算机视觉 | 目标检测】arxiv 计算机视觉关于目标检测的学术速递(8 月 9 日论文合集)

一、检测相关(10篇)

1.1 A Deep-Learning Method Using Auto-encoder and Generative Adversarial Network for Anomaly Detection on Ancient Stone Stele Surfaces

基于自动编码和产生式对抗网络的深度学习古石碑表面异常检测方法
https://arxiv.org/abs/2308.04426
准确检测古碑石表面的自然劣化和人为破坏是预防性保护的基础。现有的文化遗产保护方法由于难以平衡准确性、效率、及时性和成本而无法完美地实现这一目标。本文提出了一种深度学习方法,采用自动编码器(AE)和生成对抗网络(GAN)实时自动检测古石碑上的上述紧急情况。该方法克服了现有方法的局限性,不需要大量的异常样本,同时能够全面检测不可预测的异常。该方法包括监测、数据采集、预处理、模型构造和后处理阶段。以龙门石窟石刻为例,提出了一种基于AE和GAN结构的无监督学习模型,并对该模型进行了验证,重建精度达到99.74%.该方法的评估显示了熟练的检测七个人工设计的异常,并证明了准确性和可靠性,没有误报。该研究为深度学习在文化遗产领域的应用提供了新的思路和可能性。

1.2 V-DETR: DETR with Vertex Relative Position Encoding for 3D Object Detection

V-DETR:基于顶点相对位置编码的DETR算法
https://arxiv.org/abs/2308.04409
我们介绍了一个高性能的3D对象检测器的点云使用DETR框架。之前的尝试都以次优结果告终,因为它们无法从有限规模的训练数据中学习准确的归纳偏差。特别地,查询经常涉及远离目标对象的点,违反了对象检测中的局部性原则。为了解决这个问题,我们引入了一种新的3D顶点相对位置编码(3DV-RPE)方法,该方法根据每个解码器层中查询预测的3D框的相对位置计算每个点的位置编码,从而提供明确的信息来指导模型专注于对象附近的点,根据局部性原则。此外,我们根据对任务的理解,从数据规范化等多个方面系统地改进了流水线。我们在具有挑战性的ScanNetV 2基准测试中取得了出色的结果,在$\rm{AP}_{25}$/$\rm{AP}_{50}$中分别从65.0\%/47.0\%提高到77.8\%/66.0\%。此外,我们的方法在ScanNetV 2和SUN RGB-D数据集上创下了新的记录。代码将在http://github.com/yichaoshen-MS/V-DETR上发布。

1.3 When Super-Resolution Meets Camouflaged Object Detection: A Comparison Study

超分辨率与伪装目标检测的对比研究
https://arxiv.org/abs/2308.04370
超分辨率和伪装目标检测是计算机视觉领域的两个热点问题,有着广泛的应用。例如,低分辨率监视图像可以通过超分辨率技术和伪装对象检测来连续处理。然而,在以前的工作中,这两个领域总是孤立地研究。本文首次对两者进行了综合比较评价。具体来说,我们基准不同的超分辨率方法在常用的COD数据集,同时,我们评估了不同的COD模型的鲁棒性,通过使用COD数据处理SR方法。我们的目标是在这两个领域之间架起桥梁,发现新的实验现象,总结新的实验方法。

1.4 A Lightweight and Accurate Face Detection Algorithm Based on Retinaface

一种基于RetinaFace的轻量级准确人脸检测算法
https://arxiv.org/abs/2308.04340
在本文中,我们提出了一个轻量级的和准确的人脸检测算法LAFD(轻和准确的人脸检测)的基础上Retinaface。该算法中的骨干网络是一个改进的MobileNetV3网络,它调整卷积核的大小、反向残差块的信道扩展乘数和SE注意机制的使用。在上下文模块中引入了可变形卷积网络(DCN),该算法使用焦点损失函数代替交叉熵损失函数作为模型的分类损失函数。在WIDERFACE数据集上的测试结果表明,LAFD的平均准确率分别为94.1%,92.2%和82.1%,与Retinaface相比提高了3.4%,4.0%和8.3%,比性能良好的轻量级模型LFFD高3.1%,4.1%和4.1%。如果输入图像经过预处理并缩放到长度为1560px或宽度为1200px,则该模型在“硬”验证子集上的平均准确度为86.2%。该模型是轻量级的,只有10.2MB的大小。

1.5 Image Copy-Move Forgery Detection via Deep Cross-Scale PatchMatch

基于深度跨尺度块匹配的图像复制-移动篡改检测
https://arxiv.org/abs/2308.04188
最近开发的深度算法在图像复制-移动伪造检测(CMFD)领域取得了可喜的进展。然而,它们在一些实际场景中具有有限的推广性,其中复制-移动对象可能不出现在训练图像中或者克隆区域来自背景。为了解决上述问题,在这项工作中,我们提出了一种新的端到端CMFD框架,通过整合传统和深度方法的优点。具体来说,我们设计了一个深跨尺度patchmatch方法定制CMFD本地化复制移动区域。与现有的深度模型相比,我们的计划旨在使用从高分辨率尺度提取的特征来寻求源和目标区域之间的明确和可靠的点对点匹配。此外,我们开发了一个操纵区域的位置分支源/目标分离。所提出的CMFD框架是完全可区分的,并且可以以端到端的方式进行训练。大量的实验结果表明,我们的方法具有很高的通用性,不同的复制移动内容,所提出的计划取得了显着更好的性能比现有的方法。

1.6 An Empirical Analysis of Range for 3D Object Detection

一种三维目标检测距离的实证分析
https://arxiv.org/abs/2308.04054
基于LiDAR的三维检测在自主导航中起着至关重要的作用。令人惊讶的是,尽管自动驾驶汽车(AV)必须检测近场物体(用于避免碰撞)和远场物体(用于长期规划),但当代基准仅关注近场3D检测。然而,AV必须检测远场物体以实现安全导航。在本文中,我们使用远程检测数据集Argoverse 2.0对远场3D检测进行了实证分析,以更好地理解问题,并分享以下见解:近场LiDAR测量是密集的,并且由小的体素最佳地编码,而远场测量是稀疏的,并且用大的体素更好地编码。我们利用这一观察建立了一个集合的范围专家调整近与远场检测,并提出了简单的技术,有效地集成模型的远程检测,提高效率33%,提高精度3.2% CDS。

1.7 Real-time Strawberry Detection Based on Improved YOLOv5s Architecture for Robotic Harvesting in open-field environment

基于改进YOLOv5S架构的露地采摘草莓实时检测
https://arxiv.org/abs/2308.03998
提出了一种基于YOLOv 5的自定义目标检测模型,用于检测户外环境中的草莓。YOLOv 5s的原始架构进行了修改,将骨干网络中的C3模块替换为C2f模块,提供了更好的特征梯度流。其次,在YOLOv 5s的骨干网络的最后一层的空间金字塔池化快速与跨阶段部分网络相结合,以提高在本研究中的草莓数据集的泛化能力。该架构被命名为YOLOv 5s-Straw。在开阔地环境中采集草莓冠层的RGB图像数据集,并通过一系列的操作进行增强,包括亮度降低、亮度增加和噪声添加。为了验证所提方法在露地草莓检测中的优越性,对4个竞争检测模型(YOLOv 3-tiny、YOLOv 5s、YOLOv 5s-C2f和YOLOv 8 s)进行了训练,并在相同的计算环境下进行了测试,并与YOLOv 5s-Straw进行了比较。结果表明,使用所提出的架构实现了80.3%的最高平均精度,而使用YOLOv 3-tiny、YOLOv 5s、YOLOv 5s-C2f和YOLOv 8 s实现的平均精度分别为73.4%、77.8%、79.8%、79.3%。具体而言,YOLOv 5s-Straw的平均精度在未成熟类中为82.1%,在近成熟类中为73.5%,在成熟类中为86.6%,分别比最新的YOLOv 8 s高2.3%和3.7%。该模型包含8.610^6个网络参数,每幅图像的推理速度为18 ms,而YOLOv 8 s的推理速度较慢,仅为21.0ms,参数较重,为11.110^6,这表明该模型具有足够的快速性,可用于机器人采摘草莓的实时检测和定位。

1.8 PARTNER: Level up the Polar Representation for LiDAR 3D Object Detection

合作伙伴:提升LiDAR 3D对象检测的极坐标表示
https://arxiv.org/abs/2308.03982
最近,基于极性的表示在感知任务中显示出有前途的特性。除了不均匀地分离点云的基于笛卡尔的方法之外,将点云表示为极坐标网格已经被认为是一种替代方案,这是由于(1)其在不同分辨率下的鲁棒性能方面的优势以及(2)其在基于流的方法中的优越性。然而,由于极坐标表示的非均匀划分,最先进的基于极坐标的检测方法不可避免地遭受特征失真问题,从而与基于笛卡尔的方法相比导致不可忽略的性能差距。为了解决这个问题,我们提出了合作伙伴,一种新的3D物体检测器在极坐标。PARTNER通过全局表示重新对齐缓解了特征失真的困境,并通过将实例级几何信息引入检测头来促进回归。大量的实验表明,在基于流的检测和不同的分辨率压倒性的优势。此外,我们的方法在Waymo和ONCE验证集上的表现优于以前基于极地的作品,分别为3.68%和9.15%,从而与最先进的方法相比取得了有竞争力的结果。

1.9 Visual Saliency Detection in Advanced Driver Assistance Systems

高级驾驶辅助系统中的视觉显著检测
https://arxiv.org/abs/2308.03770
视觉显著性指的是关注并从观察到的环境中提取重要特征的固有人类机制。最近,在汽车研究领域,关于视觉显著性的估计已经有了显着的兴趣激增。在驾驶车辆时,驾驶员自然会将注意力集中在特定的物体上,采用大脑驱动的显着性机制,将某些元素优先于其他元素。在这项调查中,我们提出了一个智能系统,结合了一个基于显着性的场景理解管道的司机困倦检测系统。为了实现这一目标,我们已经实现了一个专门的3D深度网络用于语义分割,该网络已经经过预训练和定制,用于处理由汽车级外部摄像头捕获的帧。建议的管道托管在一个嵌入式平台上,利用STA1295内核,具有ARM A7双核,并嵌入硬件加速器。此外,我们采用了一个创新的生物传感器嵌入在汽车方向盘,以监测驾驶员的睡意,收集的PhotoPlethysmoGraphy(PPG)信号的司机。我们设计了一个专用的1D时间深度卷积网络来对收集的PPG时间序列进行分类,使我们能够评估驾驶员的注意力水平。最后,我们比较确定的驾驶员的注意力水平与相应的显着性为基础的场景分类,以评估整体安全水平。通过大量的实验结果验证了所提出的管道的有效性。

1.10 AMaizeD: An End to End Pipeline for Automatic Maize Disease Detection

AMaizeD:一种用于玉米病害自动检测的端到端管道
https://arxiv.org/abs/2308.03766
本文介绍了AMaizeD:一个用于自动玉米疾病检测的端到端管道,这是一个使用从无人机获得的多光谱图像早期检测玉米作物疾病的自动化框架。专门针对玉米作物的定制手工收集数据集由专家研究人员和农学家精心收集。该数据集涵盖了各种玉米品种、栽培实践和环境条件,捕获了玉米生长和疾病进展的各个阶段。通过利用多光谱图像,该框架受益于光谱分辨率的提高和对植物健康细微变化的敏感性的提高。所提出的框架采用卷积神经网络(CNN)作为特征提取器和分割技术的组合来识别玉米植物及其相关疾病。实验结果证明了该框架在检测一系列玉米疾病中的有效性,包括白粉病、炭疽病和叶枯病。该框架在自定义手动收集的数据集上实现了最先进的性能,并为农业自动化疾病检测领域做出了贡献,为玉米作物疾病的早期识别提供了实用的解决方案先进的机器学习技术和深度学习架构。

相关文章
|
6月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
123 0
|
6月前
|
机器学习/深度学习 算法 计算机视觉
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
计算机视觉实战项目3(图像分类+目标检测+目标跟踪+姿态识别+车道线识别+车牌识别+无人机检测+A*路径规划+单目测距与测速+行人车辆计数等)
|
6月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
138 0
|
2月前
|
人工智能 并行计算 PyTorch
AI计算机视觉笔记十八:Swin Transformer目标检测环境搭建
本文详细记录了Swin Transformer在AutoDL平台上的环境搭建与训练过程。作者从租用GPU实例开始,逐步介绍了虚拟环境的创建、PyTorch安装、mmcv及mmdetection的配置,并解决了安装过程中遇到的各种问题,如cython版本冲突等。最后,通过修改代码实现目标检测结果的保存。如需了解更多细节或获取完整代码,请联系作者。原文链接:[原文链接](请在此处插入原文链接)。
|
2月前
|
机器学习/深度学习 人工智能 算法
AI计算机视觉笔记十一:yolo5+Deepsort实现目标检测与跟踪(CPU版)
DeepSORT是一种基于深度学习的计算机视觉跟踪算法,扩展了SORT算法,通过添加外观描述符减少身份切换,提高跟踪效率。本文档提供了DeepSORT环境搭建步骤,包括创建虚拟环境、安装依赖及解决常见错误等,最终实现人员和车辆的跟踪计数功能。适合无GPU设备的学习者参考。
|
5月前
|
编解码 机器人 测试技术
2024年6月计算机视觉论文推荐:扩散模型、视觉语言模型、视频生成等
6月还有一周就要结束了,我们今天来总结2024年6月上半月发表的最重要的论文,重点介绍了计算机视觉领域的最新研究和进展。
132 8
|
4月前
|
机器学习/深度学习 人工智能 算法
计算机视觉:目标检测算法综述
【7月更文挑战第13天】目标检测作为计算机视觉领域的重要研究方向,近年来在深度学习技术的推动下取得了显著进展。然而,面对复杂多变的实际应用场景,仍需不断研究和探索更加高效、鲁棒的目标检测算法。随着技术的不断发展和应用场景的不断拓展,相信目标检测算法将在更多领域发挥重要作用。
|
6月前
|
编解码 边缘计算 自然语言处理
2024年5月计算机视觉论文推荐:包括扩散模型、视觉语言模型、图像编辑和生成、视频处理和生成以及图像识别等各个主题
五月发布的计算机视觉领域重要论文涵盖了扩散模型、视觉语言模型、图像生成与编辑及目标检测。亮点包括:1) Dual3D提出双模式推理策略,实现高效文本到3D图像生成;2) CAT3D利用多视图扩散模型创建3D场景,仅需少量图像;3) Hunyuan-DiT是多分辨率的中文理解扩散Transformer,可用于多模态对话和图像生成;4) 通过潜在扩散模型从EEG数据重建自然主义音乐,展示复杂音频重建潜力。此外,还有关于视觉语言模型和图像编辑的创新工作,如BlobGEN用于合成具有控制性的图像。
195 3
|
6月前
|
机器学习/深度学习 计算机视觉
AIGC核心技术——计算机视觉(CV)预训练大模型
【1月更文挑战第13天】AIGC核心技术——计算机视觉(CV)预训练大模型
586 3
AIGC核心技术——计算机视觉(CV)预训练大模型
|
11月前
|
机器学习/深度学习 PyTorch 算法框架/工具
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
Azure 机器学习 - 使用 ONNX 对来自 AutoML 的计算机视觉模型进行预测
119 0

热门文章

最新文章