【aiy篇】小目标检测综述

简介: 【aiy篇】小目标检测综述

小目标检测(Small Object Detection)是指在图像中检测尺寸较小的目标物体,通常是指物体的尺寸小于图像大小的1/10或者更小,COCO为例,面积小于等于1024像素的对象维下目标。小目标检测是计算机视觉领域的一个重要研究方向,具有广泛的应用前景,例如安防监控、智能交通、无人机等。注:此篇会根据后面学的知识不断 更新,欢迎交流回访

背景:

目标检测在过去几年中取得了显著的进展,然而,由于小目标视觉特征较差、噪声较多,小目标检测已成为计算机视觉中最具有挑战性的任务之一。此外,用于小尺寸目标检测的大规模基准测试数据集仍然不够全面。

数据集:

SODA-D和SODA-A,分别关注驾驶场景和空中场景。SODA-D包括24704张高质量交通图像和9个类别的277596个实例。SODA-A收集了2510张高分辨率航空图像,并在9个类中注释了800203个实例。

目前研究现状:

虽然在通用目标检测方面取得了实质性进展,但小目标检测的研究进展相对缓慢,即使是SOTA网络,在检测小目标和正常尺寸目标方面也存在巨大的性能差距。以DyHead为例,DyHead在COCO测试集上小目标的平均精度(mAP)度量仅为28.3%,显著落后于中型和大型目标(分别为50.3%和57.5%)。

这种性能下降有两个原因:

  • 1) 从小物体的有限和扭曲信息中学习适当表征存在固有的困难;
  • 2) 缺乏用于小对象检测的大规模数据集;
最新进展:
  • 数据处理方法
  • 基于重/过采样的方法
  • 自动增强方案
  • 尺度感知方法
  • 分而治之的多尺度检测
  • 自适应定制的训练方案
  • 特征融合方法
  • 自上而下的信息交互
  • 精细特征融合
  • 超分辨率方法
  • 基于学习的尺度扩充
  • 基于GAN的超分辨率框架
  • 上下文建模方法
  • 人类可以有效地利用环境和物体之间的关系或物体之间的相互关系来促进物体和场景的识别。这种捕捉语义或空间关联的先验知识称为上下文,它将证据或线索传递到目标区域之外。上下文信息不仅在人类的视觉系统中至关重要,在场景理解任务中也至关重要。
主要挑战:

1.目标信息丢失

特征提取器通常利用子采样操作来过滤噪声,并降低特征图的空间分辨率,从而不可避免地丢失目标信息。考虑到最终特征仍然保留了足够的信息,这种信息丢失在一定程度上几乎不会影响大中型对象的性能。然而这对小目标来说是致命的,因为检测头很难在高度结构化的表示上给出准确预测,在这种表示中,小物体的微弱信号几乎被消除。

2.噪声特征表示

判别特征对于分类和定位任务都至关重要,小物体通常分辨率低,外观质量差,因此很难从其扭曲的结构中进行区分学习。同时,小对象的区域特征容易受到背景和其他情况的污染,从而进一步将噪声引入学习表示。综上所述,小目标的特征表示容易受到噪声的影响,阻碍后续检测。

3.边界框扰动的低容忍

定位作为检测的主要任务之一,在大多数检测范式中被表述为回归问题,其中定位分支被设计为输出边界框偏移,通常采用联合交集(IoU)度量来评估精度。然而,定位小对象比定位大对象更困难。如图下图所示,与中大型对象(56.6%和71.8%)相比,小对象预测框的微小偏差(沿对角线方向的6个像素)导致IoU显著下降(从100%降至32.5%)。同时,更大的差异(例如,12像素)进一步加剧了这种情况,对于小对象,IoU下降到可怜的8.7%。也就是说,与较大的对象相比,小对象对box扰动的容忍度较低,从而加剧了回归分支的学习。

主要算法如下:

基于特征金字塔的方法:这种方法通过构建特征金字塔来捕获不同尺度的特征信息,然后将不同尺度的特征信息进行融合以提高目标检测的准确率。常见的基于特征金字塔的方法包括FPN(Feature Pyramid Network)、SSD(Single Shot Detector)等。

基于注意力机制的方法:这种方法通过引入注意力机制来提高小目标的检测性能,例如SENet(Squeeze-and-Excitation Network)、CBAM、SKNet等。

基于联合训练的方法:这种方法通过联合训练来提高小目标的检测性能,例如CornerNet、CenterNet等。

基于弱监督学习的方法:这种方法通过利用弱监督学习技术来减少标注数据的需求,例如WOD(Weakly Supervised Object Detection)等。

基于增强数据的方法:这种方法通过增加数据的多样性和难度来提高小目标的检测性能,例如使用数据增强技术 (随机裁剪、颜色抖动)、增加负样本等。

相关文章
|
7月前
|
机器学习/深度学习 编解码 资源调度
2024年3月的计算机视觉论文推荐
从去年开始,针对LLM的研究成为了大家关注的焦点。但是其实针对于计算机视觉的研究领域也在快速的发展。每周都有计算机视觉领域的创新研究,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等。
193 0
|
机器学习/深度学习 算法 PyTorch
论文阅读笔记 | 目标检测算法——DETR
论文阅读笔记 | 目标检测算法——DETR
940 0
论文阅读笔记 | 目标检测算法——DETR
|
7月前
|
机器学习/深度学习 自然语言处理 算法
2024年4月计算机视觉论文推荐
四月的计算机视觉研究涵盖多个子领域,包括扩散模型和视觉语言模型。在扩散模型中,Tango 2通过直接偏好优化改进了文本到音频生成,而Ctrl-Adapter提出了一种有效且通用的框架,用于在图像和视频扩散模型中添加多样控制。视觉语言模型的论文分析了CLIP模型在有限资源下的优化,并探讨了语言引导对低级视觉任务的鲁棒性。图像生成与编辑领域关注3D感知和高质量图像编辑,而视频理解与生成则涉及实时视频转游戏环境和文本引导的剪贴画动画。
150 0
|
5月前
|
机器学习/深度学习 人工智能 算法
计算机视觉:目标检测算法综述
【7月更文挑战第13天】目标检测作为计算机视觉领域的重要研究方向,近年来在深度学习技术的推动下取得了显著进展。然而,面对复杂多变的实际应用场景,仍需不断研究和探索更加高效、鲁棒的目标检测算法。随着技术的不断发展和应用场景的不断拓展,相信目标检测算法将在更多领域发挥重要作用。
|
7月前
|
机器学习/深度学习 数据采集 人工智能
计算机视觉技术综述
计算机视觉技术综述
|
机器学习/深度学习 编解码 人工智能
深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
深度学习应用篇-计算机视觉-语义分割综述[6]:DeepLab系列简介、DeepLabV3深入解读创新点、训练策略、主要贡献
|
自然语言处理 算法 计算机视觉
【计算机视觉】DETR 系列的最新综述!
DEtection TRansformer (DETR)将检测视为集合预测问题,而不需要生成候选区和后处理步骤,从而将TRansformer引入到目标检测任务中
1214 0
|
机器学习/深度学习 存储 人工智能
自监督学习技术综述
自监督学习技术综述
420 0
|
编解码 算法 自动驾驶
论文阅读笔记 | 目标检测算法——YOLOX
论文阅读笔记 | 目标检测算法——YOLOX
524 0
论文阅读笔记 | 目标检测算法——YOLOX
|
机器学习/深度学习 编解码 算法
论文阅读笔记 | 目标检测算法——CenterNet算法
论文阅读笔记 | 目标检测算法——CenterNet算法
331 0
论文阅读笔记 | 目标检测算法——CenterNet算法