开发者学习笔记【阿里云人工智能工程师ACA认证(2023版):目标检测基础(一)】
课程地址:https://edu.aliyun.com/course/3112108/lesson/19275
目标检测基础(一)
内容介绍
一、 目标检测的定义
二、 目标检测的评估指标
三、 目标检测遇到的挑战
四、目标检测的常用数据集与网络
五、目标检测的典型应用
提问:
在了解目标测之前,我们来看一下这个图。图中有一只猫。现在让我们思考一个问题,不仅要识别这张图片中的猫,还要确定这只猫在图中的具体位置,也就是它在图片中的哪个区域。这可以通过目标检测技术来实现,即框出猫的位置并标出坐标。
一、目标检测的定义
目标检测是一种识别图像中存在哪些物体并确定它们的类别以及它们在图像中的位置的任务。人们很容易理解图中的眼镜的位置,这支笔的位置。我们希望计算机视觉也能做到这一点。
具体来说,目标检测的任务是给定一张图片,然后在图像中找到可能的目标,识别它们,并确定它们的位置。不仅要识别出目标,还要知道它们的具体位置,即用框标出它们的位置。这就是目标检测要完成的任务。
目标检测也被称为对象检测,它是计算机视觉领域的一个核心问题。由于物体具有不同的外观、形状、姿态以及可能受到光照和遮挡的影响,目标检测是一个具有挑战性的问题。
现在,让我们来看一下图像分类和目标检测之间的区别。图像分类只需要将图像分到一个类别中,因此它只会给出一个单一的标签,指示图像属于哪个类别。
图像分类的核心是从给定的集合中给图像分配一个标签。
图像分类读取该图片;
生成该图片属于集合{dog,cat,hat,mouse}中各个标签的概率。
这对于像识别猫这样的任务相对简单。然而,目标检测更为复杂,因为它需要识别图像中的目标,可能是一个或多个,并且需要找到它们在图像中的具体位置,然后用边界框标记出来。这两者之间的差异很大。
二、目标检测的评估指标
在目标检测中,最重要的评估指标之一是交并比(IoU),类似于分类任务中的分类准确率。在目标检测中,我们不能仅简单地说一个检测是正确的还是错误的,因此我们使用交并比来评估目标检测性能。在训练过程中,我们会有真实的边界框,这是在训练集中人工标注的真实位置。然后,在模型训练完成后,使用该模型进行预测,得到预测的边界框。如果这两个边界框重叠得很好,那么IoU得分很高,这表示模型性能好。IoU的最大值是1,表示完美匹配。
精确度表示目标检测模型正确判断图像为正类别的概率,而召回率表示模型能够正确检测出所有正类别的能力。正类别通常用"P"表示,负类别用"N"表示。混淆矩阵用来表示模型的分类结果,包括真正例(TP)、假正例(FP)、真负例(TN)和假负例(FN)。
精确度衡量了模型在标记为正类别的图像中正确预测的比例,而召回率衡量了模型正确检测出的正类别图像占所有正类别图像的比例。
这些指标一起帮助我们评估目标检测模型的性能,特别是在处理正负样本不平衡的情况下。
无论你判断对还是判断错,TP加FN代表所有的正类别。TP表示你正确地找回来的。Recall的数值与精确度类似,介于0到1之间。数值越高,表示你找出所有正类别的能力更强。
此外,还有一个重要的目标检测评估指标,即平均精度值(mAP)。mAP,mean Average Precision即各类别平均精度均值。针对每个类别的精度值(P)都被平均,并计算出所有类别的平均AP。每一个类别都可以根据Recall和Precision绘制一条曲线,那么AP就是该曲线下的面积,而mAP则是多个类别AP的平均信,这个值介于0到1之间。mAP是目标检测算法里最重要的一个评估指标。这个值反映了整体的目标检测性能,因为不同类别可能有不同的精度值。这些指标有助于全面评估目标检测模型的性能。