多目标跟踪 | 评测指标

本文涉及的产品
智能开放搜索 OpenSearch行业算法版,1GB 20LCU 1个月
实时计算 Flink 版,5000CU*H 3个月
实时数仓Hologres,5000CU*H 100GB 3个月
简介: 多目标跟踪器的性能需要某些指标来进行度量,目前使用比较广泛的评测指标主要有 Bernardin 等人定义的 CLEAR MOT 指标、Ristani 等人定义的 ID scores 指标以及最新的 Luiten 等人定义的HOTA 指标。

 一、基础的评测指标

1、ID Switches (ID Sw.):被跟踪目标身份发生错误地更改时被称为身份跳变。在对视频序列的跟踪过程当中,ID Sw.表示所有跟踪目标身份交换的次数。

2、Frames Per Second (FPS):多目标跟踪器的跟踪速度。

3、False Positives (FP):在视频序列中不能与 真实轨迹的边界框 相匹配的 假设边界框 被称为假阳性;即本来是假的,预测认为是真的。FP 表示整个视频序列中假阳性的数量。

4、False Negatives (FN):在视频序列中不能与 假设边界框 相匹配的 真实轨迹的边界框 被称为假阴性;即本来是真的,预测认为是假的。FN 表示整个视频序列中假阴性的数量。

5、Mostly Tracked tracklets (MT):在跟踪过程中各个目标至少有 80%的视频帧都能被正确地跟踪的跟踪轨迹数量。

6、Mostly Lost tracklets (ML):在跟踪过程中各个目标至多有 20%的视频帧能被正确地跟踪的跟踪轨迹数量。

7、Fragments (Frag):真实跟踪轨迹由于某种原因发生中断并在后来又继续被准确跟踪上被称为跟踪碎片。Frag 表示整个视频序列中碎片的总数。

以上 7 种评测指标主要度量多目标跟踪器的基础性能,其中加粗的比较常用;为了进一步评判多目标跟踪器的综合性能,出现了其他指标。


二、MOTA 和 MOTP

CLEAR MOT 指标提出了 多目标跟踪精度MOTA 多目标跟踪准确度MOTP 两个综合性的指标,这两个指标能够衡量多目标跟踪器在整体上的性能好坏。

2.1 MOTA:多目标跟踪精度

MOTA除了误报(FP)、丢失目标(FN)、ID异常切换(ID Sw.)情况以外的正确预测样本占所有样本的比率,衡量了跟踪器在检测目标和保持轨迹时的性能,与目标位置的估计精度无关。多目标跟踪准确度的分数 MOTA如下计算:

image.gif

mt表示整个视频序列中假阳性的数量(FN),fpt表示整个视频序列中假阴性的数量(FP),mme t表示跟踪过程中身份交换的数量(ID Sw.),gt表示整个视频序列当中真实目标的数量。

这里 MOTA的分数可能为负数,因为假阴性、假阳性和身份跳变的数量可能会大于视频序列中真实目标的数量。

2.2 MOTP: 多目标跟踪准确度

MOTP默认检测框重合度阈值下正确预测的目标与预测目标总数之比,衡量检测器的定位精度。.多目标跟踪精确度的分数 MOTP 如下计算:

image.gif

ct 表示为在第 t 帧时候总共匹配的数量,d 表示假设边界框与真实边界框之间的距离值。

 

三、IDP、IDR、IDF

为了判断多目标跟踪器是否能够长时间地对某个目标进行准确地跟踪,ID scores 指标引入了 IDF  (Identification  F1) , IDP  (Identification  Precision) 和 IDR (Identification Recall)指标并添加到多目标跟踪中,以衡量跟踪器的身份维持能力。

3.1 IDP:识别精确度

整体评价跟踪器的好坏,识别精确度 IDP 的分数如下进行计算:

image.gif

3.2 IDR:识别召回率

它是当IDF1-score最高时正确预测的目标数与真实目标数之比,识别召回率 IDR 的分数如下进行计算:

image.gif

3.3 IDF1:平均数比率

IDF1是指正确的目标检测数与真实数和计算检测数和的平均数比率,这里, IDF1的分数如下进行计算:

 

image.gif

上述公式中,IDTP 可以看作是在整个视频中检测目标被正确分配的数量,IDFN 在整个视频中检测目标被漏分配的数量,IDFP 在整个视频中检测目标被错误分配的数量。

 

四、HOTA 更高维跟踪精度

基于多目标跟踪准确度(MOTA)的基础上,HOTA 指标引入了更高维跟踪精度指标,能够更加全面、更加均衡地衡量多目标跟踪器的性能。

HOTA:更高维跟踪精度;HOTA的分数计算过程由多个部分组成,更加重视目标检测和数据关联精度的平均性衡量。主要计算如下:

image.gif

A表示数据关联分数。TP 则表示在整个视频中检测目标被正确跟踪的数量。

 

五、MOT Challenge 多目标跟踪

官网地址:

这里有多目标跟踪的竞赛,可以看看有哪些评价指标,以及评价指标是如何计算的。这里有多个数据集,比如MOT2017。

image.gif

MOT Challenge 是应用在多目标跟踪中最常见的数据集,它专门用于行人跟踪的场景,这些数据集目前已公开提供。对于每个数据集都提供了训练数据和测试数据,其中训练数据提供了目标检测结果和真实的跟踪结果,而测试数据只提供目标检测的结果。截至目前,MOT Challenge 数据集包含了MOT15,MOT16/MOT17,MOT20等子数据集。



六、kitti 多目标跟踪

官网地址:

这里也有多目标跟踪的竞赛,可以看看有哪些评价指标,以及评价指标是如何计算的。

image.gif


七、方案选择

7.1 DeepSort

DeepSORT(Deep Cosine Metric Learning SORT) 扩展了原有的SORT(Simple Online and Realtime Tracking)算法,增加了一个CNN模型用于在检测器限定的人体部分图像中提取特征,在深度外观描述的基础上整合外观信息,将检出的目标分配和更新到已有的对应轨迹上即进行一个ReID重识别任务。DeepSORT所需的检测框可以由任意一个检测器来生成,然后读入保存的检测结果和视频图片即可进行跟踪预测。

7.2 JDE

JDE(Joint Detection and Embedding)是在一个单一的共享神经网络中同时学习目标检测任务和embedding任务,并同时输出检测结果和对应的外观embedding匹配的算法。JDE原论文是基于Anchor Base的YOLOv3检测器新增加一个ReID分支学习embedding,训练过程被构建为一个多任务联合学习问题,兼顾精度和速度。

image.gif

7.3 FairMOT

anchor-based的检测框架中存在anchor和特征的不对齐问题,所以这方面不如anchor-free框架。FairMOT方法检测选用了anchor-free的CenterNet算法,克服了Anchor-Based的检测框架中anchor和特征不对齐问题,深浅层特征融合使得检测和ReID任务各自获得所需要的特征,并且使用低维度ReID特征,提出了一种由两个同质分支组成的简单baseline来预测像素级目标得分和ReID特征,实现了两个任务之间的公平性,并获得了更高水平的实时多目标跟踪精度。

image.gif

FairMOT属于JDE(Jointly learns the Detector and Embedding model )的一种。实验证明了现有的JDE方法存在一些不足,FairMOT根据这些不足进行了相关的改进。

综合速度和精度,本案例选用FairMot模型实现车辆跟踪计数。



参考文献:面向复杂场景的多目标跟踪算法研究.胡玉杰.电子科技大学.

参考链接:https://aistudio.baidu.com/aistudio/projectdetail/2503924?channelType=0&channel=0



希望对你有帮助。

相关文章
|
6月前
|
机器学习/深度学习 安全
一文读懂分类模型评估指标
模型评估是深度学习和机器学习中非常重要的一部分,用于衡量模型的性能和效果。本文将逐步分解混淆矩阵,准确性,精度,召回率和F1分数。
518 1
|
机器学习/深度学习
评分是机器学习领域中的一种评估模型性能的指标
评分是机器学习领域中的一种评估模型性能的指标
96 1
|
机器学习/深度学习 数据采集 算法
机器学习-模型拟合:如何使用逻辑回归精准预测临床诊断结果?
本文旨在介绍逻辑回归模型在临床诊断结果预测中的应用,并探讨相关需求和挑战。首先,将详细介绍逻辑回归模型的原理和特点,以及其在机器学习中的地位和应用范围。接着,将阐述临床诊断结果预测的重要性和现实需求,以及逻辑回归模型如何满足这些需求。
461 0
|
4月前
|
机器学习/深度学习
机器学习模型评估指标详解
【7月更文挑战第14天】选择合适的评估指标对于准确评估机器学习模型的性能至关重要。在实际应用中,需要根据具体任务场景和数据特点,综合考虑多种评估指标,以全面评估模型的性能。同时,还需要注意评估指标的局限性,避免单一指标带来的误导。
|
6月前
|
机器学习/深度学习 BI
机器学习模型评估指标总结
机器学习模型评估指标总结
117 2
|
6月前
|
机器学习/深度学习 数据采集 算法
机器学习赋能乳腺癌预测:如何使用贝叶斯分级进行精确诊断?
机器学习赋能乳腺癌预测:如何使用贝叶斯分级进行精确诊断?
115 0
|
6月前
|
机器学习/深度学习
机器学习第13天:模型性能评估指标
机器学习第13天:模型性能评估指标
|
机器学习/深度学习 人工智能 计算机视觉
Guidance,让扩散模型的指标更能打
Guidance,让扩散模型的指标更能打
814 0
|
机器学习/深度学习 算法 语音技术
机器学习评估指标
机器学习评估指标
108 0
|
机器学习/深度学习 计算机视觉
【深度学习】常用的模型评估指标
【深度学习】常用的模型评估指标
270 0
【深度学习】常用的模型评估指标