多目标跟踪 | 评测指标-阿里云开发者社区

多目标跟踪 | 评测指标

2023-11-15 1669

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

实时计算 Flink 版，5000CU*H 3个月

实时数仓Hologres，5000CU*H 100GB 3个月

智能开放搜索 OpenSearch行业算法版，1GB 20LCU 1个月

简介： 多目标跟踪器的性能需要某些指标来进行度量，目前使用比较广泛的评测指标主要有 Bernardin 等人定义的 CLEAR MOT 指标、Ristani 等人定义的 ID scores 指标以及最新的 Luiten 等人定义的HOTA 指标。

一、基础的评测指标

1、ID Switches (ID Sw.)：被跟踪目标身份发生错误地更改时被称为身份跳变。在对视频序列的跟踪过程当中，ID Sw.表示所有跟踪目标身份交换的次数。

2、Frames Per Second (FPS)：多目标跟踪器的跟踪速度。

3、False Positives (FP)：在视频序列中不能与真实轨迹的边界框相匹配的假设边界框被称为假阳性；即本来是假的，预测认为是真的。FP 表示整个视频序列中假阳性的数量。

4、False Negatives (FN)：在视频序列中不能与假设边界框相匹配的真实轨迹的边界框被称为假阴性；即本来是真的，预测认为是假的。FN 表示整个视频序列中假阴性的数量。

5、Mostly Tracked tracklets (MT)：在跟踪过程中各个目标至少有 80%的视频帧都能被正确地跟踪的跟踪轨迹数量。

6、Mostly Lost tracklets (ML)：在跟踪过程中各个目标至多有 20%的视频帧能被正确地跟踪的跟踪轨迹数量。

7、Fragments (Frag)：真实跟踪轨迹由于某种原因发生中断并在后来又继续被准确跟踪上被称为跟踪碎片。Frag 表示整个视频序列中碎片的总数。

以上 7 种评测指标主要度量多目标跟踪器的基础性能，其中加粗的比较常用；为了进一步评判多目标跟踪器的综合性能，出现了其他指标。

二、MOTA 和 MOTP

CLEAR MOT 指标提出了 多目标跟踪精度MOTA 和 多目标跟踪准确度MOTP 两个综合性的指标，这两个指标能够衡量多目标跟踪器在整体上的性能好坏。

2.1 MOTA：多目标跟踪精度。

MOTA除了误报(FP)、丢失目标(FN)、ID异常切换(ID Sw.)情况以外的正确预测样本占所有样本的比率，衡量了跟踪器在检测目标和保持轨迹时的性能，与目标位置的估计精度无关。多目标跟踪准确度的分数 MOTA如下计算：

mt表示整个视频序列中假阳性的数量(FN)，fpt表示整个视频序列中假阴性的数量(FP)，mme t表示跟踪过程中身份交换的数量(ID Sw.)，gt表示整个视频序列当中真实目标的数量。

这里 MOTA的分数可能为负数，因为假阴性、假阳性和身份跳变的数量可能会大于视频序列中真实目标的数量。

2.2 MOTP: 多目标跟踪准确度

MOTP默认检测框重合度阈值下正确预测的目标与预测目标总数之比，衡量检测器的定位精度。.多目标跟踪精确度的分数 MOTP 如下计算：

ct 表示为在第 t 帧时候总共匹配的数量，d 表示假设边界框与真实边界框之间的距离值。

三、IDP、IDR、IDF

为了判断多目标跟踪器是否能够长时间地对某个目标进行准确地跟踪，ID scores 指标引入了 IDF (Identification F1) ， IDP (Identification Precision) 和 IDR (Identification Recall)指标并添加到多目标跟踪中，以衡量跟踪器的身份维持能力。

3.1 IDP：识别精确度

整体评价跟踪器的好坏，识别精确度 IDP 的分数如下进行计算：

3.2 IDR：识别召回率

它是当IDF1-score最高时正确预测的目标数与真实目标数之比，识别召回率 IDR 的分数如下进行计算：

3.3 IDF1：平均数比率

IDF1是指正确的目标检测数与真实数和计算检测数和的平均数比率，这里， IDF1的分数如下进行计算：

上述公式中，IDTP 可以看作是在整个视频中检测目标被正确分配的数量，IDFN 在整个视频中检测目标被漏分配的数量，IDFP 在整个视频中检测目标被错误分配的数量。

四、HOTA 更高维跟踪精度

基于多目标跟踪准确度(MOTA)的基础上，HOTA 指标引入了更高维跟踪精度指标，能够更加全面、更加均衡地衡量多目标跟踪器的性能。

HOTA：更高维跟踪精度；HOTA的分数计算过程由多个部分组成，更加重视目标检测和数据关联精度的平均性衡量。主要计算如下：

A表示数据关联分数。TP 则表示在整个视频中检测目标被正确跟踪的数量。

五、MOT Challenge 多目标跟踪

官网地址：

这里有多目标跟踪的竞赛，可以看看有哪些评价指标，以及评价指标是如何计算的。这里有多个数据集，比如MOT2017。

MOT Challenge 是应用在多目标跟踪中最常见的数据集，它专门用于行人跟踪的场景，这些数据集目前已公开提供。对于每个数据集都提供了训练数据和测试数据，其中训练数据提供了目标检测结果和真实的跟踪结果，而测试数据只提供目标检测的结果。截至目前，MOT Challenge 数据集包含了MOT15，MOT16/MOT17，MOT20等子数据集。

六、kitti 多目标跟踪

官网地址：

这里也有多目标跟踪的竞赛，可以看看有哪些评价指标，以及评价指标是如何计算的。

七、方案选择

7.1 DeepSort

DeepSORT(Deep Cosine Metric Learning SORT) 扩展了原有的SORT(Simple Online and Realtime Tracking)算法，增加了一个CNN模型用于在检测器限定的人体部分图像中提取特征，在深度外观描述的基础上整合外观信息，将检出的目标分配和更新到已有的对应轨迹上即进行一个ReID重识别任务。DeepSORT所需的检测框可以由任意一个检测器来生成，然后读入保存的检测结果和视频图片即可进行跟踪预测。

7.2 JDE

JDE(Joint Detection and Embedding)是在一个单一的共享神经网络中同时学习目标检测任务和embedding任务，并同时输出检测结果和对应的外观embedding匹配的算法。JDE原论文是基于Anchor Base的YOLOv3检测器新增加一个ReID分支学习embedding，训练过程被构建为一个多任务联合学习问题，兼顾精度和速度。

7.3 FairMOT

anchor-based的检测框架中存在anchor和特征的不对齐问题，所以这方面不如anchor-free框架。FairMOT方法检测选用了anchor-free的CenterNet算法，克服了Anchor-Based的检测框架中anchor和特征不对齐问题，深浅层特征融合使得检测和ReID任务各自获得所需要的特征，并且使用低维度ReID特征，提出了一种由两个同质分支组成的简单baseline来预测像素级目标得分和ReID特征，实现了两个任务之间的公平性，并获得了更高水平的实时多目标跟踪精度。

FairMOT属于JDE（Jointly learns the Detector and Embedding model ）的一种。实验证明了现有的JDE方法存在一些不足，FairMOT根据这些不足进行了相关的改进。

综合速度和精度，本案例选用FairMot模型实现车辆跟踪计数。

参考文献：面向复杂场景的多目标跟踪算法研究.胡玉杰.电子科技大学.

参考链接：https://aistudio.baidu.com/aistudio/projectdetail/2503924?channelType=0&channel=0

希望对你有帮助。

多目标跟踪 | 评测指标

一、基础的评测指标