4实验与结论
最终在test-set-challenge上取得了39.18的好成绩,远远高于VisDrone2020的最高成绩37.37。
- 添加一个微小物体的检测头,使得原来的YOLOv5x的层数从607变成719,GFLOPs从219.0到259.0。这当然增加了计算量,但mAP的改进也非常高。从从图9中可以看出,TPH-YOLOv5在检测小目标时表现良好,所以增加计算是值得的。
图9 检测结果图
- 采用transformer encoder blocks后,模型总层数由719层减少到705层,GFLOPs由259.0层减少到237.3层。采用transformer encoder blocks不仅可以增加mAP,还可以减小网络的尺寸。同时,它也在稠密物体和大物体的检测中发挥作用。
- 列出了5个不同模型在每个类别中的最终结果mAP,并与表3中的融合模型进行了比较。在训练阶段使用不同的输入图像大小,并改变每个类别的权重,使每个模型唯一。使最终的集成模型得到一个相对平衡的结果:
- TPH-YOLOv5-1使用输入图像大小为1920,所有类别的权重相等。
- TPH-YOLOv5-2使用输入图像大小1536,所有类别权重相等。
- TPH-YOLOv5-3使用输入图像大小1920,每个类别的权重与标签数量相关,如图8所示。某一类别的标签越多,其权重就越低。
- TPH-YOLOv5-4使用输入图像大小1536,每个类别的权重与标签数量相关。
- TPH-YOLOv5-5采用YOLOv5l的骨干,输入图像尺寸为1536。
图8
5参考
[1].TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detection on Drone-captured Scenarios