本文的第(一)部分介绍了SoccerNet数据集、SoccerNet 2025挑战赛、以及SoccerNet 2025挑战赛的赛题一;第(二)部分介绍了SoccerNet 2025挑战赛的赛题二。接下来介绍SoccerNet 2025挑战赛的赛题三。
赛题三:多视角犯规识别
该赛题由SoccerNet-MVFoul数据集论文[1]的一作Jan Held负责组织和牵头。
SoccerNet-MVFoul是一个足球视频数据集,其中包含3901个经过标注的动作,每个动作有2-4个同步的拍摄角度。

多视角视频[1]
多视角犯规识别(Multi-View Foul Recognition)赛题基于SoccerNet-MVFoul数据集,要求针对多视角视频中的足球动作在两个维度上做出分类[2]:
- 维度一:犯规严重程度,有未犯规、犯规+不给牌、犯规+黄牌、犯规+红牌四个分类;
- 维度二:犯规种类,有铲球、抬脚过高、推人、拉人、肘击等八个分类。

“多视角犯规识别”赛题示意图[2]
该赛题的部分难点包括[3]:
- 两个类似的动作可能会有非常不同的判罚,例如可能会根据球员之间是否发生接触进行判罚——未发生接触就是“未犯规”,发生接触就是“犯规+黄牌”;
- 球员的不同意图会导致不同的判罚。
评测指标
由于SoccerNet-MVFoul数据集中各个分类之间的不平衡,因此赛题的评测指标采用了平衡精确度(Balanced Accuracy,简称BA),其计算公式为[2]:

其中,N代表分类的个数,TPi代表第i个分类的真阳性(True Positive)数量,Pi代表第i个分类的真实数量。
将犯规种类的平衡精确度(BAtype)与犯规严重程度的平衡精确度(BAoff)进行平均,就是评测的得分:

基线水平
该赛题曾出现在去年的SoccerNet挑战赛中。去年冠军队的成绩就是今年的基线水平。
冠军方案
经评测,本届挑战赛有十多支参赛队的成绩优于基线水平[2]。
本届挑战赛冠军队的方案具有以下主要特点:
- 采用了经过Kinetics 400和Kinetics 710数据集预训练的TAdaFormer-L/14模型,并在该模型的基础上进行了微调;
- 在分类头(Classification Head)之前采用了最大池化(Max Pooling),以综合多个视角;
- 在上述的最大池化之前,引入了视角嵌入(View Embedding),并将视角嵌入加入到特征向量中;视角嵌入经过学习,用来区分输入视频是直播视角(片段0)、还是回放视角(片段1-3);
- 分两阶段进行微调:第(1)阶段仅使用随机的两个视角;第(2)阶段采用了随机的数据增强,并使用了所有视角,使得微调时的任务更贴近推测时的任务;第(2)阶段仅微调分类头。
【继续阅读本文的第(四)部分】
参考文献
[1] VARS: Video Assistant Referee System for Automated Soccer Decision Making from Multiple Views
https://arxiv.org/abs/2304.04617
使用许可协议:CC BY
https://creativecommons.org/licenses/by/4.0/
[2] SoccerNet 2025 Challenges Results
https://arxiv.org/abs/2508.19182
使用许可协议:CC BY
https://creativecommons.org/licenses/by/4.0/
[3] SoccerNet 2024 Challenges Results
https://arxiv.org/abs/2409.10587
使用许可协议:CC BY
https://creativecommons.org/licenses/by/4.0/
封面图:Vienna Reyes、Unsplash