本文的第(一)部分介绍了SoccerNet数据集、SoccerNet 2025挑战赛、以及SoccerNet 2025挑战赛的赛题一。接下来介绍SoccerNet 2025挑战赛的赛题二。
赛题二:单目深度估计
该赛题由SoccerNet-Depth数据集论文[1]的一作Arnaud Leduc负责组织和牵头。
单目深度估计(Monocular Depth Estimation)是计算机视觉领域的一种任务,其目标是针对一张图像,估计出其中每个像素距离摄像设备的远近(又称深度);这里的“单目”是指仅依靠一张图像或一台摄像设备,而不是依靠多张图像或多台摄像设备。
由于不依靠多张图像或多台摄像设备,单目深度估计这一任务具有一定难度。然而联想到人类可以使用单眼,通过物体的大小、物体的形状、光线、知识等来估计深度,使用计算机来进行单目深度估计应该也是有可能做到的。
单目深度估计可以为二维的影像增加一个维度的信息,可用于增强现实、3D重建、空间感知,也可用于体育视频中的视频理解、比赛状态重建等场景。
在SoccerNet 2025挑战赛[2]中,“单目深度估计”赛题的要求是:预测出足球比赛视频中每帧的各像素的“相对深度”,并生成每帧的相对深度图;其中,“相对深度”是指场景中物体的相对远近,而不是场景中物体与摄像机之间的实际距离。
“单目深度估计”赛题示意图[2]
为了使参赛队之间的结果具有可比性,该赛题要求将相对深度的计算结果进行归一化处理,包括将相对深度的值归一化到特定数值区间、相对深度较小的值表示像素离摄像机较近等。
该赛题的训练和竞赛数据来自于SoccerNet-Depth数据集[1]。赛题的介绍、评测代码、如何下载数据集、如何下载和运行基线模型等都放在了GitHub上(https://github.com/SoccerNet/sn-depth)。
评测指标
该赛题的主要评测指标是这样计算的[2]:
首先,针对评测视频中的每一帧,计算出相对深度的预测的均方根误差(Root Mean Squared Error,简称RMSE):
在以上公式中,d代表每帧的相对深度图(大小为H×W像素);圆括号中的数值是单个像素相对深度的预测值与真实值之间的差。
然后,对评测视频中所有帧的RMSE进行平均。
冠军方案
经评测,有八支参赛队的表现优于基线模型(基线模型是一种经过微调的ZoeDepth模型)。
冠军队方案的主要特点包括[2]:
- 在Depth Anything V2预训练模型的基础上进行了微调;
- 微调时采用了以下两种损失函数的组合:Scale-and-Shift Invariant (SSI) 、以及Scale-and-Shift Invariant Gradient Matching (SSIGM) ;
- 微调时输入的帧采用了全分辨率(1918 × 1078)的格式;
- 采用了多种数据增强,包括颜色调整、几何变换等。
冠军方案的代码放在了GitHub上(https://github.com/semilleroCV/Soccernet-depth-estimation-solution)。
【继续阅读本文的第(三)部分】
参考文献
[1] SoccerNet-Depth: a Scalable Dataset for Monocular Depth Estimation in Sports Videos
https://ieeexplore.ieee.org/document/10678199
[2] SoccerNet 2025 Challenges Results
https://arxiv.org/abs/2508.19182
使用许可协议:CC BY
https://creativecommons.org/licenses/by/4.0/
封面图:Tembela Bohle、pexels.com