SoccerNet 2025挑战赛:赛题整理(二)

简介: 梳理SoccerNet 2025挑战赛中的赛题二、以及该赛题的冠军方案

本文的第(一)部分介绍了SoccerNet数据集、SoccerNet 2025挑战赛、以及SoccerNet 2025挑战赛的赛题一。接下来介绍SoccerNet 2025挑战赛的赛题二。

赛题二:单目深度估计

该赛题由SoccerNet-Depth数据集论文[1]的一作Arnaud Leduc负责组织和牵头。

单目深度估计(Monocular Depth Estimation)是计算机视觉领域的一种任务,其目标是针对一张图像,估计出其中每个像素距离摄像设备的远近(又称深度);这里的“单目”是指仅依靠一张图像或一台摄像设备,而不是依靠多张图像或多台摄像设备。

由于不依靠多张图像或多台摄像设备,单目深度估计这一任务具有一定难度。然而联想到人类可以使用单眼,通过物体的大小、物体的形状、光线、知识等来估计深度,使用计算机来进行单目深度估计应该也是有可能做到的。

单目深度估计可以为二维的影像增加一个维度的信息,可用于增强现实、3D重建、空间感知,也可用于体育视频中的视频理解、比赛状态重建等场景。

在SoccerNet 2025挑战赛[2]中,“单目深度估计”赛题的要求是:预测出足球比赛视频中每帧的各像素的“相对深度”,并生成每帧的相对深度图;其中,“相对深度”是指场景中物体的相对远近,而不是场景中物体与摄像机之间的实际距离。

Figure_1_2.jpg


“单目深度估计”赛题示意图[2]

为了使参赛队之间的结果具有可比性,该赛题要求将相对深度的计算结果进行归一化处理,包括将相对深度的值归一化到特定数值区间、相对深度较小的值表示像素离摄像机较近等。

该赛题的训练和竞赛数据来自于SoccerNet-Depth数据集[1]。赛题的介绍、评测代码、如何下载数据集、如何下载和运行基线模型等都放在了GitHub上(https://github.com/SoccerNet/sn-depth)。

评测指标

该赛题的主要评测指标是这样计算的[2]:
首先,针对评测视频中的每一帧,计算出相对深度的预测的均方根误差(Root Mean Squared Error,简称RMSE):

formula_1.jpg

在以上公式中,d代表每帧的相对深度图(大小为H×W像素);圆括号中的数值是单个像素相对深度的预测值与真实值之间的差。
然后,对评测视频中所有帧的RMSE进行平均。

冠军方案

经评测,有八支参赛队的表现优于基线模型(基线模型是一种经过微调的ZoeDepth模型)。

冠军队方案的主要特点包括[2]:

  • 在Depth Anything V2预训练模型的基础上进行了微调;
  • 微调时采用了以下两种损失函数的组合:Scale-and-Shift Invariant (SSI) 、以及Scale-and-Shift Invariant Gradient Matching (SSIGM) ;
  • 微调时输入的帧采用了全分辨率(1918 × 1078)的格式;
  • 采用了多种数据增强,包括颜色调整、几何变换等。

冠军方案的代码放在了GitHub上(https://github.com/semilleroCV/Soccernet-depth-estimation-solution)。

【继续阅读本文的第(三)部分】

参考文献

[1] SoccerNet-Depth: a Scalable Dataset for Monocular Depth Estimation in Sports Videos

https://ieeexplore.ieee.org/document/10678199

[2] SoccerNet 2025 Challenges Results

https://arxiv.org/abs/2508.19182

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/


封面图:Tembela Bohle、pexels.com

目录
相关文章
|
7天前
|
人工智能 运维 安全
|
5天前
|
人工智能 异构计算
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
敬请锁定《C位面对面》,洞察通用计算如何在AI时代持续赋能企业创新,助力业务发展!
|
6天前
|
机器学习/深度学习 人工智能 自然语言处理
B站开源IndexTTS2,用极致表现力颠覆听觉体验
在语音合成技术不断演进的背景下,早期版本的IndexTTS虽然在多场景应用中展现出良好的表现,但在情感表达的细腻度与时长控制的精准性方面仍存在提升空间。为了解决这些问题,并进一步推动零样本语音合成在实际场景中的落地能力,B站语音团队对模型架构与训练策略进行了深度优化,推出了全新一代语音合成模型——IndexTTS2 。
606 21
|
12天前
|
人工智能 JavaScript 测试技术
Qwen3-Coder入门教程|10分钟搞定安装配置
Qwen3-Coder 挑战赛简介:无论你是编程小白还是办公达人,都能通过本教程快速上手 Qwen-Code CLI,利用 AI 轻松实现代码编写、文档处理等任务。内容涵盖 API 配置、CLI 安装及多种实用案例,助你提升效率,体验智能编码的乐趣。
969 110
|
6天前
|
人工智能 测试技术 API
智能体(AI Agent)搭建全攻略:从概念到实践的终极指南
在人工智能浪潮中,智能体(AI Agent)正成为变革性技术。它们具备自主决策、环境感知、任务执行等能力,广泛应用于日常任务与商业流程。本文详解智能体概念、架构及七步搭建指南,助你打造专属智能体,迎接智能自动化新时代。