SoccerNet 2025挑战赛:赛题整理(二)

简介: 梳理SoccerNet 2025挑战赛中的赛题二、以及该赛题的冠军方案

本文的第(一)部分介绍了SoccerNet数据集、SoccerNet 2025挑战赛、以及SoccerNet 2025挑战赛的赛题一。接下来介绍SoccerNet 2025挑战赛的赛题二。

赛题二:单目深度估计

该赛题由SoccerNet-Depth数据集论文[1]的一作Arnaud Leduc负责组织和牵头。

单目深度估计(Monocular Depth Estimation)是计算机视觉领域的一种任务,其目标是针对一张图像,估计出其中每个像素距离摄像设备的远近(又称深度);这里的“单目”是指仅依靠一张图像或一台摄像设备,而不是依靠多张图像或多台摄像设备。

由于不依靠多张图像或多台摄像设备,单目深度估计这一任务具有一定难度。然而联想到人类可以使用单眼,通过物体的大小、物体的形状、光线、知识等来估计深度,使用计算机来进行单目深度估计应该也是有可能做到的。

单目深度估计可以为二维的影像增加一个维度的信息,可用于增强现实、3D重建、空间感知,也可用于体育视频中的视频理解、比赛状态重建等场景。

在SoccerNet 2025挑战赛[2]中,“单目深度估计”赛题的要求是:预测出足球比赛视频中每帧的各像素的“相对深度”,并生成每帧的相对深度图;其中,“相对深度”是指场景中物体的相对远近,而不是场景中物体与摄像机之间的实际距离。

Figure_1_2.jpg


“单目深度估计”赛题示意图[2]

为了使参赛队之间的结果具有可比性,该赛题要求将相对深度的计算结果进行归一化处理,包括将相对深度的值归一化到特定数值区间、相对深度较小的值表示像素离摄像机较近等。

该赛题的训练和竞赛数据来自于SoccerNet-Depth数据集[1]。赛题的介绍、评测代码、如何下载数据集、如何下载和运行基线模型等都放在了GitHub上(https://github.com/SoccerNet/sn-depth)。

评测指标

该赛题的主要评测指标是这样计算的[2]:
首先,针对评测视频中的每一帧,计算出相对深度的预测的均方根误差(Root Mean Squared Error,简称RMSE):

formula_1.jpg

在以上公式中,d代表每帧的相对深度图(大小为H×W像素);圆括号中的数值是单个像素相对深度的预测值与真实值之间的差。
然后,对评测视频中所有帧的RMSE进行平均。

冠军方案

经评测,有八支参赛队的表现优于基线模型(基线模型是一种经过微调的ZoeDepth模型)。

冠军队方案的主要特点包括[2]:

  • 在Depth Anything V2预训练模型的基础上进行了微调;
  • 微调时采用了以下两种损失函数的组合:Scale-and-Shift Invariant (SSI) 、以及Scale-and-Shift Invariant Gradient Matching (SSIGM) ;
  • 微调时输入的帧采用了全分辨率(1918 × 1078)的格式;
  • 采用了多种数据增强,包括颜色调整、几何变换等。

冠军方案的代码放在了GitHub上(https://github.com/semilleroCV/Soccernet-depth-estimation-solution)。

【继续阅读本文的第(三)部分】

参考文献

[1] SoccerNet-Depth: a Scalable Dataset for Monocular Depth Estimation in Sports Videos

https://ieeexplore.ieee.org/document/10678199

[2] SoccerNet 2025 Challenges Results

https://arxiv.org/abs/2508.19182

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/


封面图:Tembela Bohle、pexels.com

目录
相关文章
|
2月前
|
自然语言处理 计算机视觉 Python
SoccerNet 2025挑战赛:赛题整理(一)
介绍SoccerNet数据集和SoccerNet 2025挑战赛,并梳理SoccerNet 2025挑战赛中的赛题一
307 96
|
JavaScript 前端开发
将本地HTML文件转换成EXE可执行文件
将本地HTML文件转换成EXE可执行文件
525 0
|
2月前
|
人工智能 自然语言处理 安全
代码静态扫描工具集成与实践
代码静态扫描工具(Static Application Security Testing, SAST)是在不运行代码的情况下,通过分析源代码或二进制代码来发现潜在安全漏洞、代码缺陷和质量问题的工具
373 4
conda常用操作和配置镜像源
conda常用操作和配置镜像源
30544 0
|
2月前
|
存储 SQL 机器学习/深度学习
一文辨析:数据仓库、数据湖、湖仓一体
本文深入解析数据仓库、数据湖与湖仓一体的技术原理与适用场景。数据仓库结构严谨、查询高效,适合处理结构化数据;数据湖灵活开放,支持多模态数据,但治理难度高;湖仓一体融合两者优势,实现低成本存储与高效分析,适合大规模数据场景。文章结合企业实际需求,探讨如何选择合适的数据架构,并提供湖仓一体的落地迁移策略,助力企业提升数据价值。
一文辨析:数据仓库、数据湖、湖仓一体
|
2月前
|
Web App开发 人工智能 自然语言处理
快速掌握Dify+Chrome MCP:打造网页操控AI助手
本文教你如何快速搭建一个能操作浏览器的AI助手:通过Dify和Chrome MCP结合,只需三步配置,即可实现自动填表、数据抓取和网页操控,无需编写代码,用自然语言就能指挥AI完成各类网页任务。
|
2月前
|
存储 人工智能 自然语言处理
从零搭建RAG应用:跳过LangChain,掌握文本分块、向量检索、指代消解等核心技术实现
本文详解如何从零搭建RAG(检索增强生成)应用,跳过LangChain等框架,深入掌握文本解析、分块、向量检索、对话记忆、指代消解等核心技术,提升系统可控性与优化能力。
291 0
从零搭建RAG应用:跳过LangChain,掌握文本分块、向量检索、指代消解等核心技术实现
|
2月前
|
算法 关系型数据库 数据挖掘
SoccerNet 2025挑战赛:赛题整理(四)
梳理SoccerNet 2025挑战赛中的赛题四、以及该赛题的比赛结果
78 0
|
6月前
|
前端开发 Java 程序员
程序员的宝藏图标资源库:Icons8一键解锁高效设计
🌟 ​大家好,我是摘星!​ 🌟今天为大家带来的是程序员的宝藏图标资源库:Icons8一键解锁高效设计,以前做项目时,找图标要么付费、要么质量差、要么风格不统一,今天偶然间在搜索springboot logo的发现了 Icons8,简直打开了我写文档的新世界的大门!怀着激动的心情,迫不及待的写下这篇文章将这个网站分享给大家,废话不多说,让我们直接开始~
697 0