SoccerNet 2025挑战赛:赛题整理(四)

简介: 梳理SoccerNet 2025挑战赛中的赛题四、以及该赛题的比赛结果

本文的第(一)部分介绍了SoccerNet数据集、SoccerNet 2025挑战赛、以及SoccerNet 2025挑战赛的赛题一;第(二)部分介绍了SoccerNet 2025挑战赛的赛题二;第(三)部分介绍了SoccerNet 2025挑战赛的赛题三。以下是本文的最后一部分,将介绍SoccerNet 2025挑战赛的赛题四。

赛题四:比赛状态重建

基于足球比赛视频实现的球员定位与识别,能用来支撑多类下游应用,包括估计球员的跑动距离、理解球队的战术、支持教练员和球员训练、提升观众观看比赛的视觉效果等[1]。场上球员的定位与识别可以由人工来进行标注,不过费时费力,成本较高;而采用计算机视觉技术来自动、可靠地从比赛视频中抽取球员的定位和识别信息,正受到越来越多的关注。

SoccerNet 2025挑战赛的“比赛状态重建”(Game State Reconstruction)赛题要求仅根据单个摄像机的拍摄,来定位、识别出足球赛场上的球员,并生成俯视角度的小地图(Minimap,如下图底部所示)[2]。

Figure_1_4.jpg

该赛题中,具体需要从比赛视频中定位、识别的信息包括[2]:

  • 足球场上所有人员的位置;
  • 上述人员的角色分类,包括球员、守门员、裁判员、以及其它(教练员、队医等不属于前三个类别的人员)四类;
  • 上述球员和守门员的球衣号码;
  • 每个球员和守门员所属的球队(摄像画面中的左方球队还是右方球队)。

该赛题的训练数据、公开测试数据、以及不公开的挑战赛数据均出自于SoccerNet-GSR数据集[1]。SoccerNet-GSR数据集围绕上述的“比赛状态重建”任务,收集并标注了200个足球比赛视频片段,每片段视频的时长为30秒。

该赛题的数据集和代码库都放在了GitHub上(https://github.com/SoccerNet/sn-gamestate)。

“比赛状态重建”任务可以分解成以下多个子任务[1]:

  • 场地定位(Pitch Localization)、相机标定(Camera Calibration);
  • 人员的检测(Detection)、重识别(Re-Identification)、跟踪(Tracking);
  • 人员角色分类(Role Classification)、球队归属(Team Affiliation)、球衣号码识别(Jersey Number Recognition)。

评测指标

“比赛状态重建”任务有点类似于“多目标跟踪”(Multi-Object Tracking)任务。然而“多目标跟踪”任务的评测指标(如MOTA和HOTA)无法用来衡量“比赛状态重建”任务中球员所属球队、球员球衣号码、场上人员角色等的信息抽取的准确性。此外,“多目标跟踪”的评测指标中常用IoU来衡量人员等目标的边界框预测的准确程度,而在“比赛状态重建”任务中,人员用场地坐标系中的点来表示,无法使用IoU来衡量位置预测的准确程度。

基于上述原因,SoccerNet-GSR数据集的论文[1]提出了专用于“比赛状态重建”这一任务的GS-HOTA评测指标。本届挑战赛的“比赛状态重建”赛题也采用了GS-HOTA这一指标来进行评测。

GS-HOTA指标是“多目标跟踪”的评测指标HOTA[3]的一个改进版。HOTA指标的公式是:

Formula_GSR_2.jpg

其中,DetA和AssA分别是检测和关联的准确度,α是预测值与真实值之间相似度的阀值。

在HOTA指标的计算中,预测值与真实值之间相似度的计算涉及到目标的边界框的IoU值。在GS-HOTA指标中,有关相似度的计算得到了改进(计算公式稍后列出);使用改进后的相似度、以及上述原始的HOTA指标的计算公式,就能计算出GS-HOTA评测指标。改进后的相似度计算公式为:

Formula_GSR_3.jpg

其中,

Formula_GSR_4.jpg

Formula_GSR_5.jpg

LocSim(P, G)根据预测的点P和真实的点G之间在场地坐标系中的欧氏距离,计算出人员位置预测的准确程度。

IdSim(P, G)的值是1或者0,1表示球员所属球队、球员球衣号码、人员角色等人员属性的预测值P与真实值G完全匹配,0表示人员属性的预测值P中至少有一项不准确。

基线方案

赛题的基线方案采用了SoccerNet-GSR数据集论文[1]中的GSR-Baseline方案。该方案将“比赛状态重建”任务分解成多个子任务,每个子任务均采用了SOTA的开源解决方法。为了支撑复杂流程的开发,该方案使用了多目标跟踪框架TrackLab(https://github.com/TrackingLaboratory/tracklab)。

比赛结果

经评测,有十余支参赛队的方案表现优于基线方案[2]。

目标检测子任务中,采用微调后的检测模型成为了标准做法,较多采用的模型包括YOLO-X、YOLOv8、YOLOv11、RF-DETR等。

人员跟踪子任务中,通过检测进行跟踪(Tracking-by-Detection)是各参赛队的主流做法,较多采用的算法包括Deep-EIoU、BoT-SORT和GTA(Global Tracklet Association)。

相机标定子任务中,较多涉及的方法包括特征点检测、单应性估计(Homography Estimation)等,较多涉及的Pipeline包括NBJW、PnLCalib和Broadtrack。

人员特征提取子任务中,基于CLIP和OSNet的特征提取表现良好。LLaMA-Vision、Qwen2 VL Instruct等视觉-语言模型用于球衣号码识别较为成功。

参考文献

[1] SoccerNet Game State Reconstruction: End-to-End Athlete Tracking and Identification on a Minimap

https://arxiv.org/abs/2404.11335

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/

[2] SoccerNet 2025 Challenges Results

https://arxiv.org/abs/2508.19182

使用许可协议:CC BY

https://creativecommons.org/licenses/by/4.0/

[3] HOTA: A Higher Order Metric for Evaluating Multi-Object Tracking

https://arxiv.org/abs/2009.07736


封面图:Riccardo、pexels

目录
相关文章
|
2月前
|
自然语言处理 计算机视觉 Python
SoccerNet 2025挑战赛:赛题整理(一)
介绍SoccerNet数据集和SoccerNet 2025挑战赛,并梳理SoccerNet 2025挑战赛中的赛题一
264 96
|
2月前
|
编解码 vr&ar 计算机视觉
SoccerNet 2025挑战赛:赛题整理(二)
梳理SoccerNet 2025挑战赛中的赛题二、以及该赛题的冠军方案
94 0
|
2月前
|
数据挖掘
SoccerNet 2025挑战赛:赛题整理(三)
梳理SoccerNet 2025挑战赛中的赛题三、以及该赛题的冠军方案
40 0
|
2月前
|
数据采集 Web App开发 前端开发
处理动态Token:Python爬虫应对AJAX授权请求的策略
处理动态Token:Python爬虫应对AJAX授权请求的策略
|
2月前
|
机器学习/深度学习 数据采集 安全
万字解析从根本解决大模型幻觉问题,附企业级实践解决方案
本文深入探讨大语言模型中的幻觉(Hallucination)问题,分析其成因、分类及企业级解决方案。内容涵盖幻觉的定义、典型表现与业务风险,解析其在预训练、微调、对齐与推理阶段的成因,并介绍RAG、幻觉检测技术及多模态验证工具。最后分享在客服、广告等场景的落地实践与效果,助力构建更可靠的大模型应用。
351 0
|
2月前
|
JavaScript 前端开发 安全
【逆向】Python 调用 JS 代码实战:使用 pyexecjs 与 Node.js 无缝衔接
本文介绍了如何使用 Python 的轻量级库 `pyexecjs` 调用 JavaScript 代码,并结合 Node.js 实现完整的执行流程。内容涵盖环境搭建、基本使用、常见问题解决方案及爬虫逆向分析中的实战技巧,帮助开发者在 Python 中高效处理 JS 逻辑。
|
8月前
|
人工智能 安全 测试技术
本周 AI Benchmark 方向论文推荐
由北京大学和微软亚洲研究院的魏李等人提出的 FEA-Bench,是一个专为评估大型语言模型(LLMs)在代码库级别进行增量开发能力的基准测试。它从 83 个 GitHub 仓库中收集了 1,401 个任务实例,专注于新功能的实现。研究表明,即使是先进的 LLMs 在此任务中的表现仍远低于预期,揭示了仓库级代码开发的重大挑战。
326 0
|
存储 Windows
(13) Qt事件系统(two)
文章详细介绍了Qt事件系统,包括事件分发、自定义事件、事件传播机制、事件过滤以及事件与信号的区别。
493 3
(13) Qt事件系统(two)
|
机器学习/深度学习 传感器 编解码
万字长文 | 多目标跟踪最新综述(基于Transformer/图模型/检测和关联/孪生网络)(上)
随着自动驾驶技术的发展,多目标跟踪已成为计算机视觉领域研究的热点问题之一。MOT 是一项关键的视觉任务,可以解决不同的问题,例如拥挤场景中的遮挡、相似外观、小目标检测困难、ID切换等。为了应对这些挑战,研究人员尝试利用transformer的注意力机制、利用图卷积神经网络获得轨迹的相关性、不同帧中目标与siamese网络的外观相似性,还尝试了基于简单 IOU 匹配的 CNN 网络、运动预测的 LSTM。为了把这些分散的技术综合起来,作者研究了过去三年中的一百多篇论文,试图提取出近年来研究者们更加关注的解决 MOT 问题的技术。
万字长文 | 多目标跟踪最新综述(基于Transformer/图模型/检测和关联/孪生网络)(上)
|
机器学习/深度学习 人工智能 Java
python与java的应用场景区别
python与java的应用场景区别
406 6
下一篇
开通oss服务