◆ ◆ ◆
有人说,当一支足球队刚进球了以后,他们会突然变得比之前更容易被对方进球,这种说法是可靠的吗?
上周,我们就进球是不是更倾向于成对出现进行了研究,具体做法是比较在前一个进球之后10分钟以内的进球数量与同一个联赛所有比赛中的相同10分钟时段的进球数量。
我们还将每支队伍的实力差别,和主客场因素考虑了进来,以站在脱离特定球队的基础上更精确地计算进球数的期望值。此项研究将会提出这样一种可能性,如果先回答一个问题:进球方或失球方是否会更容易被对方进球,我们就可以据此预测出某些场次的比赛更可能出现更多的进球数。
我们的数据中有三个主要的因子是可用于预测一支足球队在一场特定的比赛中的进球数的:
主场比赛还是客场比赛;
这支球队的平均进球数;
对手的平均失球数。
我们通过观察一个联赛所有场次的比赛来收集上述三个因子的数据。为了量化主客场优势,我们通过计算主场/客场球队平均每场球的进球数占整个赛季中所有球队在所有比赛中的平均进球数的比例,量化了一个主场/客场实力因子。
例如,在2015-2016赛季的英超联赛中,这些因子是:
类似地,我们通过观察球队进球/失球数占整个联赛的平均值的比例来计算一支球队的进攻实力因子和防御实力因子。例如, 曼城俱乐部在2015-2016赛季的因子是:
最后,因为球队们不是自己跟自己比赛的,数学模型要求我们对这些因子的值做一些微调以避免对进球数目的一致估计过高。解决方法是对预测的进球数除以一个校正因子,这个因子是为每一个所考察的联赛单独计算的,处在1.002到1.004之间。
通过对进球数的分布和三个主要因子的独立性做一些常规的假设,我们能用下面的这个公式来计算主场球队在给定的5分钟时间内进球数的期望值。
类似地,我们把主场实力因子换成客场实力因子就可以计算出客场球队的进球数期望值。
接下来,我们可以通过对图表中的所有进球数取平均,来绘制一些类似的表格,但是这次是在考量了球队实力的基础上:
图表1:欧洲各大联赛2015-2016赛季进球后10分钟内再次进球数的真实值与期望值的对比,考虑了主场与客场实力差异
然而,一旦我们把比赛球队的实力考虑进来,进球后5-10分钟区间内的再次进球数只增加了5%,所以仅仅基于这张图表,我们在提出“进球数的增加与第一个进球直接相关”这一论断的时候需要更慎重。
然而,如果把上图拆分为刚刚进球的球队和刚刚失球的球队,我们将会得到一些更有趣的结论。 图表2:欧洲各大联赛2015-2016赛季进球后10分钟内再次进球数的真实值与期望值的对比,考虑了主场与客场实力差异,并且根据进球球队和失球球队进行了拆分
这些表格说明,尽管双方球队在发生进球后的5分钟内都比较难再次进球,但是在这之后的5分钟内,失球球队进球的可能性有了相对提升,进球球队则没有。下图通过每一分钟的记录可视化了这一事实:
图表3:欧洲六大联赛2015-2016赛季发生进球后每一分钟进球数目期望值和实际值差异百分比,按照进球球队和失球球队分组
当然,这一事实并不一定意味着,如果曼城跟桑德兰比赛并且进球了,桑德兰现在就比曼城更有可能进下一个球。但是意味着桑德兰比之前更有可能进球,但曼城不会。
所以,如果球队管理层警告你说在进球后的10分钟内一定要让后防线保持充分的警惕,这个建议可能真的是有用的,因为数据也这样说。
原文发布时间为:2016-10-12
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号