从古希腊、古罗马到日不落帝国,到当今的美利坚合众国,自古以来强盛的王朝似乎从来都是和发达的体育分不开的。但是身处科技、金融、军事、体育强国的美国现在似乎是把体育玩到了一个新的境界,那就是:“大数据驱动的体育”。
NBA是美国各个职业体育中的佼佼者,虽然在总营业额上次与美式足球NFL和职业棒球MLB列第三位,但是由于所需要的球员数目远远少于前面二者,NBA球员的年平均工资(515万美金,2012年数据),中位工资(230万美金)都远远高于所有职业体育项目。NBA的成功商业运作背后有着非常成功的IT支持。
经常看NBA比赛的朋友一定知道,NBA比赛是一场视+听的盛宴,“视”不用多说,高清分辨率,多镜头多视角,精彩镜头慢动作回放等等,依赖最专业的摄像设备。“听”的部分呢?除了解说员熟悉的声音魅力,本身的体育经验和素养之外,在NBA比赛的解说中充满了有趣的、智慧的有关球队、球员,球赛的知识,让大家有“如数家珍”的感觉,例如:在圣诞节的NBA比赛中,解说员会告诉我们从1947年开始NBA圣诞节特别节目开始,纽约尼克斯队48次出现在圣诞节比赛中,洛杉矶湖人队39次,波士顿凯尔特人队29次参与圣诞比赛。又例如:解说员经常会说类似“到第三节时,科比和奥尼尔合起来得分超过55分,湖人队没有输过”,“姚明背靠背比赛的得分比两场比赛间休息2天的得分平均高2.6分”等等。
那么,这些“如数家珍”是如何做到的呢?
其实NBA比赛的背后,有着强大的数据统计,数据挖掘系统。首先,NBA对一个体育比赛描述的量化是到了极致的地步,从得分,进攻,防守,做球等几大类统计了多达90多项技术指标,例如我们比较好理解的得分,得分率,三分球命中率等等,还有一些不太常见的,如:对手得分,对手丢球,进攻篮板获得率等等。我见过的最奇怪的技术指标是PIE(Player Impact Estimate),
中文大约翻译为“球员贡献度”吧,可以看出公式极复杂,大致的意思是把一个球员整场比赛的得分,阵地战得分,罚球得分等主动得分,助攻、抢断等技术指标加权相加,减去犯规、丢球等负面的技术指标……说实话,这个指标恐怕就是在教练员那里有用吧,好像还从来没有在电视上听过把球员这样比较,但是相信这些指标在某些场景是非常有用的。相信还有一些类似A球员和B球员得分相关性或者得分总和对球队胜率影响的二级统计指标出现吧,才能指导解说员在比赛过程中解释得精彩、生动。
有了这样的严格、精细地量化,就有了科学的态度,也就有了科学的指导思想和手段, 这些数据不单单是为NBA的教练员来策划比赛,或者老板们决定球员生杀的时候用的,NBA非常聪明,把这些数据开放出来,让大家都对它们感兴趣,让每个球迷都有可能“如数家珍”,增加球迷们对球星们的迷恋程度,也从而增加对NBA比赛的热爱程度,
在NBA的官方网站上,有专门的统计页面,这里面把NBA历史上收集的几乎所有球员、球队信息以非常易用的方式提供出来,后台使用了SAP HANA这样的内存分析数据库,以应对网站数以万计的访问者的访问,提高随机、灵活查询的速度,提供了一种前所未有的用户体验,对上百个指标的不同过滤、统计、排序等等,可以定制分析报表,而不需要大量固化报表格式和场景。 一个看似并不“高科技”的体育项目,都可以如此利用“大数据”的手段,以提供非常优秀的用户体验,从数据收集到数据统计和挖掘,到优秀的数据展现,非常值得我们的企业们学习。
原文发布时间为:2014-01-29
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号