大数据预测世界杯 八种方法谁靠谱

简介:

西班牙、英格兰连续两场失利,小组赛即遭淘汰,不仅让一些球迷伤心欲绝,让彩民损失不小,还顺便连累了众多预测世界杯的高人欲哭无泪。

这届世界杯在大数据火爆之后,不管是民间还是官方,都把大数据的概念运用到了世界杯预测上,但这些预测真的准吗?下面选取国内外主要的八种世界杯预测,对他们的预测方法进行简要的分析,看看谁的更准一些。

百度分析最传统

据验证,今年全国高考作文题目18卷中12卷的作文方向被百度大数据预测命中,被戏称“神预测”。因此,这次百度收集网上的综合数据,然后进行整理、分析,最终通过大规模机器学习等人工智能技术,开始预测世界杯。

百度大数据研究院利用百度大数据全面搜索过去5年内全世界987支球队的3.7万场比赛数据,并与国内著名彩票网站乐彩网、欧洲必发指数独家数据供应商Spdex等公司建立数据战略合作伙伴关系,将博彩市场数据融入到预测模型中,构建了本次“世界杯预测”产品的足球赛事预测模型。该模型共涉及到19972名球员和1.12亿条相关数据,所参考的数据包括百度搜索数据、球队基础数据、球员基础数据、赔率市场数据等,所分析的球队不仅包括207支国家队,还囊括了欧洲、南美、亚洲等联赛俱乐部及低级别球队信息。

     评:百度用的是传统的统计分析,注重近期球队和球员表现,这种预测是至今为止在技术上最稳定的方法,但受意外因素(如天气、伤病、裁判等)影响较大。到现在为止,百度成功预测对了智利的黑马本色,却遗漏了哥斯达黎加。

百度

德银推算最胡闹

德银根据各个球队的FIFA排名、历史战绩、球员构成和赌场赔率等因素,建立了量化分析模型,并根据复杂计算得到一份夺冠概率表格,从夺冠概率表格中挑选出了前10强,依据“轮流转周期”,由此排除了2014年巴西、意大利和西班牙夺冠的可能性,然后根据另一个假设:强队会回来,即夺取过世界杯的强队,未来必然还会夺取世界杯或至少打入一次决赛。最后,本届英格兰队有6名队员来自利物浦,而正是在利物浦的球员最多的1966年,英格兰获得了历史上唯一一次世界杯冠军。同时,德银报告的主笔人承认自己是利物浦队的铁杆球迷,因此,最后确定英格兰将获得世界杯的冠军。

     评:还好,德银报告主笔不是中国队的球迷!

高盛模型最神秘

高盛对世界杯决赛周32支国家队的胜算,有它自己的一套评估方法(命名Elo),在所有因素中分量最重。Elo是高盛自设的动态系统,不断根据球队近绩更新评分和排名。

为此,分析师要收集来多项数据,包括:世界各个国家足球队历史成绩数据库给出的各队排名得分;比赛中双方球队过去10场和5场比赛的进球数;比赛双方是不是巴西主场;比赛球队是不是美洲球队;还有以往各队在世界杯的进球数优于平时多少个。最后,他们把这几项数据按照一定的权重相加到一起,可以得出每一个球队在对阵另外某一个球队时平均会进多少个球。按照这样的方式,从小组赛一路到最后决赛,每一场比赛双方的进球数都可以期望一番,最后获得一个“最平均”的世界杯全程模拟结果。

     评:投行一贯的神秘模型来忽悠投资者,Elo模型就是高深黑洞,关键环节恕不奉告,至于准确与否,只有神知道。

严格的讲,以上几家的世界杯预测都不能算“大数据分析”,只是传统的统计分析,虽然数据“大”,但并未融合多种因素综合考虑,可见在专业领域还是相信经典理论。

高盛

霍金想法最娱乐

霍金收集了大量的数据,包括历史记录、温度、球场的海拔高度等,把所有数据都集中起来,分析你事先不知道的事情,或许能发现一些规律。它的原理不是传统的分析,更多的是基于关系的一种预测。霍金19页的分析结果是关于如何提高英格兰队的夺冠几率,但最后却抛出一个让英格兰球迷伤心的终极结论:个人更看好巴西队夺冠。霍金认为英格兰队首先需要在海拔500米以下的球场比赛,气温的提升会降低赢球可能,在巴西当地时间15时是最好的比赛时间。从球队自身来说,433阵型无疑是夺冠的节奏,而且必须穿上红色战袍。提到点球大战,霍金认为助跑必须不少于三步,如果速度上不去,进球几率只有58%。瞄准上角的点球有84%的命中率,金发和秃头的球员射中的概率达到更高的84%,前锋的进球概率超过80%,中场与后卫递减。

     评:霍金老爷爷最近几年很喜欢预测,还预测过世界将在两百年之后灭亡,这次娱乐世界杯一下,也算是比黑洞要沾地气。如果预测对了,建议用这个理由把早就该属于霍金的诺贝尔奖发了吧。

科隆体育最繁琐

德国科隆体育学院根据复杂的计算机模拟测算得出的本届世界杯预测结果:科隆体育学院的格罗尔教授领导研究小组以自己设计的计算机模拟算式一共进行了10万次测算,综合考虑各队的世界排名、足彩赔率、市值、预选赛表现,还包括可能的伤病、战术、气候条件、主场优势因素。他们预测,巴西队与阿根廷队将争冠,卫冕冠军西班牙有可能止步小组赛,从西荷大战那个惊悚的5比1赛果,看来德国人的模拟测算还有靠谱的。

     评:德国人的严谨是出了名的,而且竟然没有预测德国夺冠,对于西班牙却一语中的,估计他们现在都在祈祷决赛的预测是错误的,否则作为物理学家的默克尔总理不会答应。

 熊猫预测夭折了

世界杯开幕前,据媒体报道,中国保护大熊猫研究中心称将派出一到两岁的熊猫宝宝来预测世界杯。小组赛阶段,主办方会拿出三个竹筐代表主队的胜平负,熊猫宝宝则通过选择哪个筐里的食物来预测比赛结果。等到了淘汰赛,熊猫宝宝们还会通过爬树和赛跑来预测结果。前者是让熊猫爬上挂有一方球队国旗的树木来预测,后者则是两个熊猫宝宝分别穿上两队球衣,通过谁先跑到目的地来预测比赛结果。就在世界杯开赛之后,“熊猫预测世界杯”活动已经被取消。评:本来要顶替章鱼保罗的国宝没了用武之地,国人还是缺乏点娱乐精神,借此机会宣传下大熊猫,有何不可,万一要是预测对了,那大熊猫基地岂不成了大师圣地,还愁旅游不火?

微软相信EXCEL

微软必应大数据之前曾多次成功预测奥斯卡奖项、投票大选。微软的预测考虑过往比赛历史、主场客场、地理位置、草坪状况、天气以及“群众智慧”等等多种因素,还使用大量的公开数据——博彩市场、民意调查、社交媒体以及其它在线数据,利用大数据分析来判断每场比赛的结果。据说这一切都是用EXCEL来完成的,我们权当其是软件推广策划吧。

微软:相信EXCEL是万能的,但预测足球估计是万万不能的,不过,人家说奥斯卡、大选都预测对了,还是看结果吧。

雅虎相信网络流言

雅虎用轻博客网站Tumblr的数据来估计每支国家队的优势,最终计算出最可能获胜的是巴西。雅虎研究小组分析的前提是,Tumblr上所有有关世界杯的讨论都具有一定价值。为了查明哪些国家将相互较量,小组会根据之前比赛的结果为每支队伍赋予优势值。针对每一次比赛,雅虎会利用名为泊松分布不同参数的概率论来估计每一支队伍可能的进球数量。

     评:雅虎相信的是目前最火的社交网络数据,据说可以预测传染病和犯罪现场,不知道对足球是否有效?

(据说美女主持穿什么球衣,什么球队就输球,而美女的球衣选择是靠网民投票出来的,所以,也证明了冷门太多)

美女球衣

当然,虽然很多人相信大数据能够帮助我们预测世界杯,也有不可预测派。美国的洛斯·阿拉莫斯国家实验室的三位统计物理学家曾经对大型体育比赛的赛况进行数据化分析,发现在棒球、曲棍球、篮球、橄榄球以及足球五大项目中,足球比赛是其中最具悬念,赛果最具不确定性的,弱旅战胜强队的概率居高不下,即使使用科学方法也未能得到准确的预测。

说实话,作为统计专业人士,对足球预测不敢太相信,体育比赛确实可以预测,足球也不例外,但足球项目影响因素太多,特别是世界杯足球比赛相对场次不多、间隔周期太长,致使数据量很小,比赛中又有太多的主观因素(比如裁判),有时候这种比赛的预测和算命没什么差别。

如果要问为何总有人预测正确?正如一家报纸所说,每届世界杯都会有无数的“保罗”,大部分都在前几次猜测失败后从媒体视线中消失。贝利也不是真正的乌鸦嘴,只不过他预测成功的时候没有后续报道。预测大师都是这样练成的!

原文发布时间为:2014-07-01
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
1月前
|
机器学习/深度学习 分布式计算 DataWorks
MaxCompute产品使用合集之MaxCompute读取外部表的速度较慢,有什么方法来提升读取速度
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
1月前
|
机器学习/深度学习 数据采集 算法
大数据分析技术与方法探究
在当今信息化时代,数据量的增长速度远快于人类的处理能力。因此,如何高效地利用大数据,成为了企业和机构关注的焦点。本文将从大数据分析的技术和方法两个方面进行探究,为各行业提供更好的数据应用方向。
|
1月前
|
机器学习/深度学习 人工智能 自然语言处理
大数据分析的技术和方法:从深度学习到机器学习
大数据时代的到来,让数据分析成为了企业和组织中不可或缺的一环。如何高效地处理庞大的数据集并且从中发现潜在的价值是每个数据分析师都需要掌握的技能。本文将介绍大数据分析的技术和方法,包括深度学习、机器学习、数据挖掘等方面的应用,以及如何通过这些技术和方法来解决实际问题。
90 2
|
1月前
|
分布式计算 DataWorks 关系型数据库
MaxCompute产品使用合集之可以使用什么方法将MySQL的数据实时同步到MaxCompute
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
8天前
|
SQL 分布式计算 大数据
MaxCompute产品使用合集之查看表的血缘关系有哪些方法
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
12天前
|
SQL 关系型数据库 MySQL
MySQL大数据量分页查询方法及其优化
MySQL大数据量分页查询方法及其优化
|
1月前
|
存储 关系型数据库 MySQL
Mysql大数据批量插入方法
Mysql大数据批量插入方法
29 0
|
1月前
|
SQL 分布式计算 资源调度
一文解析 ODPS SQL 任务优化方法原理
本文重点尝试从ODPS SQL的逻辑执行计划和Logview中的执行计划出发,分析日常数据研发过程中各种优化方法背后的原理,覆盖了部分调优方法的分析,从知道怎么优化,到为什么这样优化,以及还能怎样优化。
103761 1
|
1月前
|
机器学习/深度学习 存储 分布式计算
机器学习PAI常见问题之将MaxCompute方法设置成永久如何解决
PAI(平台为智能,Platform for Artificial Intelligence)是阿里云提供的一个全面的人工智能开发平台,旨在为开发者提供机器学习、深度学习等人工智能技术的模型训练、优化和部署服务。以下是PAI平台使用中的一些常见问题及其答案汇总,帮助用户解决在使用过程中遇到的问题。
|
1月前
|
大数据 Java 编译器
关于 Python 在 for 循环里处理大数据的一些推荐方法
关于 Python 在 for 循环里处理大数据的一些推荐方法
49 0

热门文章

最新文章