大数据预测世界杯 八种方法谁靠谱

简介:

西班牙、英格兰连续两场失利,小组赛即遭淘汰,不仅让一些球迷伤心欲绝,让彩民损失不小,还顺便连累了众多预测世界杯的高人欲哭无泪。这届世界杯在大数据火爆之后,不管是民间还是官方,都把大数据的概念运用到了世界杯预测上,但这些预测真的准吗?下面选取国内外主要的八种世界杯预测,对他们的预测方法进行简要的分析,看看谁的更准一些。


(1)百度分析最传统

据验证,今年全国高考作文题目18卷中12卷的作文方向被百度大数据预测命中,被戏称“神预测”。因此,这次百度收集网上的综合数据,然后进行整理、分析,最终通过大规模机器学习等人工智能技术,开始预测世界杯。


百度大数据研究院利用百度大数据全面搜索过去5年内全世界987支球队的3.7万场比赛数据,并与国内著名彩票网站乐彩网、欧洲必发指数独家数据供应商Spdex等公司建立数据战略合作伙伴关系,将博彩市场数据融入到预测模型中,构建了本次“世界杯预测”产品的足球赛事预测模型。该模型共涉及到19972名球员和1.12亿条相关数据,所参考的数据包括百度搜索数据、球队基础数据、球员基础数据、赔率市场数据等,所分析的球队不仅包括207支国家队,还囊括了欧洲、南美、亚洲等联赛俱乐部及低级别球队信息。


评:百度用的是传统的统计分析,注重近期球队和球员表现,这种预测是至今为止在技术上最稳定的方法,但受意外因素(如天气、伤病、裁判等)影响较大。到现在为止,百度成功预测对了智利的黑马本色,却遗漏了哥斯达黎加。

(2)德银推算最胡闹

德银根据各个球队的FIFA排名、历史战绩、球员构成和赌场赔率等因素,建立了量化分析模型,并根据复杂计算得到一份夺冠概率表格,从夺冠概率表格中挑选出了前10强,依据“轮流转周期”,由此排除了2014年巴西、意大利和西班牙夺冠的可能性,然后根据另一个假设:强队会回来,即夺取过世界杯的强队,未来必然还会夺取世界杯或至少打入一次决赛。最后,本届英格兰队有6名队员来自利物浦,而正是在利物浦的球员最多的1966年,英格兰获得了历史上唯一一次世界杯冠军。同时,德银报告的主笔人承认自己是利物浦队的铁杆球迷,因此,最后确定英格兰将获得世界杯的冠军。

评:还好,德银报告主笔不是中国队的球迷!


(3)高盛模型最神秘

高盛对世界杯决赛周32支国家队的胜算,有它自己的一套评估方法(命名Elo),在所有因素中分量最重。Elo是高盛自设的动态系统,不断根据球队近绩更新评分和排名。


为此,分析师要收集来多项数据,包括:世界各个国家足球队历史成绩数据库给出的各队排名得分;比赛中双方球队过去10场和5场比赛的进球数;比赛双方是不是巴西主场;比赛球队是不是美洲球队;还有以往各队在世界杯的进球数优于平时多少个。最后,他们把这几项数据按照一定的权重相加到一起,可以得出每一个球队在对阵另外某一个球队时平均会进多少个球。按照这样的方式,从小组赛一路到最后决赛,每一场比赛双方的进球数都可以期望一番,最后获得一个“最平均”的世界杯全程模拟结果。


评:投行一贯的神秘模型来忽悠投资者,Elo模型就是高深黑洞,关键环节恕不奉告,至于准确与否,只有神知道。严格的讲,以上几家的世界杯预测都不能算“大数据分析”,只是传统的统计分析,虽然数据“大”,但并未融合多种因素综合考虑,可见在专业领域还是相信经典理论。



(4)霍金想法最娱乐

霍金收集了大量的数据,包括历史记录、温度、球场的海拔高度等,把所有数据都集中起来,分析你事先不知道的事情,或许能发现一些规律。它的原理不是传统的分析,更多的是基于关系的一种预测。霍金19页的分析结果是关于如何提高英格兰队的夺冠几率,但最后却抛出一个让英格兰球迷伤心的终极结论:个人更看好巴西队夺冠。霍金认为英格兰队首先需要在海拔500米以下的球场比赛,气温的提升会降低赢球可能,在巴西当地时间15时是最好的比赛时间。从球队自身来说,433阵型无疑是夺冠的节奏,而且必须穿上红色战袍。提到点球大战,霍金认为助跑必须不少于三步,如果速度上不去,进球几率只有58%。瞄准上角的点球有84%的命中率,金发和秃头的球员射中的概率达到更高的84%,前锋的进球概率超过80%,中场与后卫递减。


评:霍金老爷爷最近几年很喜欢预测,还预测过世界将在两百年之后灭亡,这次娱乐世界杯一下,也算是比黑洞要沾地气。如果预测对了,建议用这个理由把早就该属于霍金的诺贝尔奖发了吧。


(5)科隆体育最繁琐

德国科隆体育学院根据复杂的计算机模拟测算得出的本届世界杯预测结果:科隆体育学院的格罗尔教授领导研究小组以自己设计的计算机模拟算式一共进行了10万次测算,综合考虑各队的世界排名、足彩赔率、市值、预选赛表现,还包括可能的伤病、战术、气候条件、主场优势因素。他们预测,巴西队与阿根廷队将争冠,卫冕冠军西班牙有可能止步小组赛,从西荷大战那个惊悚的5比1赛果,看来德国人的模拟测算还有靠谱的。


评:德国人的严谨是出了名的,而且竟然没有预测德国夺冠,对于西班牙却一语中的,估计他们现在都在祈祷决赛的预测是错误的,否则作为物理学家的默克尔总理不会答应。


(6)熊猫预测夭折了

世界杯开幕前,据媒体报道,中国保护大熊猫研究中心称将派出一到两岁的熊猫宝宝来预测世界杯。小组赛阶段,主办方会拿出三个竹筐代表主队的胜平负,熊猫宝宝则通过选择哪个筐里的食物来预测比赛结果。等到了淘汰赛,熊猫宝宝们还会通过爬树和赛跑来预测结果。前者是让熊猫爬上挂有一方球队国旗的树木来预测,后者则是两个熊猫宝宝分别穿上两队球衣,通过谁先跑到目的地来预测比赛结果。就在世界杯开赛之后,“熊猫预测世界杯”活动已经被取消。


评:本来要顶替章鱼保罗的国宝没了用武之地,国人还是缺乏点娱乐精神,借此机会宣传下大熊猫,有何不可,万一要是预测对了,那大熊猫基地岂不成了大师圣地,还愁旅游不火?


(7)微软相信EXCEL

微软必应大数据之前曾多次成功预测奥斯卡奖项、投票大选。微软的预测考虑过往比赛历史、主场客场、地理位置、草坪状况、天气以及“群众智慧”等等多种因素,还使用大量的公开数据——博彩市场、民意调查、社交媒体以及其它在线数据,利用大数据分析来判断每场比赛的结果。据说这一切都是用EXCEL来完成的,我们权当其是软件推广策划吧。


微软:相信EXCEL是万能的,但预测足球估计是万万不能的,不过,人家说奥斯卡、大选都预测对了,还是看结果吧。


(8)雅虎相信网络流言

雅虎用轻博客网站Tumblr的数据来估计每支国家队的优势,最终计算出最可能获胜的是巴西。雅虎研究小组分析的前提是,Tumblr上所有有关世界杯的讨论都具有一定价值。为了查明哪些国家将相互较量,小组会根据之前比赛的结果为每支队伍赋予优势值。针对每一次比赛,雅虎会利用名为泊松分布不同参数的概率论来估计每一支队伍可能的进球数量。


评:雅虎相信的是目前最火的社交网络数据,据说可以预测传染病和犯罪现场,不知道对足球是否有效?


(据说美女主持穿什么球衣,什么球队就输球,而美女的球衣选择是靠网民投票出来的,所以,也证明了冷门太多)

当然,虽然很多人相信大数据能够帮助我们预测世界杯,也有不可预测派。美国的洛斯·阿拉莫斯国家实验室的三位统计物理学家曾经对大型体育比赛的赛况进行数据化分析,发现在棒球、曲棍球、篮球、橄榄球以及足球五大项目中,足球比赛是其中最具悬念,赛果最具不确定性的,弱旅战胜强队的概率居高不下,即使使用科学方法也未能得到准确的预测。


说实话,作为统计专业人士,对足球预测不敢太相信,体育比赛确实可以预测,足球也不例外,但足球项目影响因素太多,特别是世界杯足球比赛相对场次不多、间隔周期太长,致使数据量很小,比赛中又有太多的主观因素(比如裁判),有时候这种比赛的预测和算命没什么差别。


如果要问为何总有人预测正确?正如一家报纸所说,每届世界杯都会有无数的“保罗”,大部分都在前几次猜测失败后从媒体视线中消失。贝利也不是真正的乌鸦嘴,只不过他预测成功的时候没有后续报道。预测大师都是这样练成的!





原文发布时间为:2014-07-05


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
基于MaxCompute的热门话题分析
Apsara Clouder大数据专项技能认证配套课程:基于MaxCompute的热门话题分析
相关文章
|
机器学习/深度学习 算法 数据可视化
智能扑克牌识别软件(Python+YOLOv5深度学习模型+清新界面)
智能扑克牌识别软件(Python+YOLOv5深度学习模型+清新界面)
2217 0
|
8月前
|
传感器 Java 数据库
探索Spring Boot的@Conditional注解的上下文配置
Spring Boot 的 `@Conditional` 注解可根据不同条件动态控制 Bean 的加载,提升应用的灵活性与可配置性。本文深入解析其用法与优势,并结合实例展示如何通过自定义条件类实现环境适配的智能配置。
455 0
探索Spring Boot的@Conditional注解的上下文配置
|
机器学习/深度学习 Python
训练集、测试集与验证集:机器学习模型评估的基石
在机器学习中,数据集通常被划分为训练集、验证集和测试集,以评估模型性能并调整参数。训练集用于拟合模型,验证集用于调整超参数和防止过拟合,测试集则用于评估最终模型性能。本文详细介绍了这三个集合的作用,并通过代码示例展示了如何进行数据集的划分。合理的划分有助于提升模型的泛化能力。
|
搜索推荐 算法 前端开发
基于用户特征的个性化网络小说推荐系统的设计与实现
基于用户特征的个性化网络小说推荐系统的设计与实现
601 0
|
存储 供应链 机器人
伙伴客户案例|阿里云RPA携手百胜软件助力大型物流企业降本增效
RPA全称机器人流程自动化(Robotic Process Automation),是一种新兴的“数字劳动力”,可以替代或辅助人完成规则明确的重复性劳动,大幅提升业务流程销量,实现企业业务流程的自动化和智能化,从而降本增效。目前,RPA解决方案的应用场景几乎涵盖了所有行业,包括银行、保险、制造、零售、医疗、物流、电子商务甚至政府和公共机构。
伙伴客户案例|阿里云RPA携手百胜软件助力大型物流企业降本增效
|
API 数据库 存储
商城API开发之下单接口
前言: 一个商城中最复杂的业务是什么,可能大家都有自己的看法,在我看来下单算是最复杂也必须加倍谨慎的地方。今天就介绍下我的下单接口。也能帮自己梳理一番。 首先需要交代下需求。
1536 0
|
6天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
2870 10
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
13天前
|
人工智能 开发工具 iOS开发
Claude Code 新手完全上手指南:安装、国产模型配置与常用命令全解
Claude Code 是一款运行在终端环境中的 AI 编程助手,能够直接在命令行中完成代码生成、项目分析、文件修改、命令执行、Git 管理等开发全流程工作。它最大的特点是**任务驱动、终端原生、轻量高效、多模型兼容**,无需图形界面、不依赖 IDE 插件,能够深度融入开发者日常工作流。
3465 12