为什么相关不等于因果

简介: 相关不等于因果。图表也会说谎,并非所有的相关性都蕴含因果关系。相关性是科学分析的重要组成部分,但如果使用不当,会带来很多误导。更可怕的是还有人会对图表巧妙包装,将图表设计的更具欺骗性。此时我们需要拿出因果为武器,驱逐虚假关联。

十九世纪末,荷兰出现了一个奇怪的现象:人口出生率与当地白鹳的数量同步增长。鹳鸟送子的传说由此而来。虽然这个故事逐渐消失在民间传说中,但现实生活中类似的相关性无处不在。二十世纪和二十一世纪的新研究一再证实,在一些欧洲国家,鹳与人口出生率在统计学上确实存在显著关联。

34d91803edf940c995f5b9d6591cc5b9.png

《鹳鸟送子》明信片



1958年,伦敦政经学院教授威廉·菲利普斯(William Phillips)发表了一篇关于失业与通货膨胀之间联系的论文。人们从菲利普斯教授的数据中惊奇地发现:高通胀与低失业率有关,反之亦是如此。如此一来政策制定就变得非常明确。国民经济只需要在通货膨胀和失业之间做出选择,或者以某种方式在二者之间找到平衡。后来,这种联系被称作“菲利普斯曲线”,多年来为欧洲和美国的宏观经济政策决策提供帮助。

181235f9987e404dab50c6fb18625491.jpeg

菲利普斯曲线



人类天生喜欢识别模式。我们在大学上花费大量学费,是因为教育水平与毕业后的收入相关。我们被新鲜出炉的饼干所散发出的扑鼻香气所吸引,是因为香气的浓度与饼干的新鲜程度有关。我们早睡,是因为一夜好眠能带来第二天神清气爽。我们避免睡前吃奶酪,是因为奶酪消费量与床单绞杀事故有关。

等等,奶酪那条是什么鬼?

模式很明显:全国(美国)奶酪消费量的增长与被床单绞杀窒息而死的人数增长之间存在统计相关性。有下图为证:

chart3.svg

数据源: Centers for Disease Control & Prevention

可能是融化的奶酪堵塞了呼吸道,也可能是奶酪会导致睡梦惊厥。或者可能这种相关性根本就是虚假的,完全是个偶然。我们几乎可以肯定上面的相关性是虚假的。相关性是否意味着因果关系?上面的例子就很直观 -- 相关并不总是蕴含因果,很多相关性是虚假的

相关性作为一个概念,意味着两个事物一起变化。炎热的天气与冰淇淋的销量相关。阴霾的天空与下雨有关。但还有这个:尼古拉斯·凯奇每年出演的电影数量与掉落泳池淹死的人数相关。

chart2.svg

数据源: Centers for Disease Control & PreventionInternet Movie Database

相关性并不总是有意义的

还记得出生率与鹳之间的相关性吗?这也是巧合。对这种现象的现代研究是为了证明统计数据使用不当可以轻而易举地产生错误结论。事实证明,威廉·菲利普斯(William Phillips)的经济学理论也站不住脚。通货膨胀与就业的联系是普遍存在的,但它过于简单化。多年后,新的研究表明,菲利普斯的模式与长期数据不符。尽管二者有关联,但并不直接控制彼此。


只要有足够多的数据,就有可能找到相关的事物,即便他们之间毫无联系。这种方法通常被称为“数据疏浚”。数据疏浚是一个数据挖掘技术,它将一个变量与其他大量变量相比较,来寻找数据间可能的关系。一般科学家会首先假设两个变量之间存在某个关系,然后通过分析数据确认这种关系存在的显著程度,根据显著程度接受或拒绝最开始做出的假设。例如,通过将鹳与出生率相关联来测试鹳是否带来婴儿的理论。

计算机程序不是测试单个假设,而是可以通过简单地将每个数据集与其他数据集进行比较来进行数据疏浚。进入二十一世纪,技术进步和数据收集让这项工作变得更加容易。今天我不必租来尼古拉斯·凯奇的所有电影光盘逐个阅读发行日期,只需要在IMDb.com上动动手指,2分钟内就能找到尼古拉斯·凯奇参演的所有电影。我想了解特定疾病的死亡率,疾病控制中心会公布其所有数据;我想知道有多少全职爸爸,人口普查会或国家统计局会给我一个可靠的估计。这就是大数据和大相关性的时代。


接下来的内容中,你将看到完全没有因果关系的数据集之间产生的数十种相关性。每个相关性都是由计算机发现的。这些虚假的相关性也许会让你忍俊不禁,但本文更希望在你会心一笑之后能够严肃地思考相关性和因果之间的关系--图表也会说谎,并非所有的相关性都蕴含因果关系。相关性是科学分析的重要组成部分,但如果使用不当,会带来很多误导。更可怕的是还有人会对图表巧妙包装,将图表设计的更具欺骗性。


01

chart1.svg

数据来源: Centers for Disease Control & Prevention


02

chart6.svg


03

chart4.svg

数据来源: National Spelling BeeCenters for Disease Control & Prevention


04

chart5.svg

数据源: National Science Foundation


05

chart7.svg

数据源: Centers for Disease Control & Prevention


06

chart8.svg

数据源: Centers for Disease Control & Prevention


07

chart9.svg


08

chart10.svg

数据源: Centers for Disease Control & Prevention


09

chart11.svg

数据源: Centers for Disease Control & Prevention


10

chart12.svg

数据源: National Science Foundation


11

chart13.svg

数据源: National Science Foundation


12

chart14.svg

数据源: National Science Foundation


13

chart15.svg

数据源: WikipediaCenters for Disease Control & Prevention


14

chart3.svg

数据源: Centers for Disease Control & Prevention


15

chart2.svg

数据源: Centers for Disease Control & PreventionInternet Movie Database


目录
相关文章
|
数据采集 安全 测试技术
信息系统项目管理师重点内容汇总(第八天)
【1月更文挑战第4天】乘风破浪会有时,直挂云帆济沧海
1465 0
信息系统项目管理师重点内容汇总(第八天)
|
机器学习/深度学习 存储 人工智能
PIE Engine系列0 平台介绍(详细)
🏆本文介绍了遥感云计算平台PIE Engine的基本结构与功能,在未来的一段时间里,我将持续更新PIE Engine平台的操作文章,将遥感云计算的便捷传播给更多人,加快行业发展进度♥♥😀
1232 0
inux CentOS 7 如何进入默认工作目录 [root@localhost ~]
这篇文章讨论了如何在Linux CentOS 7系统中进入默认工作目录。默认工作目录通常是用户的主目录,表示为`[root@localhost ~]`,其中波浪号`~`代表当前用户的主目录。文章可能还包含了如何打开这个默认工作目录的步骤和说明。不过,具体内容没有提供详细信息,通常可以通过打开终端并使用`cd ~`命令来进入默认工作目录。如果需要更详细的步骤或有特定的问题,可能需要查看原文获取更多信息。
|
小程序 JavaScript 开发者
uniapp小程序订单页面UI
uniapp小程序订单页面UI
930 0
|
机器学习/深度学习 人工智能 搜索推荐
🔥解锁AI魔法!生成式大模型入门,你的“提示词”就是金钥匙🗝️
【8月更文挑战第1天】在科技浪潮中,生成式大模型作为AI领域的明星,正引领创作革命。这些模型如GPT和DALL-E,通过深度学习技术,在海量数据中学习理解与创造内容。要驾驭这些模型,关键在于设计精妙的提示词。提示词不仅是简单的指令,更是激发AI创造力的灵魂。例如,创作关于“未来教育”的文章时,“2050年个性化学习如何颠覆传统教学?”比“未来教育”能引导生成更深入、生动的内容。在图像生成方面,详细描绘场景加上情感色彩的提示词,如“星空下的古老城堡”,能使生成的图像更加引人入胜。通过不断优化提示词,我们可以开启AI无限创意的大门,见证科技与艺术的完美融合。
643 7
|
存储 SQL 数据可视化
三维引擎系列(三):BIM数据管理与可视化功能
Ganos三维引擎的BIM数据管理分析解决方案,旨在充分发挥BIM模型价值,满足数字孪生技术发展的高精度需求。该方案通过结构化拆解BIM数据,实现统一管理和联合查询;支持精细化计算BIM模型指标,并与规划红线对比;同时提供高效渲染能力。Ganos内置多种功能,如ST_ImportIFC导入IFC格式数据,ST_As3DTiles生成3D Tiles瓦片数据结构,无需依赖第三方软件即可完成BIM数据的存储、计算与可视化展示。此外,通过简单的后端服务即可实现与渲染引擎的无缝对接,显著提升三维空间计算效率。
434 0
|
Python
按条件将Excel文件拆分到不同的工作表
使用Python的pandas库,可以轻松将Excel文件按条件拆分为多个工作表。本文通过一个具体示例,展示了如何根据学生班级将成绩数据拆分到不同的工作表中,并生成一个包含总成绩表和各班级成绩表的Excel文件。代码简洁明了,适合初学者学习和应用。
573 6
|
JavaScript 前端开发 UED
为什么在 Vue3.0 采用了 Proxy,抛弃了 Object.defineProperty
Vue 3.0 采用 Proxy 替代 Object.defineProperty,主要因为 Proxy 提供了更全面、高效的数据拦截能力,支持对更多操作进行拦截和自定义处理,同时减少了对对象的限制,提升了框架性能和开发体验。
|
网络协议 网络安全 网络性能优化
期末复习【计算机网络】
期末复习【计算机网络】
323 0