为什么相关不等于因果

简介: 相关不等于因果。图表也会说谎,并非所有的相关性都蕴含因果关系。相关性是科学分析的重要组成部分,但如果使用不当,会带来很多误导。更可怕的是还有人会对图表巧妙包装,将图表设计的更具欺骗性。此时我们需要拿出因果为武器,驱逐虚假关联。

十九世纪末,荷兰出现了一个奇怪的现象:人口出生率与当地白鹳的数量同步增长。鹳鸟送子的传说由此而来。虽然这个故事逐渐消失在民间传说中,但现实生活中类似的相关性无处不在。二十世纪和二十一世纪的新研究一再证实,在一些欧洲国家,鹳与人口出生率在统计学上确实存在显著关联。

34d91803edf940c995f5b9d6591cc5b9.png

《鹳鸟送子》明信片



1958年,伦敦政经学院教授威廉·菲利普斯(William Phillips)发表了一篇关于失业与通货膨胀之间联系的论文。人们从菲利普斯教授的数据中惊奇地发现:高通胀与低失业率有关,反之亦是如此。如此一来政策制定就变得非常明确。国民经济只需要在通货膨胀和失业之间做出选择,或者以某种方式在二者之间找到平衡。后来,这种联系被称作“菲利普斯曲线”,多年来为欧洲和美国的宏观经济政策决策提供帮助。

181235f9987e404dab50c6fb18625491.jpeg

菲利普斯曲线



人类天生喜欢识别模式。我们在大学上花费大量学费,是因为教育水平与毕业后的收入相关。我们被新鲜出炉的饼干所散发出的扑鼻香气所吸引,是因为香气的浓度与饼干的新鲜程度有关。我们早睡,是因为一夜好眠能带来第二天神清气爽。我们避免睡前吃奶酪,是因为奶酪消费量与床单绞杀事故有关。

等等,奶酪那条是什么鬼?

模式很明显:全国(美国)奶酪消费量的增长与被床单绞杀窒息而死的人数增长之间存在统计相关性。有下图为证:

chart3.svg

数据源: Centers for Disease Control & Prevention

可能是融化的奶酪堵塞了呼吸道,也可能是奶酪会导致睡梦惊厥。或者可能这种相关性根本就是虚假的,完全是个偶然。我们几乎可以肯定上面的相关性是虚假的。相关性是否意味着因果关系?上面的例子就很直观 -- 相关并不总是蕴含因果,很多相关性是虚假的

相关性作为一个概念,意味着两个事物一起变化。炎热的天气与冰淇淋的销量相关。阴霾的天空与下雨有关。但还有这个:尼古拉斯·凯奇每年出演的电影数量与掉落泳池淹死的人数相关。

chart2.svg

数据源: Centers for Disease Control & PreventionInternet Movie Database

相关性并不总是有意义的

还记得出生率与鹳之间的相关性吗?这也是巧合。对这种现象的现代研究是为了证明统计数据使用不当可以轻而易举地产生错误结论。事实证明,威廉·菲利普斯(William Phillips)的经济学理论也站不住脚。通货膨胀与就业的联系是普遍存在的,但它过于简单化。多年后,新的研究表明,菲利普斯的模式与长期数据不符。尽管二者有关联,但并不直接控制彼此。


只要有足够多的数据,就有可能找到相关的事物,即便他们之间毫无联系。这种方法通常被称为“数据疏浚”。数据疏浚是一个数据挖掘技术,它将一个变量与其他大量变量相比较,来寻找数据间可能的关系。一般科学家会首先假设两个变量之间存在某个关系,然后通过分析数据确认这种关系存在的显著程度,根据显著程度接受或拒绝最开始做出的假设。例如,通过将鹳与出生率相关联来测试鹳是否带来婴儿的理论。

计算机程序不是测试单个假设,而是可以通过简单地将每个数据集与其他数据集进行比较来进行数据疏浚。进入二十一世纪,技术进步和数据收集让这项工作变得更加容易。今天我不必租来尼古拉斯·凯奇的所有电影光盘逐个阅读发行日期,只需要在IMDb.com上动动手指,2分钟内就能找到尼古拉斯·凯奇参演的所有电影。我想了解特定疾病的死亡率,疾病控制中心会公布其所有数据;我想知道有多少全职爸爸,人口普查会或国家统计局会给我一个可靠的估计。这就是大数据和大相关性的时代。


接下来的内容中,你将看到完全没有因果关系的数据集之间产生的数十种相关性。每个相关性都是由计算机发现的。这些虚假的相关性也许会让你忍俊不禁,但本文更希望在你会心一笑之后能够严肃地思考相关性和因果之间的关系--图表也会说谎,并非所有的相关性都蕴含因果关系。相关性是科学分析的重要组成部分,但如果使用不当,会带来很多误导。更可怕的是还有人会对图表巧妙包装,将图表设计的更具欺骗性。


01

chart1.svg

数据来源: Centers for Disease Control & Prevention


02

chart6.svg


03

chart4.svg

数据来源: National Spelling BeeCenters for Disease Control & Prevention


04

chart5.svg

数据源: National Science Foundation


05

chart7.svg

数据源: Centers for Disease Control & Prevention


06

chart8.svg

数据源: Centers for Disease Control & Prevention


07

chart9.svg


08

chart10.svg

数据源: Centers for Disease Control & Prevention


09

chart11.svg

数据源: Centers for Disease Control & Prevention


10

chart12.svg

数据源: National Science Foundation


11

chart13.svg

数据源: National Science Foundation


12

chart14.svg

数据源: National Science Foundation


13

chart15.svg

数据源: WikipediaCenters for Disease Control & Prevention


14

chart3.svg

数据源: Centers for Disease Control & Prevention


15

chart2.svg

数据源: Centers for Disease Control & PreventionInternet Movie Database


目录
相关文章
|
6月前
|
存储 C语言 Python
有一分数序列:2/1,3/2,5/3,8/5,13/8,21/13…求出这个数列的前20项之和。
有一分数序列:2/1,3/2,5/3,8/5,13/8,21/13…求出这个数列的前20项之和。
699 4
|
10月前
|
机器学习/深度学习 PyTorch 算法框架/工具
神经网络中的分位数回归和分位数损失
在使用机器学习构建预测模型时,我们不只是想知道“预测值(点预测)”,而是想知道“预测值落在某个范围内的可能性有多大(区间预测)”。例如当需要进行需求预测时,如果只储备最可能的需求预测量,那么缺货的概率非常的大。但是如果库存处于预测的第95个百分位数(需求有95%的可能性小于或等于该值),那么缺货数量会减少到大约20分之1。
610 2
|
9月前
分数序列
【6月更文挑战第9天】分数序列。
78 5
202112-2 序列查询新解
202112-2 序列查询新解
|
10月前
|
算法 BI 测试技术
【唯一分解定理 数学】1808好因子的最大数目
【唯一分解定理 数学】1808好因子的最大数目
|
10月前
16.有一分数序列 1/2,2/3,3/5,5/8,8/13,13/21,…求出这个序列的前200 项之和
16.有一分数序列 1/2,2/3,3/5,5/8,8/13,13/21,…求出这个序列的前200 项之和
91 0
m 序列(最长线性反馈移位寄存器序列)详解
m 序列(最长线性反馈移位寄存器序列)详解
657 0
|
存储
[递推]双幂序列、多幂序列、双幂积序列的和
[递推]双幂序列、多幂序列、双幂积序列的和
252 0
[递推]双幂序列、多幂序列、双幂积序列的和
|
算法
[算法]将一个正整数拆分成若干个正整数的和,输出所有的结果不重复
推荐先看我的一篇介绍Set去重的博文地址是 http://blog.csdn.net/bug_moving 看了这个之后,再来看下面的程序基本就能看懂了 题目 我也不太记得,因为是朋友给我口述的,然后给了我一个截图,看了图片大致也能知道题目要我们做什么 package yn; import java.util.ArrayList; import java.
2833 0
|
存储 算法
算法 |【实验5.3】:一元三次方程的根-连续区间的二分搜索求近似解
算法 |【实验5.3】:一元三次方程的根-连续区间的二分搜索求近似解
203 0
算法 |【实验5.3】:一元三次方程的根-连续区间的二分搜索求近似解