十九世纪末,荷兰出现了一个奇怪的现象:人口出生率与当地白鹳的数量同步增长。鹳鸟送子的传说由此而来。虽然这个故事逐渐消失在民间传说中,但现实生活中类似的相关性无处不在。二十世纪和二十一世纪的新研究一再证实,在一些欧洲国家,鹳与人口出生率在统计学上确实存在显著关联。
《鹳鸟送子》明信片
1958年,伦敦政经学院教授威廉·菲利普斯(William Phillips)发表了一篇关于失业与通货膨胀之间联系的论文。人们从菲利普斯教授的数据中惊奇地发现:高通胀与低失业率有关,反之亦是如此。如此一来政策制定就变得非常明确。国民经济只需要在通货膨胀和失业之间做出选择,或者以某种方式在二者之间找到平衡。后来,这种联系被称作“菲利普斯曲线”,多年来为欧洲和美国的宏观经济政策决策提供帮助。
菲利普斯曲线
人类天生喜欢识别模式。我们在大学上花费大量学费,是因为教育水平与毕业后的收入相关。我们被新鲜出炉的饼干所散发出的扑鼻香气所吸引,是因为香气的浓度与饼干的新鲜程度有关。我们早睡,是因为一夜好眠能带来第二天神清气爽。我们避免睡前吃奶酪,是因为奶酪消费量与床单绞杀事故有关。
等等,奶酪那条是什么鬼?
模式很明显:全国(美国)奶酪消费量的增长与被床单绞杀窒息而死的人数增长之间存在统计相关性。有下图为证:
数据源: Centers for Disease Control & Prevention
可能是融化的奶酪堵塞了呼吸道,也可能是奶酪会导致睡梦惊厥。或者可能这种相关性根本就是虚假的,完全是个偶然。我们几乎可以肯定上面的相关性是虚假的。相关性是否意味着因果关系?上面的例子就很直观 -- 相关并不总是蕴含因果,很多相关性是虚假的。
相关性作为一个概念,意味着两个事物一起变化。炎热的天气与冰淇淋的销量相关。阴霾的天空与下雨有关。但还有这个:尼古拉斯·凯奇每年出演的电影数量与掉落泳池淹死的人数相关。
数据源: Centers for Disease Control & Prevention 和 Internet Movie Database
相关性并不总是有意义的
还记得出生率与鹳之间的相关性吗?这也是巧合。对这种现象的现代研究是为了证明统计数据使用不当可以轻而易举地产生错误结论。事实证明,威廉·菲利普斯(William Phillips)的经济学理论也站不住脚。通货膨胀与就业的联系是普遍存在的,但它过于简单化。多年后,新的研究表明,菲利普斯的模式与长期数据不符。尽管二者有关联,但并不直接控制彼此。
只要有足够多的数据,就有可能找到相关的事物,即便他们之间毫无联系。这种方法通常被称为“数据疏浚”。数据疏浚是一个数据挖掘技术,它将一个变量与其他大量变量相比较,来寻找数据间可能的关系。一般科学家会首先假设两个变量之间存在某个关系,然后通过分析数据确认这种关系存在的显著程度,根据显著程度接受或拒绝最开始做出的假设。例如,通过将鹳与出生率相关联来测试鹳是否带来婴儿的理论。
计算机程序不是测试单个假设,而是可以通过简单地将每个数据集与其他数据集进行比较来进行数据疏浚。进入二十一世纪,技术进步和数据收集让这项工作变得更加容易。今天我不必租来尼古拉斯·凯奇的所有电影光盘逐个阅读发行日期,只需要在IMDb.com上动动手指,2分钟内就能找到尼古拉斯·凯奇参演的所有电影。我想了解特定疾病的死亡率,疾病控制中心会公布其所有数据;我想知道有多少全职爸爸,人口普查会或国家统计局会给我一个可靠的估计。这就是大数据和大相关性的时代。
接下来的内容中,你将看到完全没有因果关系的数据集之间产生的数十种相关性。每个相关性都是由计算机发现的。这些虚假的相关性也许会让你忍俊不禁,但本文更希望在你会心一笑之后能够严肃地思考相关性和因果之间的关系--图表也会说谎,并非所有的相关性都蕴含因果关系。相关性是科学分析的重要组成部分,但如果使用不当,会带来很多误导。更可怕的是还有人会对图表巧妙包装,将图表设计的更具欺骗性。
01
数据来源: Centers for Disease Control & Prevention
02
03
数据来源: National Spelling Bee 和 Centers for Disease Control & Prevention
04
数据源: National Science Foundation
05
数据源: Centers for Disease Control & Prevention
06
数据源: Centers for Disease Control & Prevention
07
08
数据源: Centers for Disease Control & Prevention
09
数据源: Centers for Disease Control & Prevention
10
数据源: National Science Foundation
11
数据源: National Science Foundation
12
数据源: National Science Foundation
13
数据源: Wikipedia 和 Centers for Disease Control & Prevention
14
数据源: Centers for Disease Control & Prevention
15
数据源: Centers for Disease Control & Prevention 和 Internet Movie Database