为什么相关不等于因果

简介: 相关不等于因果。图表也会说谎,并非所有的相关性都蕴含因果关系。相关性是科学分析的重要组成部分,但如果使用不当,会带来很多误导。更可怕的是还有人会对图表巧妙包装,将图表设计的更具欺骗性。此时我们需要拿出因果为武器,驱逐虚假关联。

十九世纪末,荷兰出现了一个奇怪的现象:人口出生率与当地白鹳的数量同步增长。鹳鸟送子的传说由此而来。虽然这个故事逐渐消失在民间传说中,但现实生活中类似的相关性无处不在。二十世纪和二十一世纪的新研究一再证实,在一些欧洲国家,鹳与人口出生率在统计学上确实存在显著关联。

34d91803edf940c995f5b9d6591cc5b9.png

《鹳鸟送子》明信片



1958年,伦敦政经学院教授威廉·菲利普斯(William Phillips)发表了一篇关于失业与通货膨胀之间联系的论文。人们从菲利普斯教授的数据中惊奇地发现:高通胀与低失业率有关,反之亦是如此。如此一来政策制定就变得非常明确。国民经济只需要在通货膨胀和失业之间做出选择,或者以某种方式在二者之间找到平衡。后来,这种联系被称作“菲利普斯曲线”,多年来为欧洲和美国的宏观经济政策决策提供帮助。

181235f9987e404dab50c6fb18625491.jpeg

菲利普斯曲线



人类天生喜欢识别模式。我们在大学上花费大量学费,是因为教育水平与毕业后的收入相关。我们被新鲜出炉的饼干所散发出的扑鼻香气所吸引,是因为香气的浓度与饼干的新鲜程度有关。我们早睡,是因为一夜好眠能带来第二天神清气爽。我们避免睡前吃奶酪,是因为奶酪消费量与床单绞杀事故有关。

等等,奶酪那条是什么鬼?

模式很明显:全国(美国)奶酪消费量的增长与被床单绞杀窒息而死的人数增长之间存在统计相关性。有下图为证:

chart3.svg

数据源: Centers for Disease Control & Prevention

可能是融化的奶酪堵塞了呼吸道,也可能是奶酪会导致睡梦惊厥。或者可能这种相关性根本就是虚假的,完全是个偶然。我们几乎可以肯定上面的相关性是虚假的。相关性是否意味着因果关系?上面的例子就很直观 -- 相关并不总是蕴含因果,很多相关性是虚假的

相关性作为一个概念,意味着两个事物一起变化。炎热的天气与冰淇淋的销量相关。阴霾的天空与下雨有关。但还有这个:尼古拉斯·凯奇每年出演的电影数量与掉落泳池淹死的人数相关。

chart2.svg

数据源: Centers for Disease Control & PreventionInternet Movie Database

相关性并不总是有意义的

还记得出生率与鹳之间的相关性吗?这也是巧合。对这种现象的现代研究是为了证明统计数据使用不当可以轻而易举地产生错误结论。事实证明,威廉·菲利普斯(William Phillips)的经济学理论也站不住脚。通货膨胀与就业的联系是普遍存在的,但它过于简单化。多年后,新的研究表明,菲利普斯的模式与长期数据不符。尽管二者有关联,但并不直接控制彼此。


只要有足够多的数据,就有可能找到相关的事物,即便他们之间毫无联系。这种方法通常被称为“数据疏浚”。数据疏浚是一个数据挖掘技术,它将一个变量与其他大量变量相比较,来寻找数据间可能的关系。一般科学家会首先假设两个变量之间存在某个关系,然后通过分析数据确认这种关系存在的显著程度,根据显著程度接受或拒绝最开始做出的假设。例如,通过将鹳与出生率相关联来测试鹳是否带来婴儿的理论。

计算机程序不是测试单个假设,而是可以通过简单地将每个数据集与其他数据集进行比较来进行数据疏浚。进入二十一世纪,技术进步和数据收集让这项工作变得更加容易。今天我不必租来尼古拉斯·凯奇的所有电影光盘逐个阅读发行日期,只需要在IMDb.com上动动手指,2分钟内就能找到尼古拉斯·凯奇参演的所有电影。我想了解特定疾病的死亡率,疾病控制中心会公布其所有数据;我想知道有多少全职爸爸,人口普查会或国家统计局会给我一个可靠的估计。这就是大数据和大相关性的时代。


接下来的内容中,你将看到完全没有因果关系的数据集之间产生的数十种相关性。每个相关性都是由计算机发现的。这些虚假的相关性也许会让你忍俊不禁,但本文更希望在你会心一笑之后能够严肃地思考相关性和因果之间的关系--图表也会说谎,并非所有的相关性都蕴含因果关系。相关性是科学分析的重要组成部分,但如果使用不当,会带来很多误导。更可怕的是还有人会对图表巧妙包装,将图表设计的更具欺骗性。


01

chart1.svg

数据来源: Centers for Disease Control & Prevention


02

chart6.svg


03

chart4.svg

数据来源: National Spelling BeeCenters for Disease Control & Prevention


04

chart5.svg

数据源: National Science Foundation


05

chart7.svg

数据源: Centers for Disease Control & Prevention


06

chart8.svg

数据源: Centers for Disease Control & Prevention


07

chart9.svg


08

chart10.svg

数据源: Centers for Disease Control & Prevention


09

chart11.svg

数据源: Centers for Disease Control & Prevention


10

chart12.svg

数据源: National Science Foundation


11

chart13.svg

数据源: National Science Foundation


12

chart14.svg

数据源: National Science Foundation


13

chart15.svg

数据源: WikipediaCenters for Disease Control & Prevention


14

chart3.svg

数据源: Centers for Disease Control & Prevention


15

chart2.svg

数据源: Centers for Disease Control & PreventionInternet Movie Database


目录
相关文章
|
C++ 索引 Python
Python 因果推断(上)
Python 因果推断(上)
236 0
|
5天前
|
云安全 人工智能 安全
AI被攻击怎么办?
阿里云提供 AI 全栈安全能力,其中对网络攻击的主动识别、智能阻断与快速响应构成其核心防线,依托原生安全防护为客户筑牢免疫屏障。
|
14天前
|
域名解析 人工智能
【实操攻略】手把手教学,免费领取.CN域名
即日起至2025年12月31日,购买万小智AI建站或云·企业官网,每单可免费领1个.CN域名首年!跟我了解领取攻略吧~
|
9天前
|
安全 Java Android开发
深度解析 Android 崩溃捕获原理及从崩溃到归因的闭环实践
崩溃堆栈全是 a.b.c?Native 错误查不到行号?本文详解 Android 崩溃采集全链路原理,教你如何把“天书”变“说明书”。RUM SDK 已支持一键接入。
586 212
|
4天前
|
编解码 Linux 数据安全/隐私保护
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
教程分享免费视频压缩软件,免费视频压缩,视频压缩免费,附压缩方法及学习教程
233 138
|
存储 人工智能 监控
从代码生成到自主决策:打造一个Coding驱动的“自我编程”Agent
本文介绍了一种基于LLM的“自我编程”Agent系统,通过代码驱动实现复杂逻辑。该Agent以Python为执行引擎,结合Py4j实现Java与Python交互,支持多工具调用、记忆分层与上下文工程,具备感知、认知、表达、自我评估等能力模块,目标是打造可进化的“1.5线”智能助手。
822 60
|
7天前
|
人工智能 移动开发 自然语言处理
2025最新HTML静态网页制作工具推荐:10款免费在线生成器小白也能5分钟上手
晓猛团队精选2025年10款真正免费、无需编程的在线HTML建站工具,涵盖AI生成、拖拽编辑、设计稿转代码等多种类型,均支持浏览器直接使用、快速出图与文件导出,特别适合零基础用户快速搭建个人网站、落地页或企业官网。
1164 157