相关性表示两个指标存在同步变动趋势,因果性则代表一件事直接促成了另一件事。两者之间有着一道需要用严谨论证来填补的鸿沟。测算相关性毫无门槛但是证明因果关系却极度困难。
本文将介绍我们为何习惯性地无视这道鸿沟,拆解变量同步变动却不具备因果关系的三种核心机制,并审视这些误区在数据科学领域的具体表现。阅读后你能在轻信某个数据模式前学会提出几个关键问题。
相关性到底是什么
相关性仅仅是一个衡量两件事同步变动程度的数值指标。
如果每年 7 月冰淇淋销量和溺亡人数同步攀升,这两个指标呈正相关(Positively Correlated)且趋势一致。
Tyler Vigen 在《伪相关》(Spurious Correlations)中收集了数百个类似案例。密苏里州(Missouri)家具抛光工的数量与 Google 上搜索“巴洛克·奥巴马(Baroque Obama)”的频次高度重合。
数学层面使用皮尔逊 r 值(Pearson’s r)对相关性进行量化打分,区间跨度为 -1 到 +1:
- +1 代表完全正相关,一个指标上升另一指标绝对按同比例增长
- -1 代表完全负相关,两者走势始终相反
- 0 表示毫无关联
单纯从数学角度看,相关性只能确认某种现象存在,对背后的成因却只字不提。
两件事能一起变动的三个原因
当观察到 A 和 B 总是同时发生时,其实有三个原因
A 导致 B。这是直接的因果关系。吸烟引发肺癌,运动拉低静息心率。结论经过严谨实验论证而非单纯观察,作用方向明确单向。
B 导致 A。反向因果(Reverse Causation)具有极强的迷惑性。医院里聚集的病患密度远超其他场所。难道这就意味着医院让人致病吗?真相是生病的人才会去医院。所以相关关系确切存在的但是方向指反了。
一个更隐蔽的例子是关于抑郁症患者群体的追踪数据,他们通常较少运动。早年有媒体据此抛出锻炼能预防抑郁的论断。后续跟进研究揭示了更复杂的机制,抑郁症发作往往会拖垮患者行动力并迫使他们放弃运动。这两个变量互为因果,仅凭观察到的数据去臆断单向作用链条就会出错。
第三个因素同时导致了 A 和 B。这是现实世界最常碰到的陷阱,学名叫混杂变量(Confounding Variable)。A 和 B 之间完全没有直接联系,两者都是某个未被观测的隐藏因素的下游产物。
比如上面的冰淇淋销量与溺水人数同步飙升的例子。
高温天气既增加了游泳频次也拉动了冷饮消费。吃冰淇淋不会导致溺水,气温才是影响这两个变量(Variables)的幕后推手。
巧克力消费大国与诺贝尔奖得主大国高度重合的现象同理。两者均是国家财富的外化指标。富裕国家能支撑资金充足的高等教育系统,国民也有消费高档巧克力的习惯。砸钱大概率能同时催生这两项成果,巧克力却产不出诺奖得主。
欧洲的鹳鸟和出生率也一样,更多鹳鸟在农村地区筑巢。基于独立的人口学特征,农村地区的生育率也处于高位。鹳鸟送子的童话只是数据巧合。
建立起对混杂变量的理解后你会发现它们无孔不入。数据科学实践中经常碰到在训练数据(Training Data)上指标完美的模型(Model)一放到线上环境就毫无效果。
第三事物测试(The Third-Thing Test)
遇到可疑的相关性结论时先追问一句,有没有第三个因素同时在拨动这两个指标?
- 每天吃早餐的学生在校表现更好。背后的第三个因素可能是家庭收入。经济宽裕的家庭能保证规律饮食,也愿意倾注更多教育资源。
- 随身揣着打火机的人确诊肺癌概率更高。第三个因素是吸烟。烟民有携带打火机的习惯,打火机本身不是致癌物。
- 现场停放的消防车越多,火灾造成的破坏往往越惨重。第三个因素是火势规模。大火必然要求增派救援车辆并伴随严重破坏,消防员并没有烧毁建筑。
统计学将这类操作称为控制变量(Controlling for Variables)。锁定并剔除第三个因素的干扰——比如把样本限定在同等收入的家庭或同等规模的火情中——最初的相关性是否站得住脚立马见分晓,它可能是实打实的因果,也可能只是共用了一个底层驱动力。
排查第三事物依赖逻辑推演而非死算指标。拉出潜在候选因素清单,把能量化的指标放进模型测试,观察原有的相关系数是否缩水。数值掉下来了,说明混杂因素在暗中发力。
这套操作有个硬伤就是你只能控制那些想起来去测量的变量。观测边界之外的混杂因素依然处于隐身状态,这就解释了为什么观察性研究(Observational Studies)永远挂着免责声明,实验则不必。
为什么每次都会弄错
千万年进化将人类大脑打磨成了一台因果推演机器。
远古时期吃下某颗红浆果后肠胃剧痛,大脑会立马建立“红浆果等于毒药”的等式。它绝不会等什么同行评审(Peer-reviewed)结果出来再做决定。因为漏判真实的因果信号可能直接丢命,这逼着我们在任何场景甚至纯粹的巧合中强行提取因果关联。
这种避险本能对付毒浆果绰绰有余,但是面对现代数据仪表盘就不行了。看到图表上两条曲线亦步亦趋,大脑会不受控地去拼凑解释。面对未知的“为什么”会让人本能地焦虑,于是我们顺手抓起最显而易见的因果逻辑去填补空白,即便此时最理智的回答是“暂无定论”。纳西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)将其概括为叙述谬误(Narrative Fallacy):人们总有强行把随机事件套入因果故事的冲动。
该现象的底层心理学成因是空想性错觉(Apophenia),即在散乱无序的数据里强行看出意义。捕捉模式的直觉冲在前头,编排故事的本能紧随其后。
民间偏方大多是这种思维方式的产物。喝冰水碰巧嗓子疼。头发没吹干出门刚好感染风寒。因果联系压根不存在,等后人想起来去验证真伪时,荒诞的叙事已经流传了好几代。
而且现在数据团队每天都在犯完全相同的错误。
在数据科学中我们在哪里看到这种情况
业务场景中这类问题就与很多
算法模型将频繁联系客服的群体打上高流失(Churn)风险标签,业务端直接切断了这部分用户的客服入口。结果流失率加速飙升。对产品不满既引发了客诉也导致了最终退订,电话求助是危机暴露的信号而不是源头。产品线发现使用深色模式(Dark Mode)的用户留存率(Retention)偏高,果断上线强插屏引导新注册用户开启该功能。大盘留存数据毫无起色,因为高留存源于那批人本身就是重度活跃用户,他们才有动力去翻找并开启深色模式。
营销团队对比数据后得出结论,接收高频推销邮件的客户生命周期价值(Lifetime Value)更高。强行拉高发信频率后退订量暴涨。原来那批高价值客户本身就对品牌极具粘性,粗暴增加邮件量只会触怒边缘群体。
三次决策失误遵循着同一套陷阱轨迹:观察到 A 与 B 相关,武断认定 A 是 B 的成因,盲目干预 A 试图扭转 B,最终没有任何改善。
客观条件不允许跑实验时,可以借助工具变量(Instrumental Variables)、双重差分法(Difference-in-differences)或断点回归(Regression Discontinuity)这类近似手段。它们的核心诉求都是在无法硬控变量的局限下尽可能模拟真实实验的推演逻辑。
绝大多数时候用不着这么复杂的工具,只要问清几个问题就就可以。
三个问题
盯着一组相关性数据并隐约觉得有规律可循时,可以先拿下面三个问题盘一盘。
方向能反过来吗?下定论 A 导致 B 前看看 B 是不是 A 的原因。生病的人去医院,而不是医院让人致病。抑郁症患者往往会停止锻炼,意味着抑郁症才是驱使行为改变的源头,不能反推。高活跃度用户会点开收件箱里的每一封推送,自身粘性造就了点击模式而非发信频率起了作用。
存在第三件事吗?排查是否有某个尚未被测量的因素在同时牵动 A 和 B。收入水平、季节更替、地域差异和历史行为数据都是常见元凶,混杂因素往往藏在早期没人想到去埋点收集的字段里。揪出同时支配两端的第三个变量后,你手里的结论就退回成了一个待验证的假设,算不上因果关联。
这符合物理常理吗?抛开那些听着顺耳的故事,深究 A 诱发 B 的真实世界传导机制,判断是否存在一条能步步追溯的事件链条。巧克力不会在大脑中激活诺贝尔奖的通路。尼古拉斯·凯奇(Nicolas Cage)的电影不会导致泳池溺水。一种解释需要盲目信仰才能被接受时,因果关系多半根本不存在。
围绕任何数据模式做决策前,这三个问题必须拿到明确答案。但凡有一丝站不住脚的地方,立刻打回去重做审查。
总结
混淆相关性与因果性是数据科学、医疗诊断及日常推理中最常见且代价高昂的认知偏差。
可以试试一下的原则:
- 相关性只负责标定指标间的同步变动紧密程度。它告诉你某事正在发生,不管背后的原因。
- 两件事挂上钩的内部逻辑只有三条:A 促成 B,B 促成 A,或是不可见的 C 操盘了这一切。
- 混杂因素驱动(即第三条)是野生数据中最泛滥也最隐蔽的陷阱。
- 遇到让人起疑的相关性,追问:方向能反转吗?有暗藏的第三件事吗?传导链路符合常理吗?
- 你只能控制那些已经想到去测量的混杂因素。错过的因素永远处于隐身状态。
- 确立因果关系的唯一铁证是跑实验。随机化操作能抹平那些你甚至不知道该去寻找的干扰项。
- 找相关性毫无门槛。证明因果关系需要下苦工。
- 大脑的天性就是自动填补因果故事。先看到模式,解释紧随其后。
看懂数据模式底下的真实逻辑才是我们要做的核心工作。
https://avoid.overfit.cn/post/3018a10cbd634a2099b3b7eb24fbb2bb
作者:Kalle Georgiev