相关性与因果性:识别伪相关以提升模型在真实环境的可用性

简介: 本文剖析相关性与因果性的本质区别,揭示“同步变动≠因果关联”的认知陷阱;详解反向因果、混杂变量等三大误导机制,并提供“方向可逆吗?有第三因素吗?符合常理吗?”三问自查法,助你在数据决策中避开伪因果陷阱。

相关性表示两个指标存在同步变动趋势,因果性则代表一件事直接促成了另一件事。两者之间有着一道需要用严谨论证来填补的鸿沟。测算相关性毫无门槛但是证明因果关系却极度困难。

本文将介绍我们为何习惯性地无视这道鸿沟,拆解变量同步变动却不具备因果关系的三种核心机制,并审视这些误区在数据科学领域的具体表现。阅读后你能在轻信某个数据模式前学会提出几个关键问题。

相关性到底是什么

相关性仅仅是一个衡量两件事同步变动程度的数值指标。

如果每年 7 月冰淇淋销量和溺亡人数同步攀升,这两个指标呈正相关(Positively Correlated)且趋势一致。

Tyler Vigen 在《伪相关》(Spurious Correlations)中收集了数百个类似案例。密苏里州(Missouri)家具抛光工的数量与 Google 上搜索“巴洛克·奥巴马(Baroque Obama)”的频次高度重合。

数学层面使用皮尔逊 r 值(Pearson’s r)对相关性进行量化打分,区间跨度为 -1 到 +1:

  • +1 代表完全正相关,一个指标上升另一指标绝对按同比例增长
  • -1 代表完全负相关,两者走势始终相反
  • 0 表示毫无关联

单纯从数学角度看,相关性只能确认某种现象存在,对背后的成因却只字不提。

两件事能一起变动的三个原因

当观察到 A 和 B 总是同时发生时,其实有三个原因

A 导致 B。这是直接的因果关系。吸烟引发肺癌,运动拉低静息心率。结论经过严谨实验论证而非单纯观察,作用方向明确单向。

B 导致 A。反向因果(Reverse Causation)具有极强的迷惑性。医院里聚集的病患密度远超其他场所。难道这就意味着医院让人致病吗?真相是生病的人才会去医院。所以相关关系确切存在的但是方向指反了。

一个更隐蔽的例子是关于抑郁症患者群体的追踪数据,他们通常较少运动。早年有媒体据此抛出锻炼能预防抑郁的论断。后续跟进研究揭示了更复杂的机制,抑郁症发作往往会拖垮患者行动力并迫使他们放弃运动。这两个变量互为因果,仅凭观察到的数据去臆断单向作用链条就会出错。

第三个因素同时导致了 A 和 B。这是现实世界最常碰到的陷阱,学名叫混杂变量(Confounding Variable)。A 和 B 之间完全没有直接联系,两者都是某个未被观测的隐藏因素的下游产物。

比如上面的冰淇淋销量与溺水人数同步飙升的例子。

高温天气既增加了游泳频次也拉动了冷饮消费。吃冰淇淋不会导致溺水,气温才是影响这两个变量(Variables)的幕后推手。

巧克力消费大国与诺贝尔奖得主大国高度重合的现象同理。两者均是国家财富的外化指标。富裕国家能支撑资金充足的高等教育系统,国民也有消费高档巧克力的习惯。砸钱大概率能同时催生这两项成果,巧克力却产不出诺奖得主。

欧洲的鹳鸟和出生率也一样,更多鹳鸟在农村地区筑巢。基于独立的人口学特征,农村地区的生育率也处于高位。鹳鸟送子的童话只是数据巧合。

建立起对混杂变量的理解后你会发现它们无孔不入。数据科学实践中经常碰到在训练数据(Training Data)上指标完美的模型(Model)一放到线上环境就毫无效果。

第三事物测试(The Third-Thing Test)

遇到可疑的相关性结论时先追问一句,有没有第三个因素同时在拨动这两个指标?

  • 每天吃早餐的学生在校表现更好。背后的第三个因素可能是家庭收入。经济宽裕的家庭能保证规律饮食,也愿意倾注更多教育资源。
  • 随身揣着打火机的人确诊肺癌概率更高。第三个因素是吸烟。烟民有携带打火机的习惯,打火机本身不是致癌物。
  • 现场停放的消防车越多,火灾造成的破坏往往越惨重。第三个因素是火势规模。大火必然要求增派救援车辆并伴随严重破坏,消防员并没有烧毁建筑。

统计学将这类操作称为控制变量(Controlling for Variables)。锁定并剔除第三个因素的干扰——比如把样本限定在同等收入的家庭或同等规模的火情中——最初的相关性是否站得住脚立马见分晓,它可能是实打实的因果,也可能只是共用了一个底层驱动力。

排查第三事物依赖逻辑推演而非死算指标。拉出潜在候选因素清单,把能量化的指标放进模型测试,观察原有的相关系数是否缩水。数值掉下来了,说明混杂因素在暗中发力。

这套操作有个硬伤就是你只能控制那些想起来去测量的变量。观测边界之外的混杂因素依然处于隐身状态,这就解释了为什么观察性研究(Observational Studies)永远挂着免责声明,实验则不必。

为什么每次都会弄错

千万年进化将人类大脑打磨成了一台因果推演机器。

远古时期吃下某颗红浆果后肠胃剧痛,大脑会立马建立“红浆果等于毒药”的等式。它绝不会等什么同行评审(Peer-reviewed)结果出来再做决定。因为漏判真实的因果信号可能直接丢命,这逼着我们在任何场景甚至纯粹的巧合中强行提取因果关联。

这种避险本能对付毒浆果绰绰有余,但是面对现代数据仪表盘就不行了。看到图表上两条曲线亦步亦趋,大脑会不受控地去拼凑解释。面对未知的“为什么”会让人本能地焦虑,于是我们顺手抓起最显而易见的因果逻辑去填补空白,即便此时最理智的回答是“暂无定论”。纳西姆·尼古拉斯·塔勒布(Nassim Nicholas Taleb)将其概括为叙述谬误(Narrative Fallacy):人们总有强行把随机事件套入因果故事的冲动。

该现象的底层心理学成因是空想性错觉(Apophenia),即在散乱无序的数据里强行看出意义。捕捉模式的直觉冲在前头,编排故事的本能紧随其后。

民间偏方大多是这种思维方式的产物。喝冰水碰巧嗓子疼。头发没吹干出门刚好感染风寒。因果联系压根不存在,等后人想起来去验证真伪时,荒诞的叙事已经流传了好几代。

而且现在数据团队每天都在犯完全相同的错误。

在数据科学中我们在哪里看到这种情况

业务场景中这类问题就与很多

算法模型将频繁联系客服的群体打上高流失(Churn)风险标签,业务端直接切断了这部分用户的客服入口。结果流失率加速飙升。对产品不满既引发了客诉也导致了最终退订,电话求助是危机暴露的信号而不是源头。产品线发现使用深色模式(Dark Mode)的用户留存率(Retention)偏高,果断上线强插屏引导新注册用户开启该功能。大盘留存数据毫无起色,因为高留存源于那批人本身就是重度活跃用户,他们才有动力去翻找并开启深色模式。

营销团队对比数据后得出结论,接收高频推销邮件的客户生命周期价值(Lifetime Value)更高。强行拉高发信频率后退订量暴涨。原来那批高价值客户本身就对品牌极具粘性,粗暴增加邮件量只会触怒边缘群体。

三次决策失误遵循着同一套陷阱轨迹:观察到 A 与 B 相关,武断认定 A 是 B 的成因,盲目干预 A 试图扭转 B,最终没有任何改善。

客观条件不允许跑实验时,可以借助工具变量(Instrumental Variables)、双重差分法(Difference-in-differences)或断点回归(Regression Discontinuity)这类近似手段。它们的核心诉求都是在无法硬控变量的局限下尽可能模拟真实实验的推演逻辑。

绝大多数时候用不着这么复杂的工具,只要问清几个问题就就可以。

三个问题

盯着一组相关性数据并隐约觉得有规律可循时,可以先拿下面三个问题盘一盘。

方向能反过来吗?下定论 A 导致 B 前看看 B 是不是 A 的原因。生病的人去医院,而不是医院让人致病。抑郁症患者往往会停止锻炼,意味着抑郁症才是驱使行为改变的源头,不能反推。高活跃度用户会点开收件箱里的每一封推送,自身粘性造就了点击模式而非发信频率起了作用。

存在第三件事吗?排查是否有某个尚未被测量的因素在同时牵动 A 和 B。收入水平、季节更替、地域差异和历史行为数据都是常见元凶,混杂因素往往藏在早期没人想到去埋点收集的字段里。揪出同时支配两端的第三个变量后,你手里的结论就退回成了一个待验证的假设,算不上因果关联。

这符合物理常理吗?抛开那些听着顺耳的故事,深究 A 诱发 B 的真实世界传导机制,判断是否存在一条能步步追溯的事件链条。巧克力不会在大脑中激活诺贝尔奖的通路。尼古拉斯·凯奇(Nicolas Cage)的电影不会导致泳池溺水。一种解释需要盲目信仰才能被接受时,因果关系多半根本不存在。

围绕任何数据模式做决策前,这三个问题必须拿到明确答案。但凡有一丝站不住脚的地方,立刻打回去重做审查。

总结

混淆相关性与因果性是数据科学、医疗诊断及日常推理中最常见且代价高昂的认知偏差。

可以试试一下的原则:

  • 相关性只负责标定指标间的同步变动紧密程度。它告诉你某事正在发生,不管背后的原因。
  • 两件事挂上钩的内部逻辑只有三条:A 促成 B,B 促成 A,或是不可见的 C 操盘了这一切。
  • 混杂因素驱动(即第三条)是野生数据中最泛滥也最隐蔽的陷阱。
  • 遇到让人起疑的相关性,追问:方向能反转吗?有暗藏的第三件事吗?传导链路符合常理吗?
  • 你只能控制那些已经想到去测量的混杂因素。错过的因素永远处于隐身状态。
  • 确立因果关系的唯一铁证是跑实验。随机化操作能抹平那些你甚至不知道该去寻找的干扰项。
  • 找相关性毫无门槛。证明因果关系需要下苦工。
  • 大脑的天性就是自动填补因果故事。先看到模式,解释紧随其后。

看懂数据模式底下的真实逻辑才是我们要做的核心工作。

https://avoid.overfit.cn/post/3018a10cbd634a2099b3b7eb24fbb2bb

作者:Kalle Georgiev

目录
相关文章
|
2天前
|
人工智能 自然语言处理 文字识别
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
Qwen3.7-Max是阿里云百炼面向智能体时代推出的新一代旗舰模型,对标GPT-5.5、Claude Opus 4.7等闭源旗舰。该模型支持百万级token上下文窗口,具备顶级推理能力、多模态搜索与视觉理解增强、流式输出低延迟响应等核心优势,覆盖编程、办公、长周期自主执行等复杂场景。同时支持OpenAI接口兼容,便于系统快速迁移。用户可通过Token Plan团队或节省计划等订阅方式灵活调用,适合企业级高要求场景使用。
7905 34
阿里云百炼Qwen3.7-Max简介:能力、优势、支持订阅计划参考
|
2天前
|
数据采集 人工智能 前端开发
让 Coding Agent 从黑盒到透明:阿里云 Agent 观测审计数据采集实践
AI Agent 规模化落地带来执行黑盒、行为难追溯、成本难度量三大难题。阿里云基于 OTel 标准,面向 Coding Agent、个人通用助理和框架型 Agent,推出 LoongSuite Pilot、插件及探针等无侵入采集方案,让 Agent 实现可看见、可分析、可审计、可治理。
680 145
|
2天前
|
人工智能 缓存 自然语言处理
阿里Qwen3.7-Max评测:Agent能力显著提升,耗时与调用成本大幅下降
阿里云百炼推出面向智能体的旗舰大模型Qwen3.7-Max,具备长周期自主执行能力,显著提升编程、办公自动化等复杂任务处理水平;支持MCP集成与多框架兼容,并以限时5折+100万Tokens免费试用大幅降低使用门槛,助力企业高效落地AI应用。在阿里云百炼平台快速体验:https://t.aliyun.com/U/fPVHqY
1899 10
|
2天前
|
人工智能 运维 JavaScript
阿里云Qoder CN(原通义灵码)全解析 产品形态、版本划分与技术适配说明
在AI辅助开发与智能办公工具持续普及的当下,阿里云旗下原通义灵码正式更名为Qoder CN,同时延伸出QoderWork CN、Qoder CN CLI、Qoder CN Mobile等多款配套产品,形成覆盖代码开发、日常办公、终端交互、移动端使用的完整工具矩阵。Qoder CN核心定位为AI智能编码助手,深度适配主流代码编辑器、集成开发环境以及终端场景;QoderWork CN则偏向桌面端综合办公辅助,二者面向不同使用场景,划分了多个版本档位,搭配差异化资源配额、功能权限与计费规则,同时兼容多款主流大模型。
478 4
|
2天前
|
人工智能 安全 定位技术
CodeGraph深度解析 让Claude Code工具调用直降七成的核心原理与实操教程
如今以Claude Code为代表的AI编程智能体已经成为开发者日常编码、项目重构、漏洞修复的必备工具。但在长期使用过程中,几乎所有开发者都会遇到同一个明显痛点:AI虽然具备强大的代码生成与分析能力,却常常陷入盲目探索的循环中。
1295 2
|
2天前
|
JavaScript 定位技术 API
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
CodeGraph 是一款爆火的本地代码智能工具,通过 tree-sitter 解析 AST 构建结构化知识图谱(存于 SQLite),为编程 Agent 提前生成“代码地图”。它显著降低 Agent 在中大型项目中的探索成本——实测工具调用减少71%、Token 降57%、速度提升46%,支持19+语言及主流框架路由识别,完全离线、无需 API Key。
424 1
CodeGraph 爆火:编程 Agent 需要的不是更多上下文,而是一张提前画好的代码地图
|
2天前
|
人工智能 弹性计算 运维
阿里云发布堡垒机智能运维Agent,运维交互进入自然语言新时代
支持自然语言运维,提升效率与安全双保障。
1178 1
|
2天前
|
存储 安全 Java
AgentScope Java 2.0:打造分布式、企业级智能体底座
AgentScope 2.0 面向分布式部署、稳定运行、权限安全等企业级需求全面升级,打造支持多租户隔离与长期稳定运行的企业级智能体底座。
|
2天前
|
存储 定位技术 数据库
CodeGraph 如何让 Claude Code减少 7 成工具调用?
CodeGraph 为 Coding Agent 提供本地代码知识图谱,把函数、类、调用链和框架路由提前整理成“项目地图”,减少盲目搜索和文件读取。它不是新 Agent,而是上下文基础设施,让 Agent 更快找到正确代码路径,平均减少 7 成工具调用。
1335 4
|
2天前
|
人工智能 运维 API
2026年阿里云百炼通义千问Qwen3.7-plus深度介绍 功能特性、使用优势及618大促订阅方案指南
大模型技术的普及,让AI能力逐步融入个人办公、内容创作、代码编写、企业运营、教育培训等各类场景。不同定位的模型对应不同使用需求,旗舰级模型性能强劲但使用成本偏高,轻量化模型价格低廉却难以胜任复杂任务,而介于两者之间的中端主力模型,凭借均衡的能力、亲民的定价、广泛的场景适配性,成为绝大多数个人用户、小型团队、中小企业的首选。
583 1