【因果推断】Day01- 实用计量方法图解与概述

简介: 【因果推断】Day01- 实用计量方法图解与概述

1-相关性和因果性

因果关系的核心:X会影响Y吗?X是如何影响Y的?

相关性:存在相关性关系,两者并不独立。

相关性和因果性的区别:相关不一定存在因果关系,比如身高和体重存在相关关系,但不是因果关系;而因果关系一定存在相关性。

2-辛普森悖论

辛普森悖论(Simpson's Paradox)是探究相关性和因果性的一个典型实例,是一种统计学中的悖论,描述了在整体数据和细分数据之间出现的矛盾情况。具体来说,当我们将数据分成几个子组或细分数据时,一个趋势或关系可能在每个子组中都呈现,但当我们将这些子组合并为一个整体时,这个趋势或关系却发生了反转。

这个悖论最早由英国统计学家Edward H. Simpson于1951年提出,因此得名为辛普森悖论。辛普森悖论的出现通常与混淆变量(confounding variable)或未考虑的因素有关。这意味着在细分数据中,存在某些影响结果的变量,但当我们将这些子组合并为一个整体时,这些变量的影响可能被掩盖或反转。

一个经典的例子是关于医疗治疗效果的案例。假设有一个药物被测试在两个不同的疾病患者群体上,结果显示每个疾病群体内的治疗组比对照组都表现更好。然而,当将这两个群体合并并考虑总体效果时,治疗组的效果可能变差。这种情况可能是因为在两个疾病群体中存在不同的基线风险或其他相关因素,这些因素在细分数据中的影响与整体数据中的影响相互抵消。

辛普森悖论的出现提醒我们在数据分析和解释时要谨慎。仅仅依赖整体数据可能掩盖了细分数据中的重要趋势或关系。了解和控制潜在的混淆变量是避免辛普森悖论的关键,以确保我们对数据的解读和决策是准确和可靠的。

3- 变量关键路径图

可以使用一种称为"变量关系图"或"变量关系路径图"的可视化工具来表示不同变量之间的关系。

变量关系路径图是一种图形化表示,用于显示变量之间的相互作用和依赖关系。它通常使用节点和连接线的方式来表示变量和它们之间的关系。每个节点代表一个变量,而连接线表示变量之间的关系。在变量关系路径图中,节点上通常标注着变量的名称或标识符。连接线可以具有不同的属性或标签,以表示变量之间的不同关系,例如因果关系、相关性、依赖性等。这样的图可以帮助我们理解和分析变量之间的复杂关系,发现变量之间的模式和趋势,以及预测一个变量如何受其他变量的影响。

变量关系路径图可以应用于多个领域,包括数据分析、系统分析、社会网络分析等。它们可以帮助我们识别关键变量、发现潜在的影响因素、优化系统设计,并支持决策制定过程。

需要注意的是,变量关系路径图是根据特定领域或问题的需求而创建的,因此在绘制变量关系路径图之前,需要明确定义变量、确定它们之间的关系和目标。这样的图可以是简单的二维图形,也可以是复杂的网络图或拓扑图,取决于问题的复杂性和需求的深度。

}C56(I]7UUI$}AS$GSU4{Q1.png

image.png

33`3A4ZHX$R335$}11U]P{Q.png

image.png

二、路径分类

路径可分为三类:

  • 因果路径(链状路径)

    `$Z1C~YBB1X~U`16FA%$P$B.png
    因果关系路径例子.png
  • 交叉路径(混淆路径)

    (K${XVW]CN9O%QXH1QWE7%O.png
    混淆路径例子.png
  • 对撞路径(反交叉路径)

    TTX09I(4K]KRCKFOCXOAG~M.png
    对撞路径例子.png

4-因果关系估计偏差来源

4-1 混淆偏差

混淆偏差是指解释变量和被解释变量之间存在未截断的混淆路径造成解释变量和被解释变量之间的相关性不仅包含因果,还包含非因果关系。


`AS25@Y$VH@M64I8@(@X`JA.png

混淆偏差.png


QU41U~0Y[X7R5SZS05[Z`NY.png

image.png


但是值得注意的是,如果混淆边浪我们观测不到,那就没有办法截断,比如说“竞争意识”这组概念就是观测不到,但是它可以影响教育和收入


P@EEUK{0N3Y6MGEVO4%TIMK.png

image.png

4-2 过度控制偏差

过度控制偏差是指控制了因果路径上的变量造成的偏差,导致部分间接因果关系没有被解释,而只揭示了直接因果路径。


}4MOL1F1NS2C01}3`EPS4B3.png

image.png

4-3 内生选择偏差

内生选择偏差是指两个本不相关的变量之间在控制被解释变量的结果时产生了相关关系。


BZIEG~VUPV~1BO@%TIKW`9J.png

内生选择偏差.png


@8H9V4I0_`LNCOR7FA~5DUO.png

example.png

4-4 Summary

@14BWNSOQLZDZLYC1IS%)4R.png

总结.png

5- 其他

  • 因果关系可以直接定义为解释变量X导致被解释变量Y的变化,也可以通过潜在结果模型定义为处置效应
  • 在理想状态下,如果关注的某个解释变量是通过随机分配给不同个体的,我们可以认为这个解释变量就与任何其他可能的混淆变量都不相关。这种情况下,解释变量与被解释变量直接就不会存在混淆路径,二者的相关性能够直接反映因果关系。
  • 但是通过“控制实验”达到随机分配的效果可能存在伦理问题,并且操作成本和难度较高,因此通过控制实验的方法来研究因果关系比较少见。然而在一些特殊情况下,即使没有控制实验,数据也达到了随机分配的效果。例如高考分数线是60,大于等于60和刚好低于60具有局部随机性,通过比较高考得分在60分左右比较收入差异估计大学教育对于这部分人收入的英国影响,断点回归方法就是使用局部随机分配特点的数据达到估计因果关系的。
  • 实际研究中,通常面对的是观测数据,数据产生不具备随机安排并且是隔日自行选择产生,如服药与身体健康数据包含了个人根据自身情况选择服药与否的因素。

image.png
内生选择偏差一般是由于样本不是从总体中挑选出来才产生的偏差S84GDDG](C95DSVCE3%J(]0.png

目录
相关文章
|
设计模式 前端开发 数据可视化
【第4期】一文了解React UI 组件库
【第4期】一文了解React UI 组件库
678 0
LaTeX中的多行数学公式
LaTeX中的多行数学公式
2924 0
LaTeX中的多行数学公式
|
3月前
|
缓存 人工智能 NoSQL
从缓存 CAS 看Kimi K2使用的MuonClip优化器
对每天和 Redis、Caffeine 打交道的 Java 工程师来说,MuonClip 的“qk-clip”机制听起来像玄学;但如果把它翻译成你熟悉的 分布式缓存并发写冲突,味道立刻对了。
194 0
|
12月前
|
数据处理 iOS开发 MacOS
Python 虚拟环境安装使用(Anaconda 实操完整版)
【10月更文挑战第4天】Anaconda 是一个开源的 Python 发行版,集成了常用科学计算与数据处理库,并提供了方便的包管理工具 `conda`。虚拟环境则允许在同一台机器上创建多个独立的 Python 运行环境,避免库版本冲突。通过下载 Anaconda、创建与激活虚拟环境、安装软件包及管理环境,可有效支持 Python 项目开发。
1900 8
|
12月前
|
监控 JavaScript 前端开发
前端的混合之路Meteor篇(六):发布订阅示例代码及如何将Meteor的响应数据映射到vue3的reactive系统
本文介绍了 Meteor 3.0 中的发布-订阅模型,详细讲解了如何在服务器端通过 `Meteor.publish` 发布数据,包括简单发布和自定义发布。客户端则通过 `Meteor.subscribe` 订阅数据,并使用 MiniMongo 实现实时数据同步。此外,还展示了如何在 Vue 3 中将 MiniMongo 的 `cursor` 转化为响应式数组,实现数据的自动更新。
165 2
|
分布式计算 大数据 Hadoop
大数据编程期末大作业2023
大数据编程期末大作业2023
491 1
|
搜索推荐 Java 自然语言处理
计算文本相似度的几种方法
计算文本相似度的几种方法
|
存储 Linux BI
Linux 三剑客 grep、sed、awk
Linux三剑客`grep`、`sed`和`awk`是强大的文本处理工具。`grep`用正则表达式搜索匹配行;`sed`是流式编辑器,处理文本流而不直接修改原文件;`awk`则用于灵活的文本分析和报告生成。例如,`grep`可查找匹配模式,`sed`可以删除文件内容,而`awk`能提取特定字段。通过组合使用,它们能高效解决复杂文本任务。
246 1
|
监控 Devops 测试技术
DevOps实践:持续集成与持续部署(CI/CD)在现代软件开发中的作用
【6月更文挑战第24天】本文深入探讨了持续集成(Continuous Integration,简称CI)和持续部署(Continuous Deployment,简称CD)在现代软件开发生命周期中的核心作用。通过阐述CI/CD的概念、优势以及实施策略,文章旨在为读者提供一套完整的理论框架和实践指南,以促进软件开发流程的高效性和产品质量的提升。
435 3
|
机器学习/深度学习 算法 搜索推荐
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
Python用机器学习算法进行因果推断与增量、增益模型Uplift Modeling智能营销模型
292 12