作者:亦歌、行週
出品:大淘宝技术
观察性因果推断方法有很多,文章主要介绍了PSM、贝叶斯概率图、DID这几种方法,可将文章分享的实践方法作为因果推断分析中的一种参考。
背景介绍
为什么需要因果推断
统计学有一些有趣的‘研究’:太阳黑子与男性自杀率间存在关系;而一个国家的人均巧克力消费量越高,出现诺贝尔奖获得者的比例越大;甚至还有这样的报导:
这些现象揭示了传统统计学的局限性:由于我们不可能对人群是否吃巧克力,属于哪个星座做随机化实验,因此我们得到的数据都是观察性数据,它只能告诉我们数据的相关性,而非因果性。我们观察到了巧克力消费和诺奖数量,星座和违章人数的线性关系,但它没有告诉我们的是,巧克力消费和诺奖数量背后的共同原因可能是经济发达程度;而违章率高的星座在当地人口占比最高。
从对社会和业务更有意义的角度来说,我们想知道的是 ‘怎么做才能提升诺奖的数量’ 或者‘用户点击某功能能否带来加购/留存的提升’,而这样的问题就需要我们探究现象背后的原因,以及量化原因对于结果造成的影响,因果推断应运而生。基于反事实的思想和拟合随机实验的一系列方法,我们能够控制混杂变量,从观察性的数据中得出因果性结论,从而论证业务价值,给出落地建议。
什么是因果推断
因果推断是一门探究事物之间因果关系的学科,学术界有两个主要框架:因果图模型和潜在结果(Potential Outcome, PO)模型。因果图模型是由Judea Pearl提出,着眼于因果关系的识别;而潜在结果模型是由统计学家 Donald Rubin 在上世纪七十年代所开创的因果推断框架,很多社会科学家常用的工具,比如倾向性得分匹配(Propensity Score Matching)模型和工具变量模型,都可以归类到潜在结果模型。
站在数据分析的角度,潜在结果模型更加通俗易懂。我们使用潜在结果模型来给出因果推断的严谨定义。
带你读《2022技术人的百宝黑皮书》——因果推断实战:淘宝3D化价值分析小结(2) https://developer.aliyun.com/article/1247947?groupCode=taobaotech