作者:八卜
出品:大淘宝技术
该文章主要介绍倾向得分匹配(PSM, Propensity Score Matching)方法的原理以及实现。这是一种理论稍微复杂、但实现较为容易的分析方法,适合非算法同学的使用。可用于(基于观察数据的)AB实验、增量模型搭建等领域。
文章主要分为四部分:前置知识(因果推断)介绍、倾向得分计算与匹配与匹配质量检验、匹配示例与增量计算还有一些补充的小知识点。对因果推断有简单了解的同学可以跳过第一部分,直接从第二节开始阅读。
前置知识介绍
对因果推断概念有所了解或想直接学习PSM的同学可跳过这一节。
概念一:干预效果 Treatment Effect
干预效果(Treatment Effect):干预下的潜在结果减去未干预时的潜在结果(Rubin框架),即:
其中 表示潜在结果,1和0代表是否受到干预。
举个例子:我们想知道我养狗给我提升了多少幸福度,理想情况下就是用我养狗时的幸福度减去我不养狗时的幸福度。
概念二:ATT Average Treatment Effect on the Treated
相较于个人的干预效果,我们更希望了解人群整体的干预效果,毕竟我们通常用策略干预的是一个人群。
应用PSM,我们通常希望计算得到被干预的用户的平均干预效果,即ATT(average treatment effect on the treated),即
其中变量 代表是否收到干预。
可以看到 代表被干预的用户假如不被干预的情况下的潜在结果,是一个无法观测的数值。倘若可以建立AB测试,我们可以利用对照组得到该结果,在无法进行AB测试的情况(例如 是一个主动的行为)我们可以
通过PSM拟合一个虚拟的对照组进行计算。
计算ATT所需满足的假设
这里引入一个新的概念,倾向性得分(Propensity Score),即用户受到(参与)干预的概率
1. 条件独立假设 CIA (Conditonal Independence Assumption)
给定一系列可观测的协变量图片,潜在结果和干预分配相互独立。
可认为所有影响到干预分配与潜在结果的变量都同时被观测到。此时图片可能是高维度的。
若上式成立,则干预分配与潜在结果基于图片同样条件独立[可证明],即:
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(2) https://developer.aliyun.com/article/1247867?groupCode=taobaotech