带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(7) https://developer.aliyun.com/article/1243252?groupCode=taobaotech
总结
在文章的最后,我们对PSM的整体流程进行一个梳理(可以看到真的不复杂),同时对PSM的优点与缺点进行简单的介绍。
完整流程
1. 选择同时影响treatment与outcome的特征,基于特征对treatment进行二分类建模,得到倾向分;
2. 在支撑集上,基于重要特征与倾向分进行匹配,为被干预用户找到匹配的样本;
3. 对匹配结果的质量进行检验,检验通过的话进入下一步,否则返回第二步进行匹配的优化;
4. 基于匹配的结果进行平行趋势验证,验证通过后通过双重差分法进行增量计算。
PSM的优缺点
优点
a.在无法进行随机试验的情况下,可构建虚拟的对照组并对增量进行可信的估算;
b.实现较为容易,实验组的样本能够充分的利用。
缺点
a.PSM最主要的一个缺点是——使用者永远无法保证所有的混淆变量都被包含在建模用的特征当中;
但可通过敏感性分析校验:如增减混淆变量后重复完成计算步骤观测结果是否一致,或通过纳入不确定性对估算增量的区间值
b.当支撑集(实验、对照组的倾向分交集)较小时,PSM+DID估计的局部样本的增量,可能无法代表整体。
整体来说,若不过分追求准确性,PSM+DID是一个对因果增量预估的较为靠谱的方式。当实现过程中存在卡点或假设无法满足时,除了优化模型还可以尝试看看逆概率加权和合成控制法等其他方法。
参考文献
1. Evaluating the performance of propensity score matching methods
2. Some Practical Guidance for the Implementation of Propensity Score Matching
团队介绍
大淘宝技术用户平台数据洞察团队,利用数据科学能力助力淘宝用户增长、提升用户价值,从用户视角洞察用户需求,实现用户与平台的双赢。