带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(1) https://developer.aliyun.com/article/1247868?groupCode=taobaotech
估算ATT
在满足CIA和common support的情况下,我们能够对ATT进行估算:
即:在common support 上,以倾向分为权重、对实验组与对照组平均值的差值进行求和。
PSM实现
倾向得分匹配的实现步骤其实就如其名称中提到的,主要有两步:倾向得分的计算,以及基于倾向得分的匹配。
倾向得分预测
预测用户被干预的概率,其实就是一个常见的二分类问题,常见的机器学习模型都可以在这里使用。
特征选择
需要注意的是在特征选择上,具体需要哪些特征呢?有两个基本的原则是需要遵守的:
1. 同时影响干预分配和结果的变量应该被包括(使CIA成立);
2. 被干预项影响的变量应该排除(变量需要在干预项前计算)。
而至于特征的量级,不同的文献中有不同的说法:
1. 不应使用过多的参数,因为会导致如下两个问题:
恶化support问题,导致存在某些图片使得
不会增加bias但会增加variance,因为匹配困难一些treatment样本会被丢弃、或control样本被重复使用
2. 尽可能使用更多的参数以满足CIA假设,除非有明确的共识特征与干预无关。
为方便起见,通常在实际应用中我们会选取尽量多的特征,同时也会用到一些机器学习中常规的特征筛选方法。
重要特征
当我们已知一些特征十分重要(对干预、结果)时,我们可能通过一些方式加强这些特征对匹配的影响:
1. 在匹配时在该特征上两组一致,如男性只跟男性匹配
2. 在子人群中做匹配(男性、女性分别做匹配)
换句话说:就是在重要特征上做完全匹配,再辅助倾向分匹配(当预期在不同分组上会有不同的ATT时尤其推荐这么做)。
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3) https://developer.aliyun.com/article/1247864?groupCode=taobaotech