带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(2) https://developer.aliyun.com/article/1243259?groupCode=taobaotech
倾向得分预测
预测用户被干预的概率,其实就是一个常见的二分类问题,常见的机器学习模型都可以在这里使用。
特征选择
需要注意的是在特征选择上,具体需要哪些特征呢?有两个基本的原则是需要遵守的:
1. 同时影响干预分配和结果的变量应该被包括(使CIA成立);
2. 被干预项影响的变量应该排除(变量需要在干预项前计算)。
而至于特征的量级,不同的文献中有不同的说法:
1. 不应使用过多的参数,因为会导致如下两个问题:
恶化support问题,导致存在某些图片使得
不会增加bias但会增加variance,因为匹配困难一些treatment样本会被丢弃、或control样本被重复使用
2. 尽可能使用更多的参数以满足CIA假设,除非有明确的共识特征与干预无关。
为方便起见,通常在实际应用中我们会选取尽量多的特征,同时也会用到一些机器学习中常规的特征筛选方法。
重要特征
当我们已知一些特征十分重要(对干预、结果)时,我们可能通过一些方式加强这些特征对匹配的影响:
1. 在匹配时在该特征上两组一致,如男性只跟男性匹配
2. 在子人群中做匹配(男性、女性分别做匹配)
换句话说:就是在重要特征上做完全匹配,再辅助倾向分匹配(当预期在不同分组上会有不同的ATT时尤其推荐这么做)。
匹配算法
当不使用propensityscore时,可以直接基于协变量进行匹配,直接计算两个样本协变量之间的(马氏距离(Mahalanobis Distance) - 知乎 (zhihu.com)),这种方式通常称为CVM(Coviate Matching)。
完成倾向分模型及预测后,每个样本会得到一个propensity score,此时便可以进行匹配步骤了:为每个被干预的样本匹配一个(或多个)虚拟的对照样本。
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(4) https://developer.aliyun.com/article/1243257?groupCode=taobaotech