带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(2)

简介: 带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(2)

带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(1) https://developer.aliyun.com/article/1247868?groupCode=taobaotech



估算ATT


在满足CIA和common support的情况下,我们能够对ATT进行估算:


image.png


即:在common support 上,以倾向分为权重、对实验组与对照组平均值的差值进行求和。


PSM实现


倾向得分匹配的实现步骤其实就如其名称中提到的,主要有两步:倾向得分的计算,以及基于倾向得分的匹配。


倾向得分预测


预测用户被干预的概率,其实就是一个常见的二分类问题,常见的机器学习模型都可以在这里使用。


特征选择


需要注意的是在特征选择上,具体需要哪些特征呢?有两个基本的原则是需要遵守的:


1. 同时影响干预分配和结果的变量应该被包括(使CIA成立);

2. 被干预项影响的变量应该排除(变量需要在干预项前计算)。


而至于特征的量级,不同的文献中有不同的说法:


1. 不应使用过多的参数,因为会导致如下两个问题:

恶化support问题,导致存在某些图片使得

不会增加bias但会增加variance,因为匹配困难一些treatment样本会被丢弃、或control样本被重复使用


2. 尽可能使用更多的参数以满足CIA假设,除非有明确的共识特征与干预无关。


为方便起见,通常在实际应用中我们会选取尽量多的特征,同时也会用到一些机器学习中常规的特征筛选方法。


重要特征


当我们已知一些特征十分重要(对干预、结果)时,我们可能通过一些方式加强这些特征对匹配的影响:


1. 在匹配时在该特征上两组一致,如男性只跟男性匹配

2. 在子人群中做匹配(男性、女性分别做匹配)


换句话说:就是在重要特征上做完全匹配,再辅助倾向分匹配(当预期在不同分组上会有不同的ATT时尤其推荐这么做)。




带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3) https://developer.aliyun.com/article/1247864?groupCode=taobaotech

相关文章
|
SQL 算法 搜索推荐
带你读《2022技术人的百宝黑皮书》——因果推断:效应估计的常用方法及工具变量讨论(1)
带你读《2022技术人的百宝黑皮书》——因果推断:效应估计的常用方法及工具变量讨论(1)
113 1
|
算法
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(1)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(1)
174 0
|
算法 数据可视化
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(5)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(5)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(6)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(6)
|
SQL 算法
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(4)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(4)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(8)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(8)
124 0
|
算法
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(7)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(7)
164 0
|
机器学习/深度学习 算法
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3)
171 0
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(2)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(2)
119 0
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(3)
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(3)