带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3)

简介: 带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3)

带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(2) https://developer.aliyun.com/article/1243259?groupCode=taobaotech




倾向得分预测


预测用户被干预的概率,其实就是一个常见的二分类问题,常见的机器学习模型都可以在这里使用。


特征选择


需要注意的是在特征选择上,具体需要哪些特征呢?有两个基本的原则是需要遵守的:

1. 同时影响干预分配和结果的变量应该被包括(使CIA成立);

2. 被干预项影响的变量应该排除(变量需要在干预项前计算)。


而至于特征的量级,不同的文献中有不同的说法:


1. 不应使用过多的参数,因为会导致如下两个问题:

恶化support问题,导致存在某些图片使得

不会增加bias但会增加variance,因为匹配困难一些treatment样本会被丢弃、或control样本被重复使用


2. 尽可能使用更多的参数以满足CIA假设,除非有明确的共识特征与干预无关。


为方便起见,通常在实际应用中我们会选取尽量多的特征,同时也会用到一些机器学习中常规的特征筛选方法。


重要特征


当我们已知一些特征十分重要(对干预、结果)时,我们可能通过一些方式加强这些特征对匹配的影响:


1. 在匹配时在该特征上两组一致,如男性只跟男性匹配

2. 在子人群中做匹配(男性、女性分别做匹配)


换句话说:就是在重要特征上做完全匹配,再辅助倾向分匹配(当预期在不同分组上会有不同的ATT时尤其推荐这么做)。


匹配算法


当不使用propensityscore时,可以直接基于协变量进行匹配,直接计算两个样本协变量之间的(马氏距离(Mahalanobis Distance) - 知乎 (zhihu.com)),这种方式通常称为CVM(Coviate Matching)。


完成倾向分模型及预测后,每个样本会得到一个propensity score,此时便可以进行匹配步骤了:为每个被干预的样本匹配一个(或多个)虚拟的对照样本。




带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(4) https://developer.aliyun.com/article/1243257?groupCode=taobaotech


相关文章
|
10月前
|
机器学习/深度学习
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(2)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(2)
132 0
|
10月前
|
算法
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(7)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(7)
128 0
|
10月前
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(6)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(6)
|
10月前
|
算法 数据可视化
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(5)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(5)
|
10月前
|
算法
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(1)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(1)
113 0
|
10月前
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(8)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(8)
109 0
|
10月前
|
机器学习/深度学习 算法
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3)
131 0
|
10月前
|
SQL 算法
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(4)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(4)
|
10月前
|
算法 搜索推荐
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(8)
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(8)
|
10月前
|
数据可视化 数据挖掘
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(7)
带你读《2022技术人的百宝黑皮书》——SIGIR2022 | 流行度偏差如何利用? 探索解耦域适应无偏召回模型(7)