带你读《2022技术人的百宝黑皮书》——倾向得分匹配（PSM）的原理以及应用(3)-阿里云开发者社区

带你读《2022技术人的百宝黑皮书》——倾向得分匹配（PSM）的原理以及应用(3)

2023-06-13 310 发布于辽宁

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 带你读《2022技术人的百宝黑皮书》——倾向得分匹配（PSM）的原理以及应用(3)

带你读《2022技术人的百宝黑皮书》——倾向得分匹配（PSM）的原理以及应用(2) https://developer.aliyun.com/article/1247867?groupCode=taobaotech

匹配算法

当不使用propensityscore时，可以直接基于协变量进行匹配，直接计算两个样本协变量之间的（马氏距离(Mahalanobis Distance) - 知乎 (zhihu.com)），这种方式通常称为CVM（Coviate Matching）。

完成倾向分模型及预测后，每个样本会得到一个propensity score，此时便可以进行匹配步骤了：为每个被干预的样本匹配一个（或多个）虚拟的对照样本。

匹配的基础思路很简单，即找到一个距离最近的样本，实现的具体方法按照渐进的顺序阐述如下：

Nearest Neighbour Matching 最近邻匹配

这是最直接的一种方法，即：对干预组中的用户，选取对照组中在倾向分上相差最小的用户做匹配。

实现上，会有有放回和无放回两种实现方式：

1. 有放回（对照组样本可重复使用）：此时整体匹配质量上升，bias下降，当干预组与对照组倾向分分布差异较大时推荐应用。此时使用的对照组样本数会减少，导致variance上升；

2. 无放回：此时匹配结果与匹配顺序有关，顺序需要保证随机。

除了是否放回之外，还有一个可调整的地方在于对单个用户是否可匹配多个样本（over-sampling）：通过匹配最近的多个邻居降低了variance，提升了匹配的稳定性。但此时需要给每个邻居赋予权重（eg. 按距离衰减）。

Caliper and Radius Matching 有边界限制的半径匹配

当最近的邻居也相距很远的时候，NN匹配会存在低质匹配的风险。很自然的，我们想到可以限定样本间分数差值的上限，即Caliper。

1. Caliper Matching：匹配时引入倾向分差值的忍受度，高于忍受度的样本丢弃。理论上通过避免低质量匹配降低了bias，但在样本数量较少时也可能因为匹配过少而升高了variance；

2. Radius Matching：不止匹配caliper中的最近样本，使用caliper中的所有样本进行匹配。这种方法的优势在于，当有高质量匹配时使用了更多的样本、而当缺乏高质量匹配时则使用较少的样本。

带你读《2022技术人的百宝黑皮书》——倾向得分匹配（PSM）的原理以及应用(4) https://developer.aliyun.com/article/1247863?groupCode=taobaotech

带你读《2022技术人的百宝黑皮书》——倾向得分匹配（PSM）的原理以及应用(3)

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

直播

下载

镜像站

技术资料

带你读《2022技术人的百宝黑皮书》——倾向得分匹配（PSM）的原理以及应用(3)

大淘宝技术

热门文章

最新文章

相关课程

相关电子书

相关实验场景