带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3)

简介: 带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3)

带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(2) https://developer.aliyun.com/article/1247867?groupCode=taobaotech



匹配算法


当不使用propensityscore时,可以直接基于协变量进行匹配,直接计算两个样本协变量之间的(马氏距离(Mahalanobis Distance) - 知乎 (zhihu.com)),这种方式通常称为CVM(Coviate Matching)。


完成倾向分模型及预测后,每个样本会得到一个propensity score,此时便可以进行匹配步骤了:为每个被干预的样本匹配一个(或多个)虚拟的对照样本。


匹配的基础思路很简单,即找到一个距离最近的样本,实现的具体方法按照渐进的顺序阐述如下:


Nearest Neighbour Matching 最近邻匹配

这是最直接的一种方法,即:对干预组中的用户,选取对照组中在倾向分上相差最小的用户做匹配。


实现上,会有有放回和无放回两种实现方式:


1. 有放回(对照组样本可重复使用):此时整体匹配质量上升,bias下降,当干预组与对照组倾向分分布差异较大时推荐应用。此时使用的对照组样本数会减少,导致variance上升;


2. 无放回:此时匹配结果与匹配顺序有关,顺序需要保证随机。


除了是否放回之外,还有一个可调整的地方在于对单个用户是否可匹配多个样本(over-sampling):通过匹配最近的多个邻居降低了variance,提升了匹配的稳定性。但此时需要给每个邻居赋予权重(eg. 按距离衰减)。


Caliper and Radius Matching 有边界限制的半径匹配


当最近的邻居也相距很远的时候,NN匹配会存在低质匹配的风险。很自然的,我们想到可以限定样本间分数差值的上限,即Caliper。


1. Caliper Matching:匹配时引入倾向分差值的忍受度,高于忍受度的样本丢弃。理论上通过避免低质量匹配降低了bias,但在样本数量较少时也可能因为匹配过少而升高了variance;


2. Radius Matching:不止匹配caliper中的最近样本,使用caliper中的所有样本进行匹配。这种方法的优势在于,当有高质量匹配时使用了更多的样本、而当缺乏高质量匹配时则使用较少的样本。




带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(4) https://developer.aliyun.com/article/1247863?groupCode=taobaotech

相关文章
|
数据可视化 IDE 定位技术
R语言与RStudio的下载与安装方法
R语言与RStudio的下载与安装方法
1312 1
|
架构师 开发者 运维
开发人员各级岗位胜任力模型
上个月,我写了一篇《架构设计师能力模型》,为开发者指出一些发展的方向、架构师的能力要求,以及需要学习的相关知识。 本月,我为公司的人力部门编制了更加量化的《2017年研发人员岗位能力模型 V1.4》。
10549 0
|
23天前
|
数据采集 监控 测试技术
2025年住宅代理IP服务商TOP10榜单最新出炉
2025年主流住宅代理IP服务商盘点:SmartProxy凭高性价比和易用性脱颖而出,适合中小团队;NetNut、Bright Data、Oxylabs等各具优势,涵盖SEO、电商、广告监控等场景。
|
Web App开发 搜索推荐 Unix
Linux系统之MobaXterm远程连接centos的GNOME桌面环境
【10月更文挑战第21天】Linux系统之MobaXterm远程连接centos的GNOME桌面环境
2197 5
Linux系统之MobaXterm远程连接centos的GNOME桌面环境
|
域名解析 存储 缓存
【域名解析DNS专栏】动手实践:手动配置DNS解析记录
【5月更文挑战第22天】本文介绍了DNS解析记录的概念及其手动配置步骤。DNS解析记录是将域名映射到IP地址的数据,常见类型包括A(IPv4)、AAAA(IPv6)和CNAME(别名)。配置步骤包括登录DNS管理平台,添加记录,选择记录类型,填写主机记录和记录值,设置TTL值,并保存。以阿里云为例的A记录配置示例也提供了具体操作。了解这些有助于更好地管理域名。
1875 0
【域名解析DNS专栏】动手实践:手动配置DNS解析记录
多重比较示例:Bonferroni校正法和Benjamini & Hochberg法
多重比较示例:Bonferroni校正法和Benjamini & Hochberg法
|
算法
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(1)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(1)
527 0
|
监控 数据可视化 Java
高效流程引擎:深入探索 Activiti 工作流引擎
在现代的企业环境中,业务流程的自动化和优化变得越来越重要。Activiti,作为一款轻量级、可嵌入的工作流引擎,为企业提供了一种高效的方式来管理和执行各种业务流程。本文将为您详细介绍 Activiti 的核心概念、特性以及在业务流程管理中的应用。
971 0
|
移动开发 算法 HTML5
提升网页阅读体验的三款优秀大纲插件(2023)
阅读长篇文章或复杂网页时,清晰的大纲结构可以帮助我们更好地理解和组织信息。在这篇博客中,我将向大家推荐三款优秀的网页大纲插件,帮助您提升阅读效率和体验。
提升网页阅读体验的三款优秀大纲插件(2023)
|
JavaScript 前端开发
前端学习笔记202306学习笔记第五十三天-react.js & material-ui之构造数据,tabs和Grid部分的点击事件中之3
前端学习笔记202306学习笔记第五十三天-react.js & material-ui之构造数据,tabs和Grid部分的点击事件中之3
105 0