带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(4)

简介: 带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(4)

带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3) https://developer.aliyun.com/article/1247864?groupCode=taobaotech



Stratification and Interval Matching 分层区间匹配


分层匹配可以看作radius matching的一种相似版本,即将倾向得分分成多个区间,在每个区间内进行匹配。需要注意的是,分层的依据除了propensity score,也可以用一些我们认为重要的特征(如性别、地区),在相同特征

的用户间进行匹配。


匹配示例SQL


在计算复杂度不太高的情况下,我们通常能够使用sql进行匹配算法的实现,示例如下:


with matching_detail as (
 select t1.user_id as treatment_userid,
 t1.score as treatment_pscore,
 t2.user_id as control_userid,
 t2.score as control_pscore,
 row_number() over (partition by t1.user_id order by abs(t1.score-t2.score) asc) as rn
 from propensity_score_treatment t1
 left join propensity_score_control t2
 -- 分层匹配
 on t1.gender = t2.gender and round(t1.score, 1)*10 = round(t2.score, 1)*10
 where abs(t1.score-t2.score) <= 0.05 -- caliper matching
)
select * from matching_detail where rn = 1 # rn大于1时为多邻居/radius匹配


上述的三种方法实际上都只使用了对照组中的部分样本,若希望使用对照组中的所有样本可对对照组中的样本整体赋权,计算整体的差值。


匹配质量检验


鉴于我们基于倾向分做匹配,需要检测其他特征在实验组与对照组之间的分布是否相近。


理论依据:因为 image.png,在给定 image.png的情况下, image.pngimage.png 应该相互独立。也就是说倾向得分相同时, image.png的分布应该趋近一致。


可量化的指标——标准化偏差 Standardised Bias


通过标准化偏差我们可以衡量 image.png在实验组与对照组分布的差异大小,通常我们认为低于5%的偏差是可以接受的(当然越小越好)。


image.png




带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(5) https://developer.aliyun.com/article/1247862

相关文章
|
安全 druid Java
Seata 1.8.0 正式发布,支持达梦和 PolarDB-X 数据库
Seata 1.8.0 正式发布,支持达梦和 PolarDB-X 数据库
1214 94
Seata 1.8.0 正式发布,支持达梦和 PolarDB-X 数据库
|
Linux C++ iOS开发
vs code常见的查找快捷键大全
本文来自 frozencola 技术日志,介绍了 VS Code 中常用的查找快捷键,包括快速打开文件、文件资源管理器、全局搜索、查找符号、查找文件中的文本、查找并替换、文件导航和使用命令面板。掌握这些快捷键可以显著提升开发效率。
987 4
|
UED 存储 数据管理
深度解析 Uno Platform 离线状态处理技巧:从网络检测到本地存储同步,全方位提升跨平台应用在无网环境下的用户体验与数据管理策略
【8月更文挑战第31天】处理离线状态下的用户体验是现代应用开发的关键。本文通过在线笔记应用案例,介绍如何使用 Uno Platform 优雅地应对离线状态。首先,利用 `NetworkInformation` 类检测网络状态;其次,使用 SQLite 实现离线存储;然后,在网络恢复时同步数据;最后,通过 UI 反馈提升用户体验。
383 0
|
机器学习/深度学习 人工智能 算法
|
机器学习/深度学习 算法
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3)
512 0
|
算法
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(1)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(1)
527 0
|
JavaScript API
vue3组件注册
vue3组件注册
360 0
|
Kubernetes 云计算 开发者
云计算中的容器化技术:Docker与Kubernetes的实践
云计算中的容器化技术:Docker与Kubernetes的实践
1300 0
|
消息中间件 存储 前端开发
事务消息应用场景、实现原理与项目实战(附全部源码)
从应用场景出发,给出解决方案与实现原理,并提供整套工业级实现源码。
3413 74
事务消息应用场景、实现原理与项目实战(附全部源码)
|
XML Java API
网站是怎么屏蔽脏话的呢:简单学会SpringBoot项目敏感词、违规词过滤方案
一个社区最重要的就是交流氛围与审查违规,而这两者都少不了对于敏感词进行过滤的自动维护措施。基于这样的措施,我们才能基本保证用户在使用社区的过程中,不至于被敏感违规词汇包围,才能够正常的进行发布帖子和评论,享受美好的社区氛围。目前,对于 springboot 项目也有较为成熟的敏感词过滤方案。
1190 0
网站是怎么屏蔽脏话的呢:简单学会SpringBoot项目敏感词、违规词过滤方案