带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(8)

简介: 带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(8)

带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(7) https://developer.aliyun.com/article/1243252?groupCode=taobaotech




总结


在文章的最后,我们对PSM的整体流程进行一个梳理(可以看到真的不复杂),同时对PSM的优点与缺点进行简单的介绍。


完整流程


1. 选择同时影响treatment与outcome的特征,基于特征对treatment进行二分类建模,得到倾向分;

2. 在支撑集上,基于重要特征与倾向分进行匹配,为被干预用户找到匹配的样本;

3. 对匹配结果的质量进行检验,检验通过的话进入下一步,否则返回第二步进行匹配的优化;

4. 基于匹配的结果进行平行趋势验证,验证通过后通过双重差分法进行增量计算。


PSM的优缺点


优点


a.在无法进行随机试验的情况下,可构建虚拟的对照组并对增量进行可信的估算;

b.实现较为容易,实验组的样本能够充分的利用。


缺点


a.PSM最主要的一个缺点是——使用者永远无法保证所有的混淆变量都被包含在建模用的特征当中;


但可通过敏感性分析校验:如增减混淆变量后重复完成计算步骤观测结果是否一致,或通过纳入不确定性对估算增量的区间值


b.当支撑集(实验、对照组的倾向分交集)较小时,PSM+DID估计的局部样本的增量,可能无法代表整体。


整体来说,若不过分追求准确性,PSM+DID是一个对因果增量预估的较为靠谱的方式。当实现过程中存在卡点或假设无法满足时,除了优化模型还可以尝试看看逆概率加权和合成控制法等其他方法。


参考文献


1. Evaluating the performance of propensity score matching methods

2. Some Practical Guidance for the Implementation of Propensity Score Matching


团队介绍


大淘宝技术用户平台数据洞察团队,利用数据科学能力助力淘宝用户增长、提升用户价值,从用户视角洞察用户需求,实现用户与平台的双赢。

相关文章
|
NoSQL Redis 数据安全/隐私保护
Windows中redis设置密码
Windows中redis设置密码
436 0
|
29天前
|
人工智能 文字识别 并行计算
牛逼,DeepSeek-OCR 最新免费,引爆文档处理效率的黑科技模型
小华同学推荐:DeepSeek-OCR,由DeepSeek-AI开源的高效OCR工具,支持视觉压缩编码、结构化输出(如Markdown),可批量处理海量文档,适配PDF/图片,兼容vLLM,助力企业级文档自动化。
511 3
|
6月前
|
数据采集 文字识别 JavaScript
视觉分析开发范例:Puppeteer截图+计算机视觉动态定位
本文介绍了在现代互联网中,传统DOM爬虫难以应对动态加载和视觉驱动内容的问题,并提出了“视觉爬虫”的解决方案。通过Puppeteer实现浏览器自动化,结合计算机视觉技术完成页面元素的动态定位与信息提取。文章对比了DOM爬虫与视觉爬虫的技术特点,展示了基于Node.js的核心代码示例,用于小红书平台的视频搜索、播放及截图处理。最后指出,视觉爬虫能够突破传统限制,在强JS渲染和动态内容场景中更具优势,为数据采集提供了新方向。
250 1
视觉分析开发范例:Puppeteer截图+计算机视觉动态定位
|
JSON 生物认证 API
harmony-utils之RegexUtil,正则工具类
RegexUtil 是 harmony-utils 中的正则工具类,提供多种常用正则验证方法,如验证手机号、邮箱、身份证、数字、URL 等。支持快速判断字符串是否匹配特定格式,助力 HarmonyOS 开发高效便捷。
181 0
|
9月前
|
存储 云安全 供应链
云计算有哪6个未来发展趋势?
在全球云计算产业迅猛增长的背景下,社交网络的普及使其社会化功能成为未来热点。六大发展趋势包括:1) 移动设备推动云计算广泛应用;2) 第三方云平台崛起,提供更多选择;3) 云计算助力企业减少损耗,提升效率;4) 新一轮价格战即将爆发,竞争加剧;5) 云存储成为主流,数据访问更便捷;6) 社交化特征增强,促进企业与客户便捷沟通。云计算正迎来新时代,企业需积极拥抱技术,实现数字化转型。
951 1
|
12月前
|
供应链 关系型数据库 MySQL
可重复读解决了哪些问题
在数据库事务处理中,隔离级别是一个核心概念,它决定了事务在并发执行时如何相互隔离。MySQL的隔离级别之一“可重复读(REPEATABLE READ)”解决了多个并发事务中的数据一致性问题。本文将详细探讨可重复读隔离级别解决了哪些问题。
|
C++ Windows
Qt 窗口置顶
Qt 窗口置顶
379 1
|
Java 开发者
Java一分钟之-Groovy与Java混合编程
【6月更文挑战第13天】本文探讨了Groovy与Java的混合编程,强调了Groovy在JVM上的动态特性及其与Java的高兼容性。文章指出,尽管二者可无缝共存,但仍存在类型不匹配、闭包与匿名内部类差异及语法糖导致的问题。为避免这些问题,建议在Groovy中显式指定类型、理解闭包与匿名类的区别,并制定统一编码规范。通过实例展示了Java调用Groovy脚本和Groovy调用Java类的方法,强调理解两种语言特性的重要性,以实现更高效、维护性更强的系统。
520 3
Java一分钟之-Groovy与Java混合编程
|
缓存 Kubernetes Cloud Native
Fluid 1.0版发布,打通云原生高效数据使用的“最后一公里”
Fluid 1.0版发布,提供云原生数据编排与加速,支持多级数据亲和性调度、自定义数据操作、数据流自动化,成为云原生AI场景最佳选择。
|
存储 网络协议 Linux
小白带你学习Linux iscsi的命令和操作(二十六)
小白带你学习Linux iscsi的命令和操作(二十六)
263 0