带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(4)

简介: 带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(4)

带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3) https://developer.aliyun.com/article/1247864?groupCode=taobaotech



Stratification and Interval Matching 分层区间匹配


分层匹配可以看作radius matching的一种相似版本,即将倾向得分分成多个区间,在每个区间内进行匹配。需要注意的是,分层的依据除了propensity score,也可以用一些我们认为重要的特征(如性别、地区),在相同特征

的用户间进行匹配。


匹配示例SQL


在计算复杂度不太高的情况下,我们通常能够使用sql进行匹配算法的实现,示例如下:


with matching_detail as (
 select t1.user_id as treatment_userid,
 t1.score as treatment_pscore,
 t2.user_id as control_userid,
 t2.score as control_pscore,
 row_number() over (partition by t1.user_id order by abs(t1.score-t2.score) asc) as rn
 from propensity_score_treatment t1
 left join propensity_score_control t2
 -- 分层匹配
 on t1.gender = t2.gender and round(t1.score, 1)*10 = round(t2.score, 1)*10
 where abs(t1.score-t2.score) <= 0.05 -- caliper matching
)
select * from matching_detail where rn = 1 # rn大于1时为多邻居/radius匹配


上述的三种方法实际上都只使用了对照组中的部分样本,若希望使用对照组中的所有样本可对对照组中的样本整体赋权,计算整体的差值。


匹配质量检验


鉴于我们基于倾向分做匹配,需要检测其他特征在实验组与对照组之间的分布是否相近。


理论依据:因为 image.png,在给定 image.png的情况下, image.pngimage.png 应该相互独立。也就是说倾向得分相同时, image.png的分布应该趋近一致。


可量化的指标——标准化偏差 Standardised Bias


通过标准化偏差我们可以衡量 image.png在实验组与对照组分布的差异大小,通常我们认为低于5%的偏差是可以接受的(当然越小越好)。


image.png




带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(5) https://developer.aliyun.com/article/1247862

相关文章
|
小程序
UniAPP 目录结构详细介绍(及条件编译文件夹详解)
UniAPP 目录结构详细介绍(及条件编译文件夹详解)
1535 1
|
消息中间件 存储 监控
五分钟快速了解Airflow工作流
简介 Airflow是一个以编程方式创作、调度和监控工作流的平台。 使用 Airflow 将工作流创作为有向无环图(DAG)任务。 Airflow 调度程序按照你指定的依赖项在一组workers上执行您的任务。同时,Airflow拥有丰富的命令行实用程序使得在DAG上进行复杂的诊断变得轻而易举。并且提供了丰富的用户界面使可视化生产中运行的工作流、监控进度和需要排查问题时变得非常容易。 当工作流被定义为代码时,它们变得更易于维护、可版本化、可测试和协作。
安装Xftp7时出现致命错误:-1603的解决方法
安装Xftp7时出现致命错误:-1603的解决方法
1430 0
安装Xftp7时出现致命错误:-1603的解决方法
|
JSON 数据格式
JSON - JSON.toJSONString 格式化成 JSON 字符串时保留 null 属性
JSON - JSON.toJSONString 格式化成 JSON 字符串时保留 null 属性
1761 0
|
11月前
|
人工智能 API
OmniSearch:阿里巴巴通义推出的多模态检索增强生成框架
本文介绍了阿里巴巴通义实验室推出的多模态检索增强生成框架 OmniSearch,该框架具备自适应规划能力,能够动态拆解复杂问题,根据检索结果和问题情境调整检索策略,从而提升检索效率和准确性。
943 5
OmniSearch:阿里巴巴通义推出的多模态检索增强生成框架
|
11月前
|
Linux C++ iOS开发
vs code常见的查找快捷键大全
本文来自 frozencola 技术日志,介绍了 VS Code 中常用的查找快捷键,包括快速打开文件、文件资源管理器、全局搜索、查找符号、查找文件中的文本、查找并替换、文件导航和使用命令面板。掌握这些快捷键可以显著提升开发效率。
880 4
|
自然语言处理 监控 算法
【算法精讲系列】通义模型Prompt调优的实用技巧与经验分享
本文详细阐述了Prompt的设计要素,包括引导语、上下文信息等,还介绍了多种Prompt编写策略,如复杂规则拆分、关键信息冗余、使用分隔符等,旨在提高模型输出的质量和准确性。通过不断尝试、调整和优化,可逐步实现更优的Prompt设计。
3268 11
|
JavaScript 前端开发 C++
jupyter lab最强代码提示插件来了
jupyter lab最强代码提示插件来了
960 0
|
机器学习/深度学习 算法
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3)
带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3)
434 0
|
机器学习/深度学习 算法
独热编码的两种实现形式
独热编码的两种实现形式
178 1