带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3)

简介: 带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(3)

带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(2) https://developer.aliyun.com/article/1243259?groupCode=taobaotech




倾向得分预测


预测用户被干预的概率,其实就是一个常见的二分类问题,常见的机器学习模型都可以在这里使用。


特征选择


需要注意的是在特征选择上,具体需要哪些特征呢?有两个基本的原则是需要遵守的:

1. 同时影响干预分配和结果的变量应该被包括(使CIA成立);

2. 被干预项影响的变量应该排除(变量需要在干预项前计算)。


而至于特征的量级,不同的文献中有不同的说法:


1. 不应使用过多的参数,因为会导致如下两个问题:

恶化support问题,导致存在某些图片使得

不会增加bias但会增加variance,因为匹配困难一些treatment样本会被丢弃、或control样本被重复使用


2. 尽可能使用更多的参数以满足CIA假设,除非有明确的共识特征与干预无关。


为方便起见,通常在实际应用中我们会选取尽量多的特征,同时也会用到一些机器学习中常规的特征筛选方法。


重要特征


当我们已知一些特征十分重要(对干预、结果)时,我们可能通过一些方式加强这些特征对匹配的影响:


1. 在匹配时在该特征上两组一致,如男性只跟男性匹配

2. 在子人群中做匹配(男性、女性分别做匹配)


换句话说:就是在重要特征上做完全匹配,再辅助倾向分匹配(当预期在不同分组上会有不同的ATT时尤其推荐这么做)。


匹配算法


当不使用propensityscore时,可以直接基于协变量进行匹配,直接计算两个样本协变量之间的(马氏距离(Mahalanobis Distance) - 知乎 (zhihu.com)),这种方式通常称为CVM(Coviate Matching)。


完成倾向分模型及预测后,每个样本会得到一个propensity score,此时便可以进行匹配步骤了:为每个被干预的样本匹配一个(或多个)虚拟的对照样本。




带你读《2022技术人的百宝黑皮书》——倾向得分匹配(PSM)的原理以及应用(4) https://developer.aliyun.com/article/1243257?groupCode=taobaotech


相关文章
|
运维 监控 JavaScript
(ARMS-AIOps)一文教你用Attributor算法实现多维下钻分析
常见的AIOps应用路径为:对监控的各种关键性能指标(KPI)进行实时异常检测;对多维指标进行根源分析,快速下钻到异常维度和元素;基于应用拓扑和实时Trace,实现根因定位;结合CMDB、关联等、构建异常根因上下文,帮助快速修复问题。 作为KPI指标, 往往包含了很多维度和元素,最显而易见的则是对每一个维度的元素都进行实时异常检测。 对于维度组合笛卡尔集数量很长的场景, 该方案的成本则有点难以承受
5420 0
|
存储 算法 Python
一文速学-时间序列分析算法之指数平滑法详解+Python代码实现
一文速学-时间序列分析算法之指数平滑法详解+Python代码实现
3025 0
一文速学-时间序列分析算法之指数平滑法详解+Python代码实现
|
1月前
|
JavaScript 前端开发 Java
基于springboot的养老院管理系统
随着人口老龄化加剧,传统养老院管理效率低下,亟需信息化升级。本文基于Java、Spring Boot、Vue等技术构建智慧养老系统,结合MySQL与MyBatis实现数据高效管理,提升服务精准性与运营效率,推动养老服务向智能化、现代化发展。
|
监控 关系型数据库 MySQL
数据库优化:MySQL索引策略与查询性能调优实战
【10月更文挑战第26天】数据库作为现代应用系统的核心组件,其性能优化至关重要。本文主要探讨MySQL的索引策略与查询性能调优。通过合理创建索引(如B-Tree、复合索引)和优化查询语句(如使用EXPLAIN、优化分页查询),可以显著提升数据库的响应速度和稳定性。实践中还需定期审查慢查询日志,持续优化性能。
1049 0
|
自然语言处理 开发者
《黑神话:悟空》的剧情脚本与对话系统设计
【8月更文第26天】在《黑神话:悟空》这款游戏中,引人入胜的故事情节和丰富多样的对话系统是吸引玩家的关键因素之一。本文将详细介绍游戏剧情脚本的编写过程以及交互式对话系统的实现技术。
653 0
ARIMA、ARIMAX、 动态回归和OLS 回归预测多元时间序列
ARIMA、ARIMAX、 动态回归和OLS 回归预测多元时间序列
ARIMA、ARIMAX、 动态回归和OLS 回归预测多元时间序列
|
自然语言处理 Ubuntu 编译器
使用 `byacc`(Berkeley Yacc)在Linux中构建编译器
本文介绍了如何在Linux中使用`byacc`构建编译器。首先,通过包管理器安装`byacc`,如在Debian/Ubuntu上使用`apt-get install byacc`,在Red Hat/CentOS/Fedora上使用`yum`或`dnf`。接着,定义编程语言的语法(如示例中的简单计算器`calc.y`),然后运行`byacc -d calc.y`生成C代码。最后,编译生成的文件并运行。虽然示例简单,但展示了使用`byacc`创建编译器的基本步骤,实际项目中需处理更复杂语法和实现语义动作。
|
机器学习/深度学习 SQL 算法
倾向得分匹配(PSM)的原理以及应用
倾向得分匹配(PSM)的原理以及应用
5454 0
倾向得分匹配(PSM)的原理以及应用
|
机器学习/深度学习
从RMSE和MSE到更多选择:探索机器学习模型性能指标
从RMSE和MSE到更多选择:探索机器学习模型性能指标
|
JavaScript
element-plus vue3 图片上传
element-plus是一款基于Vue 3的UI组件库,它提供了一系列常用的UI组件以及丰富的特色功能。其中包括图片上传,可以通过el-upload组件实现。下面是基于element-plus vue3的图片上传例子:
831 0