带你读《2022技术人的百宝黑皮书》——因果推断:效应估计的常用方法及工具变量讨论(2)

简介: 带你读《2022技术人的百宝黑皮书》——因果推断:效应估计的常用方法及工具变量讨论(2)

带你读《2022技术人的百宝黑皮书》——因果推断:效应估计的常用方法及工具变量讨论(1) https://developer.aliyun.com/article/1247908?groupCode=taobaotech



效应估计的常用方法


不能有未被观察到的混杂因素:通俗来讲,我们需要知道所有可能影响“果”的因素,这类方法包括 匹配类方法(PSM、CEM、IPTW、DID、合成控制法)、Uplift Models、断点回归等。其中:


倾向性得分匹配(PSM,Propensity Score Method):主要是基于用户特征来预测用户被活动干预的概率作为倾向得分,选取和实验组用户倾向得分最接近的用户作为对照组;“倾向性得分”是一个用户属于实验组的 “倾向性”,理论上,如果我们对每一个实验组用户都在对照组里匹配一个得分相等的用户,就能得到同质的实验组和对照组,进而来做组间比较。“倾向性得分匹配” 适用于样本属性的维度很高或者有一些(不好切断的)连续变量,为实验组找到匹配的对照组,消除混杂因子[2]。


image.png


广义精确匹配(CEM,Coarsened Exact Matching):主要是使用核心混杂因子(对“果”/“因变量” 影响较大的用户特征)进行匹配,每个实验用户匹配到的N个同特征用户作为对照组,取N个同特征用户的核心指标均值作为实验用户的对照。CEM主要用于用户量特别大的场景,在这种情况下预测倾向得分依赖于大量的计算资源和较优的模型效果,导致PSM会受到一定的影响。


逆策略概率加权(IPTW,Inverse Probability of Treatment Weighting):基于PSM,对策略效果进行加权计算,通俗来讲,就是样本越倾向选择这个策略,那么说明这个策略对该样本可能获得更好的策略效果,所以取逆得到的权重来平衡这个策略效果[3,4]。


双重差分模型(DID,Difference in Differences):本质是寻找自然对照组,是政策效果评估中常用的一种计量识别策略,原理是基于反事实框架来评估政策发生(e.g. A市开通高铁,实验组)和不发生(e.g. 与A市近似同质、且未开通高铁的B市,对照组)这两种情景下因变量(e.g. GDP增长)的变化。


合成控制法(SCM,Synthetic Control Methods):基于DID,基本思想是,我们通常很难找到与A市完全相似的B市,但通常可对若干大城市进行适当的线性组合,以构造一个更为优秀的“合成控制地区” (synthetic control region),并将“真实A市”与“合成A市”进行对比,故名“合成控制法”。合成控制法能够克服在选取对照对象时出现的样本选择偏误以及政策内生性问题。使用这个方法的一个关键点在于选择好最优权重矩阵,使得合成的对照组与实验组在treatment前的情况高度类似[5]。



带你读《2022技术人的百宝黑皮书》——因果推断:效应估计的常用方法及工具变量讨论(3) https://developer.aliyun.com/article/1247906?groupCode=taobaotech

相关文章
|
7月前
|
机器学习/深度学习 算法 PyTorch
10招立竿见影的PyTorch性能优化技巧,让模型训练速度翻倍
本文系统总结了PyTorch性能调优的关键技术,涵盖混合精度训练、PyTorch 2.0编译功能、推理模式优化、Channels-Last内存格式、图优化与变换、cuDNN基准测试、内存使用优化等多个方面。通过实证测试,文章详细分析了各技术的实现细节、优势及适用场景,如混合精度训练可显著提升计算效率和内存利用率,torch.compile()能自动优化代码生成以加速模型运行。此外,还探讨了推理模式的选择、卷积操作优化及模型构建的最佳实践。这些方法结合良好的编码习惯,有助于开发者构建高效、可扩展的深度学习应用。
537 3
10招立竿见影的PyTorch性能优化技巧,让模型训练速度翻倍
|
存储 Ubuntu 关系型数据库
Ubuntu 20.04 卸载与安装 MySQL 5.7 详细教程
该文档提供了在Ubuntu上卸载和安装MySQL 5.7的步骤。首先,通过`apt`命令卸载所有MySQL相关软件包及配置。然后,下载特定版本(5.7.32)的MySQL安装包,解压并安装所需依赖。接着,按照特定顺序安装解压后的deb包,并在安装过程中设置root用户的密码。安装完成后,启动MySQL服务,连接数据库并验证。最后,提到了开启GTID和二进制日志的配置方法。
4441 5
|
SQL 数据采集 NoSQL
One ID中的核心技术ID-Mapping究竟是怎么实现的?by彭文华
One ID中的核心技术ID-Mapping究竟是怎么实现的?by彭文华
|
机器学习/深度学习 分布式计算 C++
带你读《2022技术人的百宝黑皮书》——因果推断:效应估计的常用方法及工具变量讨论(3)
带你读《2022技术人的百宝黑皮书》——因果推断:效应估计的常用方法及工具变量讨论(3)
377 1
|
传感器 搜索推荐 安全
【Uniapp 专栏】从案例看 Uniapp 在物联网应用中的运用
【5月更文挑战第12天】Uniapp在物联网中展现出强大生命力,应用于智能家居系统,允许用户通过移动应用控制灯光、窗帘、家电等。通过网络通信与服务器连接,实现设备状态实时同步和用户指令准确传递。提供个性化场景设置,保证流畅体验并注重安全,支持数据加密和用户认证。结合传感器技术,实现环境监测。随着物联网发展,Uniapp有望在更多领域发挥关键作用,塑造更智能的未来。
848 3
|
人工智能 算法 双11
公开下载 |《2023技术人的百宝黑皮书》来了!
公开下载 |《2023技术人的百宝黑皮书》来了!
768 3
|
机器学习/深度学习 TensorFlow 算法框架/工具
TensorFlow 1.x 深度学习秘籍:1~5(1)
TensorFlow 1.x 深度学习秘籍:1~5
307 0
|
XML API 数据库
API介绍
API介绍
813 1
|
小程序 Python
Tkinter模块GUI界面化编程实战(四)——随机点名小程序(含详解及完整源码、完整程序下载链接)
Tkinter模块GUI界面化编程实战(四)——随机点名小程序(含详解及完整源码、完整程序下载链接)
429 0
Tkinter模块GUI界面化编程实战(四)——随机点名小程序(含详解及完整源码、完整程序下载链接)
|
机器学习/深度学习 SQL 人工智能
ID-Mapping在心动公司探索实践
文 / 蔡圣哲 王沛 戴健 范建文 王兵鹏
ID-Mapping在心动公司探索实践