带你读《2022技术人的百宝黑皮书》——因果推断:效应估计的常用方法及工具变量讨论(2) https://developer.aliyun.com/article/1247907?groupCode=taobaotech
Uplift model:Uplift即为增益,Uplift models 主要用于预测一个treatment(e.g. 发优惠券)对个体(e.g. 给某个消费者)的增量价值(e.g. 这个消费者购买概率的提升值),实质上是因果推断中对ITE(Individual treatment effect )个体的因果效应的估计,常用于机器学习领域。
断点回归(RDD,Regression Discontinuity Design):基本思想是存在一个连续变量, 该变量能决定个体在某一临界点两侧接受政策干预的概率,由于X在该临界点两侧是连续的,因此个体针对X的取值落入该临界点任意一侧是随机发生的,即不存在人为操控使得个体落入某一侧的概率更大,则在临界值附近构成了一个准自然实验[6]。学术界普遍认为断点回归的设计更接近准自然实验, 估计的结果更加准确。
应用在实际的业务效果/增量衡量中时,对于匹配类方法,在匹配得到同质的实验 vs 对照组的情况下,活动带来的业务效果即为活动开始后实验组和对照组的核心指标差值(Matching)。而当在通过以上匹配类方法没能找到完全同质的实验 vs 对照组的情况下,可依据匹配到的实验组和对照组用户,再结合DID的方法来去除干预前两组之间的GAP,通过匹配+DID类方法来计算因果效应(Matching+DID)。
工具变量介绍
对于工具变量,学习过计量经济学的同学应该非常熟悉,其实因果中的工具变量和计量中常说的工具变量本质上是一个东西,那么工具变量 (Instrumental variables) 的在效应估计的作用到底是什么?参考某知乎答主的对其在计量ols估计中的回答: “过滤器,把X 中和 随机扰动项 相关的部分过滤掉,只剩下正交的部分,这样OLS就又重振雄风了。工具变量就是这个过滤器。” [7]
工具变量的三个条件
下图3.1 描绘了一项双盲随机试验, Z 是被试的分组情况(1:治疗组,0:安慰剂组), A 是被试的实际接受治疗情况(1:实际上接受治疗,0:实际上未接受治疗),Y 是结局,U 是所有能影响结局和被试配合程度的未测变量。
如果我们想一致地估计 A对Y 的因果效应均值(ATE),那不管使用什么方法,我们都需要测量U(可以把U理解为控制变量), 并在我们的模型中调整U,由于U是未测的,所以这些方法只能得到有偏的估计。 但工具变量方法却并不一样,即使我们不能测量并调整U ,我们依然可以用这一方法去估计 A 对 Y 的效应均值。
带你读《2022技术人的百宝黑皮书》——因果推断:效应估计的常用方法及工具变量讨论(4) https://developer.aliyun.com/article/1247905?groupCode=taobaotech