带你读《2022技术人的百宝黑皮书》——因果推断实战:淘宝3D化价值分析小结(1) https://developer.aliyun.com/article/1247949?groupCode=taobaotech
基本概念和符号
首先,定义一些基本概念:
1.干预(treatment) :用来表示用户是否接受了某种干预(being treated),例如是否命中了某个策略,点击了优惠券。
2.潜在结果(potential outcome) 和 :每个用户i对于是否接受干预分别有两个潜在结果 和。假设我想要探究高考对于小明收入的影响,那么真实的结果就是小明的高考分数和他的收入。而假设平行世界里有和小明一模一样的小明2号,但他高考少了20分, 那小明的收入和小明2号的收入都被称为潜在结果/反事实结果。只有真实发生的潜在结果是实际存在的。
3.观察结果(observed outcome) :观察到的、真实发生的潜在结果
4.混淆变量(confounders) :直观来说(虽然不太严谨),混淆变量是一系列用户特征,越全越好。严格来说,混杂变量需要足够全使得对于一群 混杂变量相同的用户来说,他们的潜在结果 和是相互独立的。这个严格的定义其实是因果效应的可识别性的必要条件之一。
其次,通过因果推断可以得到什么:
我们从因果推断推出来的,是因果效应。因为数据的缺失,个体的因果效应(Treatment Effect, TE)是不可被识别的,也就是说,个体的因果效应不能用已观测到的数据来表示。但我们可以描述人群的平均因果效应,即个体因果
效应的均值(Average treatment effect, ATE)。
根据不同的业务场景,我们可能也想知道受到干预的人群的平均因果效应(Average treatment effect on the Treated, ATT),或者人群某个subgroup(受到干预)的平均因果效应(Conditional Average Treatment Effect,
CATE),(Conditional Average Treatment effect on the Treated, CATT)
带你读《2022技术人的百宝黑皮书》——因果推断实战:淘宝3D化价值分析小结(3) https://developer.aliyun.com/article/1247946?groupCode=taobaotech