数据算法篇
推荐语:个性化推荐在双11大放异彩,随着内容化和商品理解的深入,对算法提出了新的要求。淘宝技术通过融合多模态信息的内容召回模型更好兼顾了推荐的泛化性,通过改善召回阶段中的双塔模型来缓解推荐的流行度偏差;从流量运营时代进入到留量运营,无论是商家招募,消费者运营还是商品运营,都需要制定更有效的策略,驱动淘宝技术应用各种数据科学的手段制定精准的运营策略,并通过因果推断来判断策略的有效性。在发挥数据算法价值的同时,如何降低大数据的拥有成本,如何写出高性能的SQL,如何更有效地管理好海量数据资产成为迫在眉睫的问题。数据算法篇结合淘宝的具体问题,和大家一起探索数字化转型时期的数据管理和价值创造的阿里实践。
—— 阿里巴巴资深技术专家 中道
作者:景里、北澄
出品:大淘宝技术
日常工作中很多的策略/产品的效果是无法设计完美的随机实验的,要求我们从观察性数据中去(拟合随机试验)发现因果关系、测算因果效应。
因果推断简介
作者个人理解:
因果推断本质上回答的问题:谁是因?谁是果?这个因会导致多大的果?抽象为两大问题即为:因果发现+因果效应估计。对应到我们日常的业务策略、产品迭代中,因(某个策略、ui改版、产品迭代)会导致多大的果(点击率提升多少?笔数提升多少),回答这类“干预”问题的黄金准则是随机控制实验(Randomized Control Trial),这一点已成为当今自然科学家和社会科学家的共识。但是日常中,我们很多的策略/产品的效果是无法设计完美的随机实验的,这就要求我们从观察性数据中去(拟合随机试验)发现因果关系、测算因果效应。
利用因果推断,从观察数据中去计算因果效应(从混杂因子角度去拆分)主要可以分为两类方法:
1.不能有未被观察到的混杂因素:通俗来讲,我们需要知道所有可能影响“果”的因素,这类方法包括PSM(propensity score method,倾向性得分匹配法)、CEM(Coarsened Exact Matching,广义精确匹配)、DID(Difference in Differences,双重差分模型)、SCM(Synthetic Control Methods,合成控制法),Uplift model(实质上是ITE的估计,Individual treatment effect ,个体的因果效应)、RRD(Regression Discontinuity Design,断点回归)等。本文第二节将简要介绍这些方法的原理和适用场景,实战可见-参考文献-推荐阅读。
2.可以有未被观察到的混杂因素:这类方法可以在数据有未被观察到(unobserved /hidden confounder)的情况下使用,所以这类方法非常吸引人,工具变量也就是这类方法。目前ATA上对这部分的讨论也较少,本文也将在第三节 基于对 Causal Inference: What If[1] 的学习,展开对因果推断中工具变量的讨论。
带你读《2022技术人的百宝黑皮书》——因果推断:效应估计的常用方法及工具变量讨论(2) https://developer.aliyun.com/article/1247907?groupCode=taobaotech