ICDE 2023 | DCMT:基于因果纠偏的直接全空间多任务转化率预测模型

在线体验各类最新模型,更有模型 免费Token 额度领取!
立即体验
简介: ICDE 2023 | DCMT:基于因果纠偏的直接全空间多任务转化率预测模型

1 简介


本文给大家介绍一下蚂蚁集团(机器智能-人机结合团队、搜索算法团队)、浙江大学、麦考瑞大学合作的被ICDE2023接收的基于因果纠偏的直接全空间多任务转化率预测模型

DCMT: A Direct Entire-Space Causal Multi-Task Framework for Post-Click Conversion Estimation》。

image.png

在搜推广场景中,推荐系统+用户主要遵循“曝光(系统)->点击(用户)->转化(用户)”行为逻辑。DCMT试图解决的还是点击后转化率预测的两个老问题,即数据稀疏和选择偏差问题。由于文章运用了因果推断的思想,理解起来有点麻烦,我们尽量展开介绍。


2.1 数据稀疏


主要是“曝光->点击->转化”这系列行为逻辑漏斗越来越小,即只有很少曝光物品/服务被点击,更少的物品/服务被转化。传统的点击后转化率预测模型往往在点击空间(click space)训练而成,而不是在全曝光空间进行训练。那么不可避免的只有很少的点击样本用来训练。例如,阿里公开的Ali-CCP数据集,大约3.75%的曝光样本被点击,而其中只有大约0.025%的样本被转化。数据稀疏问题不单单造成训练集样本过少,还造成转化的正、负样本太过不平衡。


2.2 选择偏差


选择偏差的产生主要原因是上述的训练空间和推断空间之间的差异。传统点击后转化率预测模型在点击空间(click space)训练而成,但是模型推断的时候,却要给全曝光的样本(exposure space)进行预测排序。两者(点击空间、全曝光空间)之间的样本分布是不一致的。点击空间的样本虽然来源于全曝光空间样本,但是往往点击、转化率比较高的样本才能进入点击空间,那些点击、转化率较低的很难进入到点击空间。这些曝光&未点击(未点击空间)的样本并没有随机消失(not missing at random)于点击空间,而是因为用户的选择导致它们进不了点击空间。这就意味着,基于点击空间样本训练出来的转化率预测模型预测值往往和实际值之间有偏差(一般是偏大)。

image.png

3 现有的解决方案


接下来,我们分析一下现有模型以及它们的优缺点。


3.1 并行多任务模型 (例如 ESMM,ESM2)

image.png

核心思想:并行多任务模型(例如ESMM)通过CTR任务以及一个辅助任务CTCVR来间接计算CVR。


优点:这样做的好处是CTR和CTCVR任务都可以在全曝光样本上训练,而模型在线预测的时候,也在全曝光样本空间进行预测排序。并行多任务模型是通过  ,在全曝光空间,先求出点击率  和点击转化率  ,再间接求出点击后转化率  。这样就消除了训练空间与推断空间之间不匹配的问题,因而可以缓解点击空间训练数据稀疏、选择偏差的问题。

缺点:并行结构,忽略了点击到转化之间的依赖关系,也就是PIP(potential independence priority)问题。现有的并行多任务模型结构实际上对应的是另一个概率公式,即:  

3.2 多门的多任务学习模型 (例如:Cross Stitch、MMOE、PLE、MOSE、AITM)

核心思想优点:多门(Multi-Gate)多任务学习模型考虑了不同任务之间的相关性和差异性,用Gate的方式来控制不同专家的组合方式。在曝光空间预测CTR, 在点击空间预测CVR。

缺点:这些模型还是没有解决数据Missing not at radom(MNAR)的问题。


image.png

3.3 基于倾向性的因果纠偏模型 (例如IPW和DR)

由于我们的方法也是使用倾向性的因果纠偏,因此这一类的现有解决方案我们会详细介绍。

3.3.1 IPW(inverse propensity weighting,逆倾向加权模型)

image.png

image.png

image.png

image.pngimage.pngimage.png


4.1 核心思想


上文现有解决方案的分析,让我们意识到,我们需要直接在全曝光空间去纠偏,而不是只在点击空间(例如IPW)或者间接在全曝光空间(DR)上纠偏。在全曝光空间训练模型的好处就是(1)数据稀疏问题得到缓解(2)训练空间和推断空间直接对齐了。


然而,在全曝光空间训练CVR模型存在最大的瓶颈问题就是:(1)全曝光空间里,对于转化任务而言,存在大量的假负样本。在全曝光空间里,由于不存在“未点击->转化”这样的正样本,这些样本会混在“未点击->未转化”样本中充当假负样本。这些假负样本可能仅仅是因为曝光位置、曝光风格原因,没有被用户察觉到或者点击到。但是如果这些样本被用户点击了,是可以转化的。如果在全曝光空间训练,CVR模型过度拟合这些真假难辨的转化负样本,CVR的预测结果则会偏低。(2)另外,在全曝光样本空间直接训练CVR模型,选择偏差问题仍然存在。所以需要在全曝光空间进行纠偏而不单单在点击空间进行纠偏(如IPW和DR)。这是因为,如果我们认同IPW的思想,即在点击样本空间,点击倾向性会对点击空间样本造成选择偏差。那么在未点击空间,同样也会有不点击倾向性导致选择偏差。


4.2 反事实机制


为了解决以上的问题,我们提出了一个反事实的机制。由于受到用户在做转化决策的过程的启发,我们提出了事实样本空间(factual space)和反事实样本空间(counterfactual space)的概念。这里的事实空间和反事实空间如下图所示:


image.png

image.pngimage.png

image.png

image.png

image.pngimage.png

image.png




相关文章
|
JavaScript 安全 测试技术
“vueuse“ 中文索引与用例
“vueuse“ 中文索引与用例
696 0
|
前端开发 JavaScript
Jupyter Notebook自动补全代码配置
Jupyter Notebook自动补全代码配置
2943 0
Jupyter Notebook自动补全代码配置
|
机器学习/深度学习 数据处理
大语言模型中的归一化技术:LayerNorm与RMSNorm的深入研究
本文分析了大规模Transformer架构(如LLama)中归一化技术的关键作用,重点探讨了LayerNorm被RMSNorm替代的原因。归一化通过调整数据量纲保持分布形态不变,提升计算稳定性和收敛速度。LayerNorm通过均值和方差归一化确保数值稳定,适用于序列模型;而RMSNorm仅使用均方根归一化,省略均值计算,降低计算成本并缓解梯度消失问题。RMSNorm在深层网络中表现出更高的训练稳定性和效率,为复杂模型性能提升做出重要贡献。
3588 14
大语言模型中的归一化技术:LayerNorm与RMSNorm的深入研究
|
机器学习/深度学习 数据采集 自然语言处理
魔搭社区模型速递(6.2-6.7)
魔搭ModelScope本期社区进展:1910个模型,183个数据集,47个创新应用,5 篇内容
1379 11
魔搭社区模型速递(6.2-6.7)
|
人工智能 负载均衡 网络架构
混合专家更有主见了,能感知多模态分情况行事,Meta提出模态感知型专家混合
【9月更文挑战第3天】在人工智能领域,多模态学习备受关注。Meta AI提出了一种名为模态感知型专家混合(MoMa)的新架构,通过模态特定的专家模块组合处理图像和文本,提升了多模态早期融合语言模型的预训练效率。MoMa在1万亿令牌训练下,实现了3.7倍的FLOPs节省,优于标准混合专家方案。尽管存在因果推理性能和负载平衡方面的局限性,MoMa仍为多模态预训练提供了高效新方法。论文详细内容见:https://arxiv.org/pdf/2407.21770
488 3
|
机器学习/深度学习 算法
深度学习之因果发现算法
基于深度学习的因果发现算法是一个旨在从复杂数据中自动挖掘变量之间潜在因果关系的研究领域。它结合了传统因果推理方法与深度学习的强大特征提取能力,帮助应对高维、非线性数据中的因果结构发现。
1487 9
|
机器学习/深度学习 数据采集 供应链
Pandas数据应用:销售预测
本文介绍如何使用Pandas进行销售预测。首先,通过获取、清洗和可视化历史销售数据,确保数据质量并理解其特征。接着,进行特征工程,构建线性回归等模型进行预测,并评估模型性能。最后,针对常见问题如数据类型不匹配、时间格式错误、内存不足和模型过拟合提供解决方案。掌握这些步骤,可有效提升销售预测的准确性,助力企业优化库存管理和提高客户满意度。
411 17
|
缓存 安全 Linux
通过层级内隔离提升软件的安全性|龙蜥大讲堂第112期
本次分享的主题是通过层级内隔离提升软件的安全性,由中科院计算所的武成岗分享。主要分为以下两个部分: 1. 计算系统的安全关乎着整个“数字化”世界的安全 2. 目标:同时获取微内核的安全性和宏内核的高性能 3. 层级内隔离手段 4. 总结
685 12
|
机器学习/深度学习 搜索推荐 算法
【前沿解读】17篇2023淘天业务技术A类顶会论文(下)
【前沿解读】17篇2023淘天业务技术A类顶会论文(下)
942 3
|
人工智能 运维 API
PAI企业级能力升级:应用系统构建、高效资源管理、AI治理
PAI平台针对企业用户在AI应用中的复杂需求,提供了全面的企业级能力。涵盖权限管理、资源分配、任务调度与资产管理等模块,确保高效利用AI资源。通过API和SDK支持定制化开发,满足不同企业的特殊需求。典型案例中,某顶尖高校基于PAI构建了融合AI与HPC的科研计算平台,实现了作业、运营及运维三大中心的高效管理,成功服务于校内外多个场景。

热门文章

最新文章