【电商搜索】现代工业级电商搜索技术-中科大-利用半监督学习改进非点击样本的转化率预测

简介: 【电商搜索】现代工业级电商搜索技术-中科大-利用半监督学习改进非点击样本的转化率预测

【电商搜索】现代工业级电商搜索技术-中科大-利用半监督学习改进非点击样本的转化率预测

0. 论文信息

RecSys24: Utilizing Non-click Samples via Semi-supervised Learning for Conversion Rate Prediction

@inproceedings{huang2024utilizing,

title={Utilizing Non-click Samples via Semi-supervised Learning for Conversion Rate Prediction},

author={Huang, Jiahui and Zhang, Lan and Wang, Junhao and Jiang, Shanyang and Huang, Dongbo and Ding, Cheng and Xu, Lan},

booktitle={Proceedings of the 18th ACM Conference on Recommender Systems},

pages={350–359},

year={2024}

}

利用半监督学习改进非点击样本的转化率预测

1. 摘要

这篇文章提出了一种新的半监督学习方法,称为非点击样本改进的半监督(NISE)方法,用于提高转化率(CVR)预测的准确性。该方法旨在解决样本选择偏差(SSB)、数据稀疏性(DS)和假阴性样本(FNS)问题,这些问题在推荐系统中进行CVR预测时尤为突出。通过将非点击样本视为未标记样本,并预测它们如果被点击可能会转化的概率,然后将这些概率作为伪标签用于进一步的模型训练。此外,文章还引入了一个辅助的点击通过率(CTR)预测任务,并通过多任务学习来增强嵌入层的表示。通过在多个真实世界数据集上的广泛实验,验证了该方法在减少FNS挑战和提高CVR估计准确性方面的优越性。

2. 研究背景

在推荐系统中,准确预测用户的转化率(CVR)对于匹配推荐项目和用户偏好至关重要。然而,由于样本选择偏差和数据稀疏性,以及假阴性样本问题,这一任务面临挑战。现有的方法通过多任务学习来解决这些问题,但这些方法可能会加剧假阴性样本问题。

3. 问题与挑战

  • 样本选择偏差(SSB):传统CVR模型在点击空间训练时,由于未随机选择的暴露但未点击样本,导致在整体空间推断时出现偏差。
  • 数据稀疏性(DS):与暴露样本相比,点击样本明显稀疏,导致模型难以拟合。
  • 假阴性样本(FNS)问题:由于CVR任务的反事实性质,非点击样本可能被视为负面,但未点击并不一定意味着用户不喜欢这些项目。

4. 如何解决

文章提出了NISE方法,该方法通过以下方式解决上述挑战:

  • 将非点击样本视为未标记,并预测它们如果被点击可能会转化的概率。
  • 将这些概率作为伪标签,用于半监督学习。
  • 引入CTR预测任务,并通过多任务学习增强嵌入层的表示。
  • 采用动态任务权重分配机制,以确保平衡和稳定的训练过程。

5. 创新点

  • 提出了一种新的半监督学习方法,通过预测非点击样本的转化概率并将其作为伪标签,以解决假阴性样本问题。
  • 引入CTR预测任务,并通过多任务学习提高模型的表示能力。
  • 设计了动态权重分配机制,以平衡CVR和CTR任务的训练。

6. 算法模型

NISE方法的核心是一个半监督学习框架,它结合了CTR和CVR任务,并使用动态权重分配策略。该方法在整体空间上建模,利用伪标签来处理非点击样本,并利用多任务学习来提高模型性能。

7. 实验效果

  • 在两个公共数据集和一个生产数据集上进行了实验,NISE方法在减少FNS挑战和提高CVR估计准确性方面优于五个最先进的基线方法。
  • 在Ali-CCP数据集上,NISE方法实现了1.11%的AUC相对增益,在Kuaipure数据集上实现了2.00%的AUC相对增益,在生产数据集上实现了0.70%的AUC增益。


8. 推荐阅读指数

★★★★☆

推荐理由

这篇文章提出了一种创新的半监督学习方法来改进CVR预测,特别是在处理非点击样本时。它不仅解决了样本选择偏差和数据稀疏性问题,还通过引入CTR任务和动态权重分配机制,有效地缓解了假阴性样本问题。这些贡献对于推荐系统领域的研究人员和实践者来说都是非常有价值的。

9. 小结

这篇文章通过引入半监督学习框架和多任务学习策略,有效地解决了推荐系统中的转化率预测问题,特别是在处理非点击样本时,提高了模型的准确性和鲁棒性。


后记

如果您对我的博客内容感兴趣,欢迎三连击(点赞、收藏、关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习和计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术

目录
打赏
0
1
1
0
16
分享
相关文章
【电商搜索】现代工业级电商搜索技术-EMNLP2024-无监督的用户偏好学习
【电商搜索】现代工业级电商搜索技术-EMNLP2024-无监督的用户偏好学习
48 0
【电商搜索】现代工业级电商搜索技术-Facebook语义搜索技术QueSearch(上)
【电商搜索】现代工业级电商搜索技术-Facebook语义搜索技术QueSearch(上)
57 0
【电商搜索】现代工业级电商搜索技术-Facebook语义搜索技术QueSearch(下)
【电商搜索】现代工业级电商搜索技术-Facebook语义搜索技术QueSearch(下)
43 0
【电商搜索】现代工业级电商搜索技术-中科院计算机研究所-生成型检索与多级相关性相结合
【电商搜索】现代工业级电商搜索技术-中科院计算机研究所-生成型检索与多级相关性相结合
51 1
FashionBERT 电商领域多模态研究:如何做图文拟合?
目前学术界关于多模态的研究重点在通用领域,针对电商领域的研究相对较少。在多模态数据匹配上,使用 ViLBERT 方法在通用领域的效果确实不错,但是在电商领域,由于提取的 ROI 并不理想,导致效果低于预期。本文提出了一种图文匹配模型—— FashionBERT,其核心问题是如何解决电商领域图像特征的提取或者表达,分享了模型的整体结构及算法,以及在业务上的应用效果和实验数据提升。该论文已经被信息检索领域国际顶级会议 SIGIR20 Industry Track 接收。(文末福利:贾扬清分享人工智能算法和系统的进化)
4552 0
FashionBERT 电商领域多模态研究:如何做图文拟合?
基于BERT,神马搜索在线预测性能如何提升?
今天,阿里巴巴技术专家丁亦川梳理了神马搜索 BERT 在线预测过程中,遇到的性能问题,探索过程以及当前初步的成果,分享给大家。
4704 0
【双11背后的技术】基于深度强化学习与自适应在线学习的搜索和推荐算法研究
作者:灵培、霹雳、哲予 1. 搜索算法研究与实践 1.1 背景 淘宝的搜索引擎涉及对上亿商品的毫秒级处理响应,而淘宝的用户不仅数量巨大,其行为特点以及对商品的偏好也具有丰富性和多样性。因此,要让搜索引擎对不同特点的用户作出针对性的排序,并以此带动搜索引导的成交提升,是一个极具挑战性的问题。传统
11005 0

热门文章

最新文章

AI助理

你好,我是AI助理

可以解答问题、推荐解决方案等