IJCAI阿里论文 | JUMP: 一种点击和停留时长的协同预估器

简介: 在该文章的的工作中,我们提出了一种联合预估算法JUMP,基于会话去同时预测用户的点击和停留时长。

▌摘要

JUMP使用一种新奇的三层RNN结构去编码用户的一次会话,包括使用一个“快慢层”去缓解短会话的问题,使用一个“注意力层”去解决会话噪音的问题。大量的实验表明JUMP算法能在点击率预估和停留时长预估上,超越最新的其他算法。

▌停留时长预估

对于停留时间的预估,我们借鉴了“生存分析”(SurvivalAnalysis)的思想,通过时间发生的时间去近似用户在一个内容上停留的时间;从概念上来说,停留时长被认为是“离开当前内容”这个事件的发生时间。如果我们记用户的停留时长的样本为O,假设存在一个函数,将O映射到一个简单的分布f上:

1.png

这里f可能是一个高斯分布,伽马分布等。可以证明的是:

2.png

其中F表示累计概率分布(CDF),T是对O的在线近似。那么有了上述公式后,我们就可以使用最大似然估计去预估样本的停留时间。我们分析了RecSys15数据及上的停留时间,原始分布如左下图,然而我们对停留时间取log后,得到了右下图。我们很高兴的发现在取log之后,停留时间是符合正态分布的。

3.jpg

于是我们取g为log函数,f为正态分布函数,最终我们能得到似然函数:

4.png

▌学习建模

我们记一个用户的会话为一个行为序列:1.jpg。其中i表示第j个点击的商品,表示停留时间,而是一个bool类型,表示是否是会话的最后一个商品(或者停留时间过长)。我们假设样本是从一个分布P(S)中采样出来,那么可以将分布分解为2项的积。

5.png

其中前一项表示点击率的似然,后一项表示停留时间的似然;表示会话中第k次点击前的行为。为了从会话的行为中抽取更多的有效信息,我们提出了一种三层RNN模型去编码。

6.jpg

Attention Layer:我们设计注意力机制主要目的是去除会话中的噪音,保留真正有效的信息。表示fast-slow层的输出,a对应attention的权重,对应的计算方法如下面公式:

7.png

Fast-SlowLayer: fast-slow层提出了一种新奇的RNN网络。当我们处理第j个输入的时候,会进入一个F-S处理单元,其中包括一个慢元子和一个快元子序列,慢元子会记忆更多长期的记忆,而快元子会更多的获取当前的信息。F-S处理单元如下图所示:

8.jpg

EmbeddingLayer:网络的最底层是一个embedding层,该层将一个二元组映射到一个向量上,我们使用batch-normalizing对输入进行标准化:

9.png

▌实验

为了验证算法的性能,我们将JUMP算法对比了主流的基于会话的预估算法,验证在点击率预估和停留时长预估上的效果。对比的算法包括GRU、IGRU、NARM、DTGRU,RMTP、ATRP、NSR,使用的数据集是RecSys15、CIKM16和REDDIT。

点击率预估的结果如下表所示,我们可以看到在全部数据集上,JUMP算法都能超越其他算法,取得最好的Recall、MRR和NDCG指标。

10.jpg

同时我们观察了embedding维度对recall指标的影响,结果如下图。我们可以到看随着embedding维度的提升,recall指标都能得到一定的上升,但是基本都在100维左右达到最高;其次,我们仍然可以发现,JUMP算法取得的效果是优于其他算法的,蓝色曲线总是在其他曲线之上。

11.jpg

除了点击率外,我们观察了在时间预估这个任务上的效果,结果如下表所示。对比ATRP、RMTP和NSR算法,JUMP能明显提升预估的准度。

12.jpg

▌总结

本文提出了一种新奇的算法JUMP,同时预估一个会话中的点击率和停留时间。主要有3点重要贡献:1、使用生存分析的方法来建模用户的停留时间,建立在可靠的数据理论基础上;2、提出了一种三层的RNN结构,基于注意力机制能提升模型的鲁棒性,降低噪音的影响;3、使用了一种全新设计的fast-slow结构,加强对短会话的学习能力。大量实验验证了算法的有效性,在多个公开数据集上的结果,对比其他的算法都有大幅提升。

相关文章
|
9月前
|
SQL 人工智能 自然语言处理
颠覆传统BI认知:Quick BI如何用“傻瓜式”操作重塑数据决策?
Quick BI是阿里云推出的一款零代码+AI数据分析工具,专为业务人员设计。通过简洁的界面和强大的功能,它让数据“开口说话”。从Excel秒变智能资产,到拖拽式构建高定看板,再到自然语言查询与预测分析,菜鸟也能轻松上手。企业微信集成、移动端优化等功能,助力实时决策。Quick BI打破技术壁垒,推动数据民主化,让每个岗位都能用业务语言对话数据,实现真正的数据驱动转型。
|
算法 搜索推荐
信息流短视频时长多目标优化
背景       信息流短视频排序目前使用的是基于CTR预估Wide&Deep排序模型。在此基础上继续一系列优化,通过引入相关性信号、体感信号、多场景的样本融合、高层排序模型取得了不错收益。       信息流短视频模型优化可分为两部分优化: 感知相关性优化——点击模型以优化(CTR/CLICK为
8379 0
|
存储 安全 数据库
数据安全之认识数据库加密系统
信息安全的关键在于数据的安全,而数据的安全则主要通过数据加密技术来实现。随着网上购物等电子商务的兴起和繁荣,以数据库为代表的信息安全已成为很多企业的共识。越来越多的企业和机构开始重视数据库的数据安全问题,因为一旦数据泄露或遭到非法访问,将可能导致严重的经济损失和声誉损害。为了增强普通关系数据库管理系统的安全性,数据库加密系统应运而生。
654 0
|
机器学习/深度学习 人工智能 安全
北大领衔,多智能体强化学习研究登上Nature子刊
【10月更文挑战第1天】近日,北京大学领导的研究团队在《Nature》子刊上发表了一篇关于多智能体强化学习的论文,提出了一种高效且可扩展的框架,解决了大规模网络控制系统中的决策问题。该框架通过局部通信避免了集中式和独立学习的缺点,在交通、电力等领域的实验中展现了卓越性能。然而,其在更复杂系统中的效果及计算复杂度仍需进一步验证。论文链接:https://www.nature.com/articles/s42256-024-00879-7。
310 3
|
机器学习/深度学习 自然语言处理 语音技术
探索机器学习中的深度学习模型:原理与应用
探索机器学习中的深度学习模型:原理与应用
353 0
|
机器学习/深度学习 监控 算法
支付宝商业化广告算法优化
支付宝商业化广告算法优化
777 0
|
机器学习/深度学习 数据可视化 计算机视觉
YOLOv5改进 | Conv篇 | 利用DualConv二次创新C3提出一种轻量化结构(降低参数30W)
YOLOv5改进 | Conv篇 | 利用DualConv二次创新C3提出一种轻量化结构(降低参数30W)
774 1
|
机器学习/深度学习 传感器
机器学习之理解Bias-Variance Tradeoff
这篇内容讨论了机器学习中的Bias-Variance Tradeoff概念。Bias代表模型预测期望值与真实值的差距,高Bias(欠拟合)可能源于模型过于简单。Variance则是模型预测在不同数据集上的变异性,高Variance(过拟合)可能因模型过于复杂,过度拟合噪声。理想的模型应在Bias和Variance之间找到平衡,以降低测试误差。文章通过多项式拟合正弦曲线的例子说明了如何在不同复杂度模型间进行权衡。
442 0
|
开发工具 git
git 对比两个commit 之间的差异
git 对比两个commit 之间的差异 比较两个版本之间的差异 git diff commit-id-1 commit-id-2 > d:/diff.txt 结果文件diff.txt中: "-"号开头的表示 commit-id-2 相对 commit-id-1 减少了的内容。
5954 0
|
机器学习/深度学习 PyTorch 算法框架/工具
【多任务学习】Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
【多任务学习】Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics
1469 0
【多任务学习】Multi-Task Learning Using Uncertainty to Weigh Losses for Scene Geometry and Semantics

热门文章

最新文章