IJCAI阿里论文 | JUMP: 一种点击和停留时长的协同预估器

简介: 小叽导读:在搜索和推荐场景中,基于会话的预测日益受到人们的兴趣和重视,大多这类算法都是基于递归神经网络(RNNs)技术或者它的变种。然而,已有的算法一方面会忽略“停留时长”在表达用户偏好程度上的重要性,另一方面在非常短或者有噪音的会话上会预估得不准。

小叽导读:在搜索和推荐场景中,基于会话的预测日益受到人们的兴趣和重视,大多这类算法都是基于递归神经网络(RNNs)技术或者它的变种。然而,已有的算法一方面会忽略“停留时长”在表达用户偏好程度上的重要性,另一方面在非常短或者有噪音的会话上会预估得不准。因此在该文章的的工作中,我们提出了一种联合预估算法JUMP,基于会话去同时预测用户的点击和停留时长。
▌摘要

JUMP使用一种新奇的三层RNN结构去编码用户的一次会话,包括使用一个“快慢层”去缓解短会话的问题,使用一个“注意力层”去解决会话噪音的问题。大量的实验表明JUMP算法能在点击率预估和停留时长预估上,超越最新的其他算法。

▌停留时长预估

对于停留时间的预估,我们借鉴了“生存分析”(SurvivalAnalysis)的思想,通过时间发生的时间去近似用户在一个内容上停留的时间;从概念上来说,停留时长被认为是“离开当前内容”这个事件的发生时间。如果我们记用户的停留时长的样本为O,假设存在一个函数,将O映射到一个简单的分布f上:

image

这里f可能是一个高斯分布,伽马分布等。可以证明的是:

image


其中F表示累计概率分布(CDF),T是对O的在线近似。那么有了上述公式后,我们就可以使用最大似然估计去预估样本的停留时间。我们分析了RecSys15数据及上的停留时间,原始分布如左下图,然而我们对停留时间取log后,得到了右下图。我们很高兴的发现在取log之后,停留时间是符合正态分布的。

image


于是我们取g为log函数,f为正态分布函数,最终我们能得到似然函数:

image

▌学习建模

我们记一个用户的会话为一个行为序列:image。其中i表示第j个点击的商品,image表示停留时间,而image是一个bool类型,表示是否是会话的最后一个商品(或者停留时间过长)。我们假设样本是从一个分布P(S)中采样出来,那么可以将分布分解为2项的积。
image
其中前一项表示点击率的似然,后一项表示停留时间的似然;image表示会话中第k次点击前的行为。为了从会话的行为中抽取更多的有效信息,我们提出了一种三层RNN模型去编码image

image


Attention Layer:我们设计注意力机制主要目的是去除会话中的噪音,保留真正有效的信息。表示fast-slow层的输出,a对应attention的权重,对应的计算方法如下面公式:

image
Fast-SlowLayer: fast-slow层提出了一种新奇的RNN网络。当我们处理第j个输入的时候,会进入一个F-S处理单元,其中包括一个慢元子和一个快元子序列,慢元子会记忆更多长期的记忆,而快元子会更多的获取当前的信息。F-S处理单元如下图所示:

image


EmbeddingLayer:网络的最底层是一个embedding层,该层将一个二元组 image映射到一个向量上,我们使用batch-normalizing对输入进行标准化:

image


▌实验

为了验证算法的性能,我们将JUMP算法对比了主流的基于会话的预估算法,验证在点击率预估和停留时长预估上的效果。对比的算法包括GRU、IGRU、NARM、DTGRU,RMTP、ATRP、NSR,使用的数据集是RecSys15、CIKM16和REDDIT。

点击率预估的结果如下表所示,我们可以看到在全部数据集上,JUMP算法都能超越其他算法,取得最好的Recall、MRR和NDCG指标。
image
同时我们观察了embedding维度对recall指标的影响,结果如下图。我们可以到看随着embedding维度的提升,recall指标都能得到一定的上升,但是基本都在100维左右达到最高;其次,我们仍然可以发现,JUMP算法取得的效果是优于其他算法的,蓝色曲线总是在其他曲线之上。
image
除了点击率外,我们观察了在时间预估这个任务上的效果,结果如下表所示。对比ATRP、RMTP和NSR算法,JUMP能明显提升预估的准度。

image


▌总结

本文提出了一种新奇的算法JUMP,同时预估一个会话中的点击率和停留时间。主要有3点重要贡献:1、使用生存分析的方法来建模用户的停留时间,建立在可靠的数据理论基础上;2、提出了一种三层的RNN结构,基于注意力机制能提升模型的鲁棒性,降低噪音的影响;3、使用了一种全新设计的fast-slow结构,加强对短会话的学习能力。大量实验验证了算法的有效性,在多个公开数据集上的结果,对比其他的算法都有大幅提升。

原文发布时间为:2018-07-09
本文作者:匿名
本文来自云栖社区合作伙伴“ 阿里技术”,了解相关信息可以关注“ 阿里技术”。

相关文章
|
2月前
|
数据处理
MoE再下一城!港大提出AnyGraph:首次开启图大模型Scaling Law之路
近年来,图结构数据因关系数据的广泛应用而备受关注,但现有模型在处理复杂图数据时需大量微调,灵活性受限。香港大学团队提出了AnyGraph,一种基于图混合专家(MoE)架构的统一图模型,有效应对结构与特征异质性、快速适应及规模定律挑战。通过多样化图专家与轻量级路由机制,AnyGraph实现零样本学习和跨领域数据处理。然而,其计算复杂度较高且路由机制仍有待优化。(239字)
47 2
|
4月前
|
机器学习/深度学习 人工智能 API
FaceChain-FACT:免训练的丝滑体验,秒级别的人像生成
FaceChain-FACT是一项创新技术,它通过免训练的方式,能在10秒内生成高质量的AI人像,为用户带来快速且逼真的肖像生成体验。
FaceChain-FACT:免训练的丝滑体验,秒级别的人像生成
|
6月前
|
机器学习/深度学习 人工智能
可控核聚变新里程碑,AI首次实现双托卡马克3D场全自动优化,登Nature子刊
【6月更文挑战第4天】AI在可控核聚变研究中实现双托卡马克装置3D磁场全自动优化,助力抑制边缘能量爆发(ELMs),提升核聚变性能90%,成果登上《自然通讯》。虽有ELMs少量出现及装置适应性问题,但这一突破为经济可行的核聚变能源发展迈出重要步伐。[论文链接](https://www.nature.com/articles/s41467-024-48415-w)
107 1
|
机器学习/深度学习 人工智能 自然语言处理
【NLP 算法岗】提前批暑期实习面(试)经(历)
【NLP 算法岗】提前批暑期实习面(试)经(历)
269 0
|
机器学习/深度学习 存储 分布式计算
KDD 2022 | 快手提出基于因果消偏的观看时长预估模型D2Q,解决短视频推荐视频时长bias难题
KDD 2022 | 快手提出基于因果消偏的观看时长预估模型D2Q,解决短视频推荐视频时长bias难题
636 0
|
机器学习/深度学习 人工智能 自然语言处理
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
这是ShowMeAI每周通讯的第3期。本期内容关键词:新冠、ChatGPT、2022 AI 报告、腾讯·绝悟、阿里·AliceMind、小红书·全站智投、OpenAI·Point-E、Google·CALM、Wayve·MILE、AI2·MemPrompt、Stanford x MosaicML·PubMed GPT、腾讯全员大会、特斯拉裁员、图森未来裁员、AI 应用与工具大全。
553 0
阳过→阳康,数据里的时代侧影;谷歌慌了!看各公司如何应对ChatGPT;两份优质AI年报;本周技术高光时刻 | ShowMeAI每周通讯 #003-12.24
|
人工智能 大数据 程序员
DayDayUp:2019.12.31罗振宇2020年跨年演讲《时间的朋友》读后有感—思维决定一个人的上限,能力决定一个人的下限
DayDayUp:2019.12.31罗振宇2020年跨年演讲《时间的朋友》读后有感—思维决定一个人的上限,能力决定一个人的下限
DayDayUp:2019.12.31罗振宇2020年跨年演讲《时间的朋友》读后有感—思维决定一个人的上限,能力决定一个人的下限
|
算法 机器人
有腿又有轮,还会「拜年讨红包」!腾讯发布首个全自研机器狗Max
腾讯正式发布首个软硬件全自研的多模态四足机器人。让我们来看看这条狗,有多与众不同?
177 0
有腿又有轮,还会「拜年讨红包」!腾讯发布首个全自研机器狗Max
|
人工智能 自然语言处理 搜索推荐
增长难题如何破?20天后引擎大会或给出“答题指引”
增长难题如何破?20天后引擎大会或给出“答题指引”
261 0
增长难题如何破?20天后引擎大会或给出“答题指引”
|
机器学习/深度学习 人工智能 自然语言处理
科学地花钱:基于端智能的在线红包分配方案 (CIKM2020)
红包是电商平台重要的用户运营手段,本文将介绍1688基于端智能技术开发的two-stage红包分发方案。这一方案持续在线上生效,相较于原有算法有明显提升。
2775 0
科学地花钱:基于端智能的在线红包分配方案 (CIKM2020)
下一篇
DataWorks