SIGIR阿里论文 | 一种端到端的模型:基于异构内容流的动态排序

简介: 为了给用户提供更多的购物帮助,内容搜索引擎应运而生。在用户搜索商品的时候,给用户推荐高质量的内容流,帮助用户选择自己中意的以及用户可能喜欢的商品。

小叽导读:搜索引擎在电商领域扮演着极其重要的角色,它可以很好地引导用户的潜在购买行为。传统电商搜索引擎通常指商品搜索引擎,用户输入一个query,返回一个商品列表。然而,随着自媒体的发展,越来越多的用户更愿意分享自己的购物体验,他们以文章、评价和视频等形式将自己的观点展示出来。在这篇文章中,这些统称为内容流。为了给用户提供更多的购物帮助,内容搜索引擎应运而生。在用户搜索商品的时候,给用户推荐高质量的内容流,帮助用户选择自己中意的以及用户可能喜欢的商品。

主要作者:高子喆、高正、黄恒、蒋卓人、严玉良

▌研究背景:

目前,对于异构数据的排序还存在很多的挑战。首先,商品搜索引擎和内容搜索引擎所提供的跨领域知识要被充分利用,使用户在商品搜索引擎中的行为偏好应用到内容搜索引擎中。其次,现有的算法需要支持多媒体内容的排序。
1.jpg

在本文中,我们的目标是解决商品搜索引擎和内容搜索引擎中异构数据排序的问题,给用户推荐丰富的、个性化的内容流。我们把算法分成了两部分:1)异构内容流类型排序,即决定每个坑位展示何种类型的内容流,文章、视频还是商品列表;2)同构的内容流内容排序,第二个步骤使用广为人知的DSSM模型,在这个内容流类型下,对内容流的内容进行排序,选择相似度最高的内容插入。本文主要聚焦在第一个步骤。

▌ 所提出的算法:

本文提出两种算法用于内容流类型的排序,独立多臂老虎机算法和个性化马尔科夫深度神经网络算法。

在独立多臂老虎机算法中,我们需要计算一个比例θ,由ipv和pv计算而来,如果θ更高,表示当用户在搜索列表中看到这个内容流的时候,更有可能点击。对于每一个搜索坑位,我们先会计算一个θ的先验分布,这里我们使用Beta分布, 其中i表示post, list, video。 代表类型i的历史ipv点击数据,表示历史浏览数据。的期望是,后验概率分布通过一个实时的流数据任务来更新。表示为如下的概率公式:

2.png

通过这种方式,所有坑位的内容流类型都是独立的,伪代码如下:
3.png

有依赖的异构数据流类型选择由三种因素决定:用户,query和前一个坑位类型。首先,在同一个query下,用户可以表示出不同的偏好。比如用户搜索“连衣裙”,某个用户可能更偏好介绍的文章,另一个用户可能会更喜欢视频的介绍。而且,没有用户喜欢单一的类型展示,或多或少都喜欢多元化的内容流类型的排列。针对同一个query,应该给不同的用户展示不同的排序结果。我们提出的个性化马尔科夫深度神经网络算法包含两个步骤,包括对用户和query的表示任务学习和坑位类型的预测学习。

用户和query的低维表示 我们构建了一个graph,包含用户,query和内容。使用node2vec学习用户和query的embedding,如下图:
4.jpg

图中的中间部分是训练节点的embedding表示。输入层是节点的独热编码。权重矩阵W是所有节点的embedding,其将节点独热编码映射到一个D维的空间中。

坑位类型预测 我们的目标函数定义为

5.jpg

其中X表示输入第i个坑位的特征,为了简化我们pMDNN模型并且加速运行的速度,我们只使用跟当前预测的坑位前一个坑位的信息。然而这带来了一个问题,如何预测第一个坑位的类型,这里我们使用到了跨领域知识,我们从用户最近在商品搜索引擎中浏览的宝贝信息中抽取将其映射为内容搜索坑位特征,使其满足当前模型的输入要求。我们的模型输入层为用户的embedding,query embedding和前一个坑位的embedding。可以表示为

6.jpg

三个全连接层接入输入层中。每一层使用一个线性分类器和交叉熵作为loss function。激活函数选择Relu,输出层应用Softmax为激活函数。

▌ 实验结果:

我们将提出的模型部署到A/B测试分桶环境中,选择了5个主要的指标来对比两个模型iMAB和pMDNN。pv代表展示内容的个数;pvclick表示展示的内容多少被点击;uv是多少个用户使用了内容搜索引擎,uv click表示多少用户点击了内容流;至于uv ctr,表示用户是否点击内容流的比率。

下表展示了实验结果,其中pMDNN的实验结果优于iMAB。尤其是uv click和uv ctr,这对于我们的场景非常重要,因为uv click的增长表示更多的用户倾向于内容搜索引擎因为其能帮助他们更好的购物。同时,uv ctr的增长展示出使用内容搜索引擎的用户对我们推荐的内容流是认可的。至于pv click的提高也代表了我们提出的模型更加的符合用户的个性化需求。

基于pv click和uv ctr,我们可以认为pMDNN应用了跨领域知识并且全局优化多坑位类型确实要优于坑位独立的iMAB。

7.jpg

参考文献:
[1] Róbert Busa-Fekete andEyke Hüllermeier. A survey of preference-based online learning with banditalgorithms.
[2] Ali Mamdouh Elkahky, YangSong, and Xiaodong He. 2015. A multi-view deep learning approach for crossdomain user modeling in recommendation systems. In Proceedings of the 24thInternational Conference on World Wide Web. International World Wide WebConferences Steering Committee, 278–288.

相关文章
|
机器学习/深度学习 并行计算 PyTorch
TensorRT部署系列 | 如何将模型从 PyTorch 转换为 TensorRT 并加速推理?
TensorRT部署系列 | 如何将模型从 PyTorch 转换为 TensorRT 并加速推理?
2111 0
|
项目管理 开发工具 git
git push 报错 pre-receive hook declined
git push 报错 pre-receive hook declined
5693 0
git push 报错 pre-receive hook declined
|
12月前
|
云安全 人工智能 安全
构建云上安全共同体 | 阿里云亮相2024年(第十三届)电信和互联网行业网络安全年会
构建云上安全共同体 | 阿里云亮相2024年(第十三届)电信和互联网行业网络安全年会
|
机器学习/深度学习 搜索推荐 算法
深度学习推荐模型-DIN
Deep Interest Network(DIN)是盖坤大神领导的阿里妈妈的精准定向检索及基础算法团队,在2017年6月提出的。 它针对电子商务领域(e-commerce industry)的CTR预估,重点在于充分利用/挖掘用户历史行为数据中的信息。
1384 1
深度学习推荐模型-DIN
|
机器学习/深度学习 存储 搜索推荐
连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用
本文探讨了如何在工业界的连续学习的框架下实现跨域推荐模型,提出了连续迁移学习这一新的跨域推荐范式,利用连续预训练的源域模型的中间层表征结果作为目标域模型的额外知识,设计了一个轻量级的Adapter模块实现跨域知识的迁移,并在有好货推荐排序上取得了显著业务效果。
1368 0
连续迁移学习跨域推荐排序模型在淘宝推荐系统的应用
|
算法 数据挖掘 知识图谱
基于品类关系,虚拟类目如何建设?
类目-属性项-属性值体系(简称CPV)是淘宝建设中非常重要的基石,在商品的发布、管理,以及搜索场景下都大量应用。比如每个商品都有自己的类目、以及属性,而且需要发布在适合自己的类目下,才能够方便管理和搜索;在用户搜索的过程中,对Query的类目预测也是相关性中非常重要的一环。
6792 0
|
数据可视化 开发工具 计算机视觉
LabVIEW视觉采集软件(VAS)、视觉生成器(VB)和视觉开发模块(VDM)之间有什么不同
LabVIEW视觉采集软件(VAS)、视觉生成器(VB)和视觉开发模块(VDM)之间有什么不同
312 1
|
机器学习/深度学习 数据采集 传感器
使用GAN进行异常检测
自从基于Stable Diffusion的生成模型大火以后,基于GAN的研究越来越少了,但是这并不能说明他就没有用了。异常检测是多个研究领域面临的重要问题,包括金融、医疗保健和网络安全。
691 2