@TOC
论文名称:Product-based Neural Networks for User Response Prediction
原文地址:PNN
⚡本系列历史文章⚡
【推荐系统论文精读系列】(一)--Amazon.com Recommendations
【推荐系统论文精读系列】(二)--Factorization Machines
【推荐系统论文精读系列】(三)--Matrix Factorization Techniques For Recommender Systems
【推荐系统论文精读系列】(四)--Practical Lessons from Predicting Clicks on Ads at Facebook
【推荐系统论文精读系列】(五)--Neural Collaborative Filtering
【推荐系统论文精读系列】(六)--Field-aware Factorization Machines for CTR Prediction
【推荐系统论文精读系列】(七)--AutoRec Autoencoders Meet Collaborative Filtering
【推荐系统论文精读系列】(八)--Deep Crossing:Web-Scale Modeling without Manually Crafted Combinatorial Features
【推荐系统论文精读系列】(九)--Product-based Neural Networks for User Response Prediction
【推荐系统论文精读系列】(十)--Wide&Deep Learning for Recommender Systems
【推荐系统论文精读系列】(十一)--DeepFM A Factorization-Machine based Neural Network for CTR Prediction
【推荐系统论文精读系列】(十二)--Neural Factorization Machines for Sparse Predictive Analytics
一、摘要
预测用户的反应,如点击和转换,是非常重要的,并已发现它在许多网络应用程序中使用,包括推荐系统、网络搜索和在线广告。这些应用程序中的数据大多是分类的,包含多个字段;典型的表示是通过一个热编码将其转换为高维稀疏二进制特征表示。面对极端稀疏性,传统模型可能会限制其从数据中挖掘浅层模式的能力,即低阶特征组合。另一方面,像深度神经网络这样的深度模型由于其巨大的特征空间而不能直接应用于高维输入。在本文中,我们提出了一种基于产品的神经网络(PNN),其嵌入层用于学习分类数据的分布式表示,产品层用于捕获场间类别之间的交互模式,以及进一步的全连接层用于探索高阶特征交互。我们在两个大规模真实世界广告点击数据集上的实验结果表明,PNN在各种指标上始终优于最先进的模型。
二、介绍
学习和预测用户响应在信息检索(IR)中的许多个性化任务中起着至关重要的作用,如推荐系统、web搜索和在线广告。用户响应预测的目标是估计用户在给定上下文中提供预定义积极响应的概率,例如点击、购买等。该预测概率表示用户对特定项目(如新闻文章、商业项目或广告帖子)的兴趣,这会影响后续决策,如文档排名和广告竞价。
最近,深度神经网络(DNN)在分类和回归任务中表现出强大的能力,包括计算机视觉、语音识别和自然语言处理。由于DNNs能够自动学习更多的表达性特征表示并提供更好的预测性能,因此在用户响应预测中采用DNNs是很有希望的。为了改进多字段分类数据交互,提出了一种基于因子分解机预训练的嵌入方法。基于级联嵌入向量,构建多层感知器(MLP)来探索特征交互。然而,嵌入初始化的质量在很大程度上受到因子分解机的限制。更重要的是,感知器层的“添加”操作对于探索多个领域中分类数据的交互可能没有用处。以前的工作表明,通过特征向量“乘积”操作而不是“添加”操作,可以有效地探索不同领域特征之间的局部依赖关系。
三、相关工作
响应预测问题通常表示为二元分类问题,预测似然或交叉熵作为训练目标。ROC曲线下面积(AUC)和相对信息增益(RIG)是响应预测准确性的常用评估指标。从建模的角度来看,线性逻辑回归(LR)和非线性梯度提升决策树(GBDT)以及因子分解机(FM)在工业应用中得到了广泛的应用。然而,这些模型在挖掘高阶潜在模式或学习高质量特征表示方面存在局限性。
深度学习能够探索高阶潜在模式以及概括表达性数据表示。DNN的输入数据通常是稠密的实向量,而多场分类数据的求解一直没有得到很好的研究。提出了因子分解机支持的神经网络(FNN),通过预训练的FM学习分类数据的嵌入向量。文献提出了卷积点击预测模型(CCPM),通过卷积神经网络(CNN)预测广告点击。然而,在CCPM中,卷积只在某个对齐的相邻字段上执行,这无法模拟非相邻特征之间的完整交互。利用递归神经网络(RNN)将用户查询建模为一系列用户上下文,以预测广告点击行为。提出了产品单元神经网络(PUNN)来构建输入的高阶组合。然而,PUNN既不能学习局部依赖,也不能产生有界输出以适应响应率。
在本文中,我们展示了PNN模型学习局部依赖和高阶特征交互的方式。
四、深度学习用于CTR评估
我们以在线广告中的CTR估计为例,建立了我们的模型,并探讨了各种指标的性能。任务是建立一个预测模型,以估计用户在给定上下文中点击特定广告的概率。
每个数据样本由多个分类数据字段组成,如用户信息(城市、小时等)、出版商信息(域、广告时段等)和广告信息(广告创意ID、活动ID等)。所有信息都表示为一个多字段分类特征向量,其中每个字段(例如城市)都是一个热编码的,如第一节所述。这种字段式的一个热编码表示会导致维数灾难和极大的稀疏性。此外,字段之间存在局部依赖关系和层次结构。
因此,我们正在寻求一种DNN模型来捕获多领域分类数据中的高阶潜在模式。我们提出了产品层的概念,以自动探索功能交互。在FM中,特征交互被定义为两个特征向量的内积。
提出的深度学习模型称为基于产品的神经网络(PNN)。在本节中,我们将详细介绍PNN模型,并讨论该模型的两种变体,即具有内积层的内积神经网络(IPNN)和使用外积表达式的外积神经网络(OPNN)。
References
[1] A. K. Menon, K.-P. Chitrapura, S. Garg et al., “Response prediction using collaborative filtering with hierarchies and side-information,” in SIGKDD. ACM, 2011, pp. 141–149.
[2] G.-R. Xue, H.-J. Zeng, Z. Chen, Y. Yu, W.-Y. Ma, W. Xi, and W. Fan, “Optimizing web search using web click-through data,” in CIKM, 2004.
[3] W. Zhang, S. Yuan, and J. Wang, “Optimal real-time bidding for display advertising,” in SIGKDD. ACM, 2014, pp. 1077–1086.
[4] X. He, J. Pan, O. Jin et al., “Practical lessons from predicting clicks on ads at facebook,” in Proceedings of the Eighth International Workshop on Data Mining for Online Advertising. ACM, 2014, pp. 1–9.
[5] K.-c. Lee, B. Orten, A. Dasdan et al., “Estimating conversion rate in display advertising from past erformance data,” in SIGKDD. ACM, 2012, pp. 768–776.
[6] A.-P. Ta, “Factorization machines with follow-the-regularized-leader for ctr prediction in display advertising,” in IEEE BigData. IEEE, 2015, pp. 2889–2891.
[7] Y. Cui, R. Zhang, W. Li et al., “Bid landscape forecasting in online ad exchange marketplace,” in SIGKDD. ACM, 2011, pp. 265–273.
[8] Y. LeCun, Y. Bengio, and G. Hinton, “Deep learning,” Nature, 2015.
[9] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” in NIPS, 2012, pp. 1097– 1105.
[10] A. Graves, A.-r. Mohamed, and G. Hinton, “Speech recognition with deep recurrent neural networks,” in ICASSP. IEEE, 2013, pp. 6645– 6649.
[11] T. Mikolov, I. Sutskever, K. Chen et al., “Distributed representations of words and phrases and their compositionality,” in NIPS, 2013, pp. 3111–3119.
[12] W. Zhang, T. Du, and J. Wang, “Deep learning over multi-field categorical data: A case study on user response prediction,” ECIR, 2016.
[13] Q. Liu, F. Yu, S. Wu et al., “A convolutional click prediction model,” in CIKM. ACM, 2015, pp. 1743–1746.
[14] M. Richardson, E. Dominowska, and R. Ragno, “Predicting clicks: estimating the click-through rate for new ads,” in WWW. ACM, 2007, pp. 521–530.
[15] T. Graepel, J. Q. Candela, T. Borchert et al., “Web-scale bayesian clickthrough rate prediction for sponsored search advertising in microsoft’s bing search engine,” in ICML, 2010, pp. 13–20.
[16] K. Ren, W. Zhang, Y. Rong, H. Zhang, Y. Yu, and J. Wang, “User response learning for directly optimizing campaign performance in display advertising,” in CIKM, 2016.
[17] Y. Zhang, H. Dai, C. Xu et al., “Sequential click prediction for sponsored search with recurrent neural networks,” arXiv preprint arXiv:1404.5772, 2014.
[18] A. P. Engelbrecht, A. Engelbrecht, and A. Ismail, “Training product unit neural networks,” 1999.
[19] W. Zhang, S. Yuan, and J. Wang, “Real-time bidding benchmarking with ipinyou dataset,” arXiv:1407.7073, 2014.
[20] S. Rendle, “Factorization machines,” in ICDM. IEEE, 2010, pp. 995– 1000.
[21] T. Chen, I. Goodfellow, and J. Shlens, “Net2net: Accelerating learning via knowledge transfer,” in ICLR, 2016.
[22] H. B. McMahan, G. Holt, D. Sculley et al., “Ad click prediction: a view from the trenches,” in SIGKDD. ACM, 2013, pp. 1222–1230