@TOC
论文名称:DeepFM:A Factorization-Machine based Neural Network for CTR Prediction
原文地址:DeepFM
⚡本系列历史文章⚡
【推荐系统论文精读系列】(一)--Amazon.com Recommendations
【推荐系统论文精读系列】(二)--Factorization Machines
【推荐系统论文精读系列】(三)--Matrix Factorization Techniques For Recommender Systems
【推荐系统论文精读系列】(四)--Practical Lessons from Predicting Clicks on Ads at Facebook
【推荐系统论文精读系列】(五)--Neural Collaborative Filtering
【推荐系统论文精读系列】(六)--Field-aware Factorization Machines for CTR Prediction
【推荐系统论文精读系列】(七)--AutoRec Autoencoders Meet Collaborative Filtering
【推荐系统论文精读系列】(八)--Deep Crossing:Web-Scale Modeling without Manually Crafted Combinatorial Features
【推荐系统论文精读系列】(九)--Product-based Neural Networks for User Response Prediction
【推荐系统论文精读系列】(十)--Wide&Deep Learning for Recommender Systems
【推荐系统论文精读系列】(十一)--DeepFM A Factorization-Machine based Neural Network for CTR Prediction
【推荐系统论文精读系列】(十二)--Neural Factorization Machines for Sparse Predictive Analytics
一、摘要
在推荐系统领域最大化CTR最关键就是要学习用户举止背后复杂的特征交互。尽管现在已经有了一些大的进展,但是现存的方式仍然是只能捕捉低阶或者高阶特征,或者需要专业的特征工程。本篇论文中,我们提出了一种端到端的学习模型,能够同时学习到低阶和高阶的交互特征。我们将这个模型命名为DeepFM,它结合了分解机的能力和深度学习捕捉高阶特征的能力。对比最新谷歌提出的Wide & Deep模型,我们的DeepFM模型不需要任何特征工程,而且会共享特征输入。
二、介绍
预测点击率是非常重要的在推荐系统中,这个任务就是去评估一个用户是否会点击推荐的事物。在一些推荐系统中,它们的目标就是最大化这个点击率。在一些其它应用场景中例如在线广告,它是很重要的去提升收益,当我们推荐正确的广告给用户,所以很明确正确的CTR是关键的地方。
对于CTR预测关键就是学习用户举止的隐式特征。我们通过研究主流的app商店,我们发现经常发现人们在吃饭的时候下载食物类的app,这就表明了app类别和时间戳之间的交互,这个特征可以作为CTR的一个输入。另外就是,青年男性喜欢射击游戏和RPG游戏,这就意味着app类别和用户的性别和年龄有联系。总的来说,这些用户行为的特征交互是高度复杂的,它们对于CTR预测起着关键的作用。
现在关键的挑战就是有效地对交互特征进行建模,一些交互特征可以很容易的理解,因此这些可以由一些领域专家进行特征工程构建,可以大多数特征都是隐藏在数据中的,并且特们是很难通过肉眼或者经验发掘的,这是通过人工就无法构建这些交互特征,这时就需要使用机器学习的方式自动构建捕捉高阶特征交互。
现在有很多广义的线性模型有很好的表现能力,例如FTRL。可是一个线性模型是缺乏捕捉高阶特征交互的能力的,使用线性模型需要专业人士手动构造有实际意义的交互特征。这种方式是很难去泛化那么从未出现过的特征组合。分解机FM对成对的特征交互进行建模,使用它们隐向量对应的内积,这种方法展现出了很好的结果。但是由于它的复杂程度,一般只能够构建二阶交互,太多会导致算法的复杂度大幅上升。
深度神经网络有着强有力的能力学习复杂的特征交互。一些人研究了使用CNN和RNN对CTR预测进行建模,但是基于CNN的模型特别侧重于那些邻域特征之间的交互(感受野),对于基于RNN的模型一般是适用于那些序列数据。
我们能看到现存的一些模型只能捕捉低阶特征或者高阶特征交互,要么就是需要进行特征工程,我们提出的DeepFM不需要任何特征工程,只需要未加工的原始输入数据,我们主要的贡献如下:
- 我们提出了一个新型的网络模型DeepFM集成了FM和DNN的能力,能够同时对低阶和高阶特征交互进行建模,而且不像Wide & Deep,我们的模型不需要进行特征工程
- DeepFM能够高效的被训练,因为它的wide和deep部分共享相同的Embedding向量。
- 我们评估了DeepFM在基准数据和商业的数据上,并且展示出了很好的表现超过了现存的模型对于CTR预测
三、我们的方法
假设数据集中有n个样例
3.1 DeepFM
我们的目标是同时学习高阶和低阶的特征交互,为了这个目的,我们提出了将FMs和DNN进行结合。DeepFM由两个部分组成,FM和DNN部分,它们共享相同的输入。
FM Component
FM部分是一个分解机,他被提出在2010年,为了去学习特征交互对于推荐系统。除了一个线性(order-1)的特征交互,FM还对成对(order-2)的特征进行建模,使用每个特征的隐向量的内积,它能够捕捉二阶的特征交互。
其中
Deep Component
Deep部分是一个前馈神经网络,能够用于学习高阶的特征交互。特征向量首先被喂进神经网络,对于那些图像或者音频它们的数据是连续而且稠密的,但是CTR是非常不同的,这就需要设计出新型的网络结构。CTR的输入向量通常是高度稀疏的而且维度特别高,着九表明了使用一个Embedding层去压缩输入向量到一个低维空间然后喂进网络第一个隐层中,此外神经网络能够过度的训练进而导致模型过拟合。
我们需要指出两个这个网络结构有趣的地方:
- 尽管输入域的向量长度是不同的,但是它们的embedding拥有相同的大小
- FM中的潜在特征向量现在作为网络权重,被学习并用于将输入场向量压缩到嵌入向量中。
值得指出的是,FM组件和deep组件共享相同的特征嵌入,这带来了两个重要的好处:
1)它从原始特征中学习低阶和高阶特征交互;
2) 无需按照广博和深度[Cheng等人,2016]的要求,对输入的专业特性进行工程设计。
3.2 与其他神经网络的关系
受深度学习在各种应用中取得巨大成功的启发,最近开发了几种用于CTR预测的深度模型。本节将建议的DeepFM与现有的用于CTR预测的deep模型进行比较。
FNN
如图(左)所示,FNN是一种FM初始化的前馈神经网络。FM预训练策略有两个局限性:
1)嵌入参数可能受FM的过度影响;
2) 预培训阶段引入的开销降低了效率。此外,FNN仅捕获高阶特征交互。相比之下,DeepFM不需要预先训练,可以学习高阶和低阶特征交互。
PNN
为了捕获高阶特征交互,PNN在嵌入层和第一隐藏层之间施加了一个乘积层。根据不同类型的产品操作有三种变体:IPNN、OPNN和PNN∗, 其中IPNN基于向量的内积,OPNN基于向量的外积,PNN基于向量的内积和外积。与FNN一样,所有PNN都忽略低阶特征交互。
Wide&Deep
Wide&Deep由Google提出,用于同时模拟低阶和高阶功能交互。需要对“宽”部分的输入进行专业功能工程(例如,用户安装应用程序和应用程序推荐中的印象应用程序的交叉产品)。相比之下,DeepFM不需要这样的专业知识来通过直接从输入原始特性学习来处理输入。
该模型的一个直接扩展是将LR替换为FM。此扩展类似于DeepFM,但DeepFM在FM和deep组件之间共享特性嵌入。特征嵌入的共享策略(以反向传播方式)通过低阶和高阶特征交互影响特征表示,从而更精确地建模表示。
总结
综上所述,DeepFM与其他deep模型在四个方面的关系如表1所示。可以看出,DeepFM是唯一一个不需要预训练和特征工程的模型,它可以捕获低阶和高阶特征交互。
References
[Boulanger-Lewandowski et al., 2013] Nicolas BoulangerLewandowski, Yoshua Bengio, and Pascal Vincent. Audio chord recognition with recurrent neural networks. In ISMIR, pages 335–340, 2013.
[Chang et al., 2010] Yin-Wen Chang, Cho-Jui Hsieh, KaiWei Chang, Michael Ringgaard, and Chih-Jen Lin. Training and testing low-degree polynomial data mappings via linear SVM. JMLR, 11:1471–1490, 2010.
[Chen et al., 2016] Junxuan Chen, Baigui Sun, Hao Li, Hongtao Lu, and Xian-Sheng Hua. Deep CTR prediction in display advertising. In MM, 2016.
[Cheng et al., 2016] Heng-Tze Cheng, Levent Koc, Jeremiah Harmsen, Tal Shaked, Tushar Chandra, Hrishi Aradhye, Glen Anderson, Greg Corrado, Wei Chai, Mustafa Ispir, Rohan Anil, Zakaria Haque, Lichan Hong, Vihan Jain, Xiaobing Liu, and Hemal Shah. Wide & deep learning for recommender systems. CoRR, abs/1606.07792, 2016. [Covington et al., 2016] Paul Covington, Jay Adams, and Emre Sargin. Deep neural networks for youtube recommendations. In RecSys, pages 191–198, 2016.
[Graepel et al., 2010] Thore Graepel, Joaquin Quinonero ˜ Candela, Thomas Borchert, and Ralf Herbrich. Webscale bayesian click-through rate prediction for sponsored search advertising in microsoft’s bing search engine. In ICML, pages 13–20, 2010.
[He et al., 2014] Xinran He, Junfeng Pan, Ou Jin, Tianbing Xu, Bo Liu, Tao Xu, Yanxin Shi, Antoine Atallah, Ralf Herbrich, Stuart Bowers, and Joaquin Quinonero Candela. ˜ Practical lessons from predicting clicks on ads at facebook. In ADKDD, pages 5:1–5:9, 2014.
[He et al., 2016] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, pages 770–778, 2016.
[Juan et al., 2016] Yu-Chin Juan, Yong Zhuang, Wei-Sheng Chin, and Chih-Jen Lin. Field-aware factorization machines for CTR prediction. In RecSys, pages 43–50, 2016. [Larochelle et al., 2009] Hugo Larochelle, Yoshua Bengio, Jer´ ome Louradour, and Pascal Lamblin. Exploring strate- ˆ gies for training deep neural networks. JMLR, 10:1–40, 2009.
[Liu et al., 2015] Qiang Liu, Feng Yu, Shu Wu, and Liang Wang. A convolutional click prediction model. In CIKM, 2015.
[McMahan et al., 2013] H. Brendan McMahan, Gary Holt, David Sculley, Michael Young, Dietmar Ebner, Julian Grady, Lan Nie, Todd Phillips, Eugene Davydov, Daniel Golovin, Sharat Chikkerur, Dan Liu, Martin Wattenberg, Arnar Mar Hrafnkelsson, Tom Boulos, and Jeremy Kubica. Ad click prediction: a view from the trenches. In KDD, 2013.
[Qu et al., 2016] Yanru Qu, Han Cai, Kan Ren, Weinan Zhang, Yong Yu, Ying Wen, and Jun Wang. Productbased neural networks for user response prediction. CoRR, abs/1611.00144, 2016.
[Rendle and Schmidt-Thieme, 2010] Steffen Rendle and Lars Schmidt-Thieme. Pairwise interaction tensor factorization for personalized tag recommendation. In WSDM, pages 81–90, 2010.
[Rendle, 2010] Steffen Rendle. Factorization machines. In ICDM, 2010.
[Richardson et al., 2007] Matthew Richardson, Ewa Dominowska, and Robert Ragno. Predicting clicks: estimating the click-through rate for new ads. In WWW, pages 521– 530, 2007.
[Salakhutdinov et al., 2007] Ruslan Salakhutdinov, Andriy Mnih, and Geoffrey E. Hinton. Restricted boltzmann machines for collaborative filtering. In ICML, pages 791–798, 2007.
[Sedhain et al., 2015] Suvash Sedhain, Aditya Krishna Menon, Scott Sanner, and Lexing Xie. Autorec: Autoencoders meet collaborative filtering. In WWW, pages 111–112, 2015.
[Srivastava et al., 2014] Nitish Srivastava, Geoffrey E. Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: a simple way to prevent neural networks from overfitting. JMLR, 15(1):1929–1958, 2014.
[van den Oord et al., 2013] Aaron van den Oord, Sander ¨ Dieleman, and Benjamin Schrauwen. Deep content-based music recommendation. In NIPS, pages 2643–2651, 2013.
[Wang and Wang, 2014] Xinxi Wang and Ye Wang. Improving content-based and hybrid music recommendation using deep learning. In ACM MM, pages 627–636, 2014.
[Wang et al., 2015] Hao Wang, Naiyan Wang, and Dit-Yan Yeung. Collaborative deep learning for recommender systems. In ACM SIGKDD, pages 1235–1244, 2015.
[Wu et al., 2016] Yao Wu, Christopher DuBois, Alice X. Zheng, and Martin Ester. Collaborative denoising autoencoders for top-n recommender systems. In ACM WSDM, pages 153–162, 2016.
[Wu et al., 2017] Chao-Yuan Wu, Amr Ahmed, Alex Beutel, Alexander J. Smola, and How Jing. Recurrent recommender networks. In WSDM, pages 495–503, 2017.
[Zhang et al., 2014] Yuyu Zhang, Hanjun Dai, Chang Xu, Jun Feng, Taifeng Wang, Jiang Bian, Bin Wang, and TieYan Liu. Sequential click prediction for sponsored search with recurrent neural networks. In AAAI, 2014.
[Zhang et al., 2016] Weinan Zhang, Tianming Du, and Jun Wang. Deep learning over multi-field categorical data - - A case study on user response prediction. In ECIR, 2016.
[Zheng et al., 2016] Yin Zheng, Yu-Jin Zhang, and Hugo Larochelle. A deep and autoregressive approach for topic modeling of multimodal data. IEEE Trans. Pattern Anal. Mach. Intell., 38(6):1056–1069, 2016.
[Zheng et al., 2017] Lei Zheng, Vahid Noroozi, and Philip S. Yu. Joint deep modeling of users and items using reviews for recommendation. In WSDM, pages 425–434, 2017.