【推荐系统论文精读系列】(十一)--DeepFM A Factorization-Machine based Neural Network for CTR Prediction

简介: 在推荐系统领域最大化CTR最关键就是要学习用户举止背后复杂的特征交互。尽管现在已经有了一些大的进展,但是现存的方式仍然是只能捕捉低阶或者高阶特征,或者需要专业的特征工程。本篇论文中,我们提出了一种端到端的学习模型,能够同时学习到低阶和高阶的交互特征。我们将这个模型命名为DeepFM,它结合了分解机的能力和深度学习捕捉高阶特征的能力。对比最新谷歌提出的Wide & Deep模型,我们的DeepFM模型不需要任何特征工程,而且会共享特征输入。

@TOC


论文名称:DeepFM:A Factorization-Machine based Neural Network for CTR Prediction
原文地址:DeepFM


⚡本系列历史文章⚡


【推荐系统论文精读系列】(一)--Amazon.com Recommendations
【推荐系统论文精读系列】(二)--Factorization Machines
【推荐系统论文精读系列】(三)--Matrix Factorization Techniques For Recommender Systems
【推荐系统论文精读系列】(四)--Practical Lessons from Predicting Clicks on Ads at Facebook
【推荐系统论文精读系列】(五)--Neural Collaborative Filtering
【推荐系统论文精读系列】(六)--Field-aware Factorization Machines for CTR Prediction
【推荐系统论文精读系列】(七)--AutoRec Autoencoders Meet Collaborative Filtering
【推荐系统论文精读系列】(八)--Deep Crossing:Web-Scale Modeling without Manually Crafted Combinatorial Features
【推荐系统论文精读系列】(九)--Product-based Neural Networks for User Response Prediction
【推荐系统论文精读系列】(十)--Wide&Deep Learning for Recommender Systems
【推荐系统论文精读系列】(十一)--DeepFM A Factorization-Machine based Neural Network for CTR Prediction
【推荐系统论文精读系列】(十二)--Neural Factorization Machines for Sparse Predictive Analytics


一、摘要


在推荐系统领域最大化CTR最关键就是要学习用户举止背后复杂的特征交互。尽管现在已经有了一些大的进展,但是现存的方式仍然是只能捕捉低阶或者高阶特征,或者需要专业的特征工程。本篇论文中,我们提出了一种端到端的学习模型,能够同时学习到低阶和高阶的交互特征。我们将这个模型命名为DeepFM,它结合了分解机的能力和深度学习捕捉高阶特征的能力。对比最新谷歌提出的Wide & Deep模型,我们的DeepFM模型不需要任何特征工程,而且会共享特征输入。


二、介绍


预测点击率是非常重要的在推荐系统中,这个任务就是去评估一个用户是否会点击推荐的事物。在一些推荐系统中,它们的目标就是最大化这个点击率。在一些其它应用场景中例如在线广告,它是很重要的去提升收益,当我们推荐正确的广告给用户,所以很明确正确的CTR是关键的地方。


对于CTR预测关键就是学习用户举止的隐式特征。我们通过研究主流的app商店,我们发现经常发现人们在吃饭的时候下载食物类的app,这就表明了app类别和时间戳之间的交互,这个特征可以作为CTR的一个输入。另外就是,青年男性喜欢射击游戏和RPG游戏,这就意味着app类别和用户的性别和年龄有联系。总的来说,这些用户行为的特征交互是高度复杂的,它们对于CTR预测起着关键的作用。


现在关键的挑战就是有效地对交互特征进行建模,一些交互特征可以很容易的理解,因此这些可以由一些领域专家进行特征工程构建,可以大多数特征都是隐藏在数据中的,并且特们是很难通过肉眼或者经验发掘的,这是通过人工就无法构建这些交互特征,这时就需要使用机器学习的方式自动构建捕捉高阶特征交互。


现在有很多广义的线性模型有很好的表现能力,例如FTRL。可是一个线性模型是缺乏捕捉高阶特征交互的能力的,使用线性模型需要专业人士手动构造有实际意义的交互特征。这种方式是很难去泛化那么从未出现过的特征组合。分解机FM对成对的特征交互进行建模,使用它们隐向量对应的内积,这种方法展现出了很好的结果。但是由于它的复杂程度,一般只能够构建二阶交互,太多会导致算法的复杂度大幅上升。


深度神经网络有着强有力的能力学习复杂的特征交互。一些人研究了使用CNN和RNN对CTR预测进行建模,但是基于CNN的模型特别侧重于那些邻域特征之间的交互(感受野),对于基于RNN的模型一般是适用于那些序列数据。


我们能看到现存的一些模型只能捕捉低阶特征或者高阶特征交互,要么就是需要进行特征工程,我们提出的DeepFM不需要任何特征工程,只需要未加工的原始输入数据,我们主要的贡献如下:


  • 我们提出了一个新型的网络模型DeepFM集成了FM和DNN的能力,能够同时对低阶和高阶特征交互进行建模,而且不像Wide & Deep,我们的模型不需要进行特征工程
  • DeepFM能够高效的被训练,因为它的wide和deep部分共享相同的Embedding向量。
  • 我们评估了DeepFM在基准数据和商业的数据上,并且展示出了很好的表现超过了现存的模型对于CTR预测


三、我们的方法


假设数据集中有n个样例

网络异常,图片无法展示
|
网络异常,图片无法展示
|
是一个m-fields的数据记录,通常包含了用户或者物品的数据,
网络异常,图片无法展示
|
,表明用户是否会点击。
网络异常,图片无法展示
|
包含了类别特征(gender)和连续特征(age) 。对于每个类别特征我们需要使用one-hot进行编码,连续特征就是它们自己本身。通常情况下,
网络异常,图片无法展示
|
是一个高维并且极度稀疏的向量,CTR预测的任务就是构建一个预测函数
网络异常,图片无法展示
|
去评估一个用户是否会对给定的一个app点击的概率。


3.1 DeepFM



我们的目标是同时学习高阶和低阶的特征交互,为了这个目的,我们提出了将FMs和DNN进行结合。DeepFM由两个部分组成,FM和DNN部分,它们共享相同的输入。


网络异常,图片无法展示
|


FM Component



FM部分是一个分解机,他被提出在2010年,为了去学习特征交互对于推荐系统。除了一个线性(order-1)的特征交互,FM还对成对(order-2)的特征进行建模,使用每个特征的隐向量的内积,它能够捕捉二阶的特征交互。


网络异常,图片无法展示
|


其中

网络异常,图片无法展示
|
反映着一阶特征的影响程度,而内积表现了二阶交互特征的影响。


Deep Component



Deep部分是一个前馈神经网络,能够用于学习高阶的特征交互。特征向量首先被喂进神经网络,对于那些图像或者音频它们的数据是连续而且稠密的,但是CTR是非常不同的,这就需要设计出新型的网络结构。CTR的输入向量通常是高度稀疏的而且维度特别高,着九表明了使用一个Embedding层去压缩输入向量到一个低维空间然后喂进网络第一个隐层中,此外神经网络能够过度的训练进而导致模型过拟合。



我们需要指出两个这个网络结构有趣的地方:


  1. 尽管输入域的向量长度是不同的,但是它们的embedding拥有相同的大小
  2. FM中的潜在特征向量现在作为网络权重,被学习并用于将输入场向量压缩到嵌入向量中。


值得指出的是,FM组件和deep组件共享相同的特征嵌入,这带来了两个重要的好处:


1)它从原始特征中学习低阶和高阶特征交互;


2) 无需按照广博和深度[Cheng等人,2016]的要求,对输入的专业特性进行工程设计。


3.2 与其他神经网络的关系



受深度学习在各种应用中取得巨大成功的启发,最近开发了几种用于CTR预测的深度模型。本节将建议的DeepFM与现有的用于CTR预测的deep模型进行比较。


FNN


如图(左)所示,FNN是一种FM初始化的前馈神经网络。FM预训练策略有两个局限性:


1)嵌入参数可能受FM的过度影响;


2) 预培训阶段引入的开销降低了效率。此外,FNN仅捕获高阶特征交互。相比之下,DeepFM不需要预先训练,可以学习高阶和低阶特征交互。


PNN


为了捕获高阶特征交互,PNN在嵌入层和第一隐藏层之间施加了一个乘积层。根据不同类型的产品操作有三种变体:IPNN、OPNN和PNN∗, 其中IPNN基于向量的内积,OPNN基于向量的外积,PNN基于向量的内积和外积。与FNN一样,所有PNN都忽略低阶特征交互。


Wide&Deep


Wide&Deep由Google提出,用于同时模拟低阶和高阶功能交互。需要对“宽”部分的输入进行专业功能工程(例如,用户安装应用程序和应用程序推荐中的印象应用程序的交叉产品)。相比之下,DeepFM不需要这样的专业知识来通过直接从输入原始特性学习来处理输入。


该模型的一个直接扩展是将LR替换为FM。此扩展类似于DeepFM,但DeepFM在FM和deep组件之间共享特性嵌入。特征嵌入的共享策略(以反向传播方式)通过低阶和高阶特征交互影响特征表示,从而更精确地建模表示。


总结



综上所述,DeepFM与其他deep模型在四个方面的关系如表1所示。可以看出,DeepFM是唯一一个不需要预训练和特征工程的模型,它可以捕获低阶和高阶特征交互。


References


[Boulanger-Lewandowski et al., 2013] Nicolas BoulangerLewandowski, Yoshua Bengio, and Pascal Vincent. Audio chord recognition with recurrent neural networks. In ISMIR, pages 335–340, 2013.


[Chang et al., 2010] Yin-Wen Chang, Cho-Jui Hsieh, KaiWei Chang, Michael Ringgaard, and Chih-Jen Lin. Training and testing low-degree polynomial data mappings via linear SVM. JMLR, 11:1471–1490, 2010.


[Chen et al., 2016] Junxuan Chen, Baigui Sun, Hao Li, Hongtao Lu, and Xian-Sheng Hua. Deep CTR prediction in display advertising. In MM, 2016.


[Cheng et al., 2016] Heng-Tze Cheng, Levent Koc, Jeremiah Harmsen, Tal Shaked, Tushar Chandra, Hrishi Aradhye, Glen Anderson, Greg Corrado, Wei Chai, Mustafa Ispir, Rohan Anil, Zakaria Haque, Lichan Hong, Vihan Jain, Xiaobing Liu, and Hemal Shah. Wide & deep learning for recommender systems. CoRR, abs/1606.07792, 2016. [Covington et al., 2016] Paul Covington, Jay Adams, and Emre Sargin. Deep neural networks for youtube recommendations. In RecSys, pages 191–198, 2016.


[Graepel et al., 2010] Thore Graepel, Joaquin Quinonero ˜ Candela, Thomas Borchert, and Ralf Herbrich. Webscale bayesian click-through rate prediction for sponsored search advertising in microsoft’s bing search engine. In ICML, pages 13–20, 2010.


[He et al., 2014] Xinran He, Junfeng Pan, Ou Jin, Tianbing Xu, Bo Liu, Tao Xu, Yanxin Shi, Antoine Atallah, Ralf Herbrich, Stuart Bowers, and Joaquin Quinonero Candela. ˜ Practical lessons from predicting clicks on ads at facebook. In ADKDD, pages 5:1–5:9, 2014.


[He et al., 2016] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In CVPR, pages 770–778, 2016.


[Juan et al., 2016] Yu-Chin Juan, Yong Zhuang, Wei-Sheng Chin, and Chih-Jen Lin. Field-aware factorization machines for CTR prediction. In RecSys, pages 43–50, 2016. [Larochelle et al., 2009] Hugo Larochelle, Yoshua Bengio, Jer´ ome Louradour, and Pascal Lamblin. Exploring strate- ˆ gies for training deep neural networks. JMLR, 10:1–40, 2009.


[Liu et al., 2015] Qiang Liu, Feng Yu, Shu Wu, and Liang Wang. A convolutional click prediction model. In CIKM, 2015.


[McMahan et al., 2013] H. Brendan McMahan, Gary Holt, David Sculley, Michael Young, Dietmar Ebner, Julian Grady, Lan Nie, Todd Phillips, Eugene Davydov, Daniel Golovin, Sharat Chikkerur, Dan Liu, Martin Wattenberg, Arnar Mar Hrafnkelsson, Tom Boulos, and Jeremy Kubica. Ad click prediction: a view from the trenches. In KDD, 2013.


[Qu et al., 2016] Yanru Qu, Han Cai, Kan Ren, Weinan Zhang, Yong Yu, Ying Wen, and Jun Wang. Productbased neural networks for user response prediction. CoRR, abs/1611.00144, 2016.


[Rendle and Schmidt-Thieme, 2010] Steffen Rendle and Lars Schmidt-Thieme. Pairwise interaction tensor factorization for personalized tag recommendation. In WSDM, pages 81–90, 2010.


[Rendle, 2010] Steffen Rendle. Factorization machines. In ICDM, 2010.


[Richardson et al., 2007] Matthew Richardson, Ewa Dominowska, and Robert Ragno. Predicting clicks: estimating the click-through rate for new ads. In WWW, pages 521– 530, 2007.


[Salakhutdinov et al., 2007] Ruslan Salakhutdinov, Andriy Mnih, and Geoffrey E. Hinton. Restricted boltzmann machines for collaborative filtering. In ICML, pages 791–798, 2007.


[Sedhain et al., 2015] Suvash Sedhain, Aditya Krishna Menon, Scott Sanner, and Lexing Xie. Autorec: Autoencoders meet collaborative filtering. In WWW, pages 111–112, 2015.


[Srivastava et al., 2014] Nitish Srivastava, Geoffrey E. Hinton, Alex Krizhevsky, Ilya Sutskever, and Ruslan Salakhutdinov. Dropout: a simple way to prevent neural networks from overfitting. JMLR, 15(1):1929–1958, 2014.


[van den Oord et al., 2013] Aaron van den Oord, Sander ¨ Dieleman, and Benjamin Schrauwen. Deep content-based music recommendation. In NIPS, pages 2643–2651, 2013.


[Wang and Wang, 2014] Xinxi Wang and Ye Wang. Improving content-based and hybrid music recommendation using deep learning. In ACM MM, pages 627–636, 2014.


[Wang et al., 2015] Hao Wang, Naiyan Wang, and Dit-Yan Yeung. Collaborative deep learning for recommender systems. In ACM SIGKDD, pages 1235–1244, 2015.


[Wu et al., 2016] Yao Wu, Christopher DuBois, Alice X. Zheng, and Martin Ester. Collaborative denoising autoencoders for top-n recommender systems. In ACM WSDM, pages 153–162, 2016.


[Wu et al., 2017] Chao-Yuan Wu, Amr Ahmed, Alex Beutel, Alexander J. Smola, and How Jing. Recurrent recommender networks. In WSDM, pages 495–503, 2017.


[Zhang et al., 2014] Yuyu Zhang, Hanjun Dai, Chang Xu, Jun Feng, Taifeng Wang, Jiang Bian, Bin Wang, and TieYan Liu. Sequential click prediction for sponsored search with recurrent neural networks. In AAAI, 2014.


[Zhang et al., 2016] Weinan Zhang, Tianming Du, and Jun Wang. Deep learning over multi-field categorical data - - A case study on user response prediction. In ECIR, 2016.


[Zheng et al., 2016] Yin Zheng, Yu-Jin Zhang, and Hugo Larochelle. A deep and autoregressive approach for topic modeling of multimodal data. IEEE Trans. Pattern Anal. Mach. Intell., 38(6):1056–1069, 2016.


[Zheng et al., 2017] Lei Zheng, Vahid Noroozi, and Philip S. Yu. Joint deep modeling of users and items using reviews for recommendation. In WSDM, pages 425–434, 2017.

目录
相关文章
|
6月前
|
设计模式 搜索推荐 测试技术
电影推荐系统的设计与实现(论文+系统)_kaic
电影推荐系统的设计与实现(论文+系统)_kaic
|
机器学习/深度学习 搜索推荐 算法
基于协同过滤的旅游推荐系统设计与实现(论文+源码)_kaic
摘要:旅游已经成为了大众节假日放松的主要方式,但因为不熟悉旅游地点带来的选择困难却是不可避免的。随着旅游业的发展旅游行业越来越信息化,用户获取旅游景点信息更加方便。然而,用户在选择旅游目的地时,往往会面对海量的景点信息,这导致他们难以找到适合自己的景点,同时也费时费力 。数量众多的旅游景点存在着信息过载现象且日益严重,用户在网上查找时很难真正搜索到自己感兴趣的旅游景点,对此推荐系统是一种行之有效的解决方法。目前推荐系统已在电影、新闻、音乐、电子商务等方面应用广泛,但在旅游领域还未广泛使用。各大旅游网站多是提供信息查询及订票服务,因此本文将协同过滤算法应用于旅游景点的推荐。
|
机器学习/深度学习 人工智能 自然语言处理
深度学习应用篇-推荐系统[12]:经典模型-DeepFM模型、DSSM模型召回排序策略以及和其他模型对比
深度学习应用篇-推荐系统[12]:经典模型-DeepFM模型、DSSM模型召回排序策略以及和其他模型对比
深度学习应用篇-推荐系统[12]:经典模型-DeepFM模型、DSSM模型召回排序策略以及和其他模型对比
|
SQL 存储 搜索推荐
基于线上考研资讯数据抓取的推荐系统的设计与实现(论文+源码)_kaic
随着互联网的飞速发展,互联网在各行各业的应用迅速成为众多学校关注的焦点。他们利用互联网提供电子商务服务,然后有了“考研信息平台”,这将使学生考研的信息平台更加方便和简单。 对于考研信息平台的设计,大多采用java技术。在设计了一个搭载mysal数据库的全人系统,是根据目前网上考研信息平台的情况,专门开发的,专门根据学生的需要,实现网上考研信息平台的在线管理,并定期进行各种信息存储,进入考研信息平台页面后,即可开始操作主控界面。系统功能包括学生前台:首页、考研信息、申请指南、资料信息、论坛信息、我的、跳转到后台、购物车、客服、管理员:首页、人人中心、研究生信息管理、学生管理、申请指南管理、资料信
|
搜索推荐 安全 关系型数据库
基于知识图谱的个性化学习资源推荐系统的设计与实现(论文+源码)_kaic
最近几年来,伴随着教育信息化、个性化教育和K12之类的新观念提出,一如既往的教育方法向信息化智能化的转变,学生群体都对这种不受时间和地点约束的学习方式有浓厚的兴趣。而现在市面上存在的推荐系统给学生推荐资料时不符合学生个人对知识获取的需求情况,以至于推荐效果差强人意。与此同时,这种信息数字化的新学习方法在给学生群体带来方便的同时,也带来了很多其他的问题,例如信息冗杂、形式让人眼花缭乱的问题,导致系统检索变得难以运行。 解决问题的关键是个性化学习推荐系统,它适合于各式各样的用户产生的各式各样的需求。
|
人工智能 搜索推荐 算法
AAAI 2023杰出论文一作分享:新算法加持的大批量学习加速推荐系统训练
AAAI 2023杰出论文一作分享:新算法加持的大批量学习加速推荐系统训练
293 0
|
3月前
|
搜索推荐 前端开发 数据可视化
【优秀python web毕设案例】基于协同过滤算法的酒店推荐系统,django框架+bootstrap前端+echarts可视化,有后台有爬虫
本文介绍了一个基于Django框架、协同过滤算法、ECharts数据可视化以及Bootstrap前端技术的酒店推荐系统,该系统通过用户行为分析和推荐算法优化,提供个性化的酒店推荐和直观的数据展示,以提升用户体验。
152 1
|
5月前
|
搜索推荐 算法 小程序
基于Java协同过滤算法的电影推荐系统设计和实现(源码+LW+调试文档+讲解等)
基于Java协同过滤算法的电影推荐系统设计和实现(源码+LW+调试文档+讲解等)
|
5月前
|
搜索推荐 算法 小程序
基于Java协同过滤算法的图书推荐系统设计和实现(源码+LW+调试文档+讲解等)
基于Java协同过滤算法的图书推荐系统设计和实现(源码+LW+调试文档+讲解等)
|
3月前
|
搜索推荐 前端开发 数据可视化
基于Python协同过滤的旅游景点推荐系统,采用Django框架,MySQL数据存储,Bootstrap前端,echarts可视化实现
本文介绍了一个基于Python协同过滤算法的旅游景点推荐系统,该系统采用Django框架、MySQL数据库、Bootstrap前端和echarts数据可视化技术,旨在为用户提供个性化的旅游推荐服务,提升用户体验和旅游市场增长。
277 9
基于Python协同过滤的旅游景点推荐系统,采用Django框架,MySQL数据存储,Bootstrap前端,echarts可视化实现

热门文章

最新文章