【推荐系统论文精读系列】(七)--AutoRec Autoencoders Meet Collaborative Filtering

简介: 本文提出了AutoRec,一个用于协同过滤的新型自动编码器框架。根据经验,AutoRec对于模型的影响和训练效率已经超过了现在基于协同过滤技术的大多数先进模型。

@TOC


论文名称:AutoRec: Autoencoders Meet Collaborative Filtering
原文地址:AutoRec


⚡本系列历史文章⚡


【推荐系统论文精读系列】(一)--Amazon.com Recommendations
【推荐系统论文精读系列】(二)--Factorization Machines
【推荐系统论文精读系列】(三)--Matrix Factorization Techniques For Recommender Systems
【推荐系统论文精读系列】(四)--Practical Lessons from Predicting Clicks on Ads at Facebook
【推荐系统论文精读系列】(五)--Neural Collaborative Filtering
【推荐系统论文精读系列】(六)--Field-aware Factorization Machines for CTR Prediction
【推荐系统论文精读系列】(七)--AutoRec Autoencoders Meet Collaborative Filtering
【推荐系统论文精读系列】(八)--Deep Crossing:Web-Scale Modeling without Manually Crafted Combinatorial Features
【推荐系统论文精读系列】(九)--Product-based Neural Networks for User Response Prediction
【推荐系统论文精读系列】(十)--Wide&Deep Learning for Recommender Systems
【推荐系统论文精读系列】(十一)--DeepFM A Factorization-Machine based Neural Network for CTR Prediction
【推荐系统论文精读系列】(十二)--Neural Factorization Machines for Sparse Predictive Analytics


一、摘要


本文提出了AutoRec,一个用于协同过滤的新型自动编码器框架。根据经验,AutoRec对于模型的影响和训练效率已经超过了现在基于协同过滤技术的大多数先进模型。


二、介绍


协同过滤(CF)模型的目的是利用用户对物品的偏好信息(如星级评价)来提供个性化推荐。
来提供个性化的推荐。由于Netflix的挑战,各种不同的CF模型已经被提出,流行的选择是矩阵分解和邻域模型。本文提出了AutoRec,一个基于自动编码器范式的新CF模型;我们对这个范式的兴趣源于最近视觉和语音任务的深度神经网络模型的成功。我们认为,与现有的神经网络模型相比,AutoRec具有表征和计算方面的优势。并通过经验证明它,胜过目前最先进的方法。


三、AUTOREC模型


在协同过滤中,我们假设有m个用户,n个物品,并且我们还会有个观测到的用户评分矩阵(共现矩阵),其维度为

网络异常,图片无法展示
|
。对于每个用户 u 能够被一个向量表达为
网络异常,图片无法展示
|
,同样,每个物品也能够被一组向量所表达
网络异常,图片无法展示
|
。我们在这项工作的目的就是设计一个基于物品的自动编码器,这个编码器可以将每个观测到的向量
网络异常,图片无法展示
|
作为输入,然后将他们投影到一个低纬度的隐层,然后在输出空间重建  
网络异常,图片无法展示
|
,由此来预测缺失的评分,以达到推荐的目的。


优化的目标为:


网络异常,图片无法展示
|


其中

网络异常,图片无法展示
|
代表输入的特征向量,
网络异常,图片无法展示
|
代表经过模型最后输出的向量,autoRec的目的就是通过网络拟合一组参数,能够在输出层输出的向量尽可能于输入的向量相似,所以这里采用平方损失误差作为衡量指标。



此网络模型的正向传播函数为:


网络异常,图片无法展示
|


其中

网络异常,图片无法展示
|
分别代表每一层的激活函数,W是输出层的权重,维度为 (m,k),V是隐层的权重,维度为(k,m),
网络异常,图片无法展示
|
是模型的输入向量,就是我们共现矩阵的某一列,其维度为(m,1),
网络异常,图片无法展示
|
分别是每一层的偏置,维度分别为(m,1)和(k,1)。


其中W和V权重参数可以通过使用反向传播进行学习。


首先,我们考虑到每个R都被部分观察到的事实,在反向传播过程中只更新与之相关的权重。在反向传播过程中只更新那些与观察到的输入有关的权重。与观察到的输入相关的权重,这在矩阵分解和RBM方法中是很常见的。其次,我们对学习到的参数进行规范化处理,以防止对观察到的评级进行过度拟合。


模型的优化方程为:


网络异常,图片无法展示
|


基于协同过滤的AutoRec的模型参数为:

网络异常,图片无法展示
|
,首先在隐层我们会有
网络异常,图片无法展示
|
,所以参数个数为
网络异常,图片无法展示
|
个, 在输出层会有
网络异常,图片无法展示
|
,参数个数为
网络异常,图片无法展示
|


四、实验评估


在Movielens 1M、10M和Netflix数据集上。我们对测试用户或没有训练观察的项目使用默认的3级评分,没有训练观察值。我们将数据随机分成90%-10%的训练-测试集,并留出10%的训练集用于超参数调整。我们重复这个拆分过程程序5次,并报告平均RMSE。每个实验中RMSE的95%置信区间为±0.003或更小。对于所有基线,我们调整了正则化强度

网络异常,图片无法展示
|
和适当的潜在维度
网络异常,图片无法展示
|

训练自动编码器的一个挑战是目标的非凸性。我们发现弹性传播的性能与L-BFV相当。弹性传播的性能与L-BFGS相当,而速度却更快。因此,我们在随后的所有实验中使用RProp。


  • 基于项目的自动编码和基于用户的自动编码,哪个更好?与RBMs或AutoRec哪个更好?表1a显示了基于项目的RBM和AutoRec的方法通常表现更好。这可能是因为每个项目的平均评级数比每个用户的评级数要多得多,用户评分的高差异导致基于用户的方法的预测不太可靠。




  • AutoRec的性能是如何随隐藏单元的数量变化的?隐藏单元的数量有什么不同?
    在图2中,我们评估了AutoRec模型的性能随着隐藏单元数量的变化而变化。我们注意到,性能随着隐藏单元数量的增加而稳步上升,但收益却在不断减少。所有其他AutoRec实验都使用k = 500。
  • AutoRec对所有基线的表现如何?
    表1c显示,AutoRec的表现除了在Movielens 10M上与LLORMA有可比性的结果外,其他基线的表现都很好。Movielens 10M. 与LLORMA的竞争性表现是的竞争性能是值得关注的,因为后者需要对50个不同的局部矩阵分解模型进行加权。而AutoRec只通过一个神经网络自动编码器使用一个潜在的表示。我们开发了一个I-AutoRec的深度版本,有三个隐藏层(500,250,500)个单元,每个单元都有一个sigmoid激活。我们使用了贪婪的预训练,然后通过梯度下降进行微调。在Movielens 1M上,RMSE从0.831降低到0.827,表明通过深度AutoRec有可能进一步改善。



References


[1] Y. Koren, R. Bell, and C. Volinsky. Matrix factorization techniques for recommender systems. Computer, 42, 2009.


[2] J. Lee, S. Kim, G. Lebanon, and Y. Singer. Local low-rank matrix approximation. In ICML, 2013.


[3] M. Riedmiller and H. Braun. A direct adaptive method for faster backpropagation learning: the rprop algorithm. In IEEE International Conference on Neural Networks, 1993.


[4] R. Salakhutdinov, A. Mnih, and G. Hinton. Restricted Boltzmann machines for collaborative filtering. In ICML, 2007.


[5] B. Sarwar, G. Karypis, J. Konstan, and J. Riedl. Item-based collaborative filtering recommendation algorithms. In WWW, 2001.

目录
相关文章
|
7月前
|
设计模式 搜索推荐 测试技术
电影推荐系统的设计与实现(论文+系统)_kaic
电影推荐系统的设计与实现(论文+系统)_kaic
|
机器学习/深度学习 搜索推荐 算法
基于协同过滤的旅游推荐系统设计与实现(论文+源码)_kaic
摘要:旅游已经成为了大众节假日放松的主要方式,但因为不熟悉旅游地点带来的选择困难却是不可避免的。随着旅游业的发展旅游行业越来越信息化,用户获取旅游景点信息更加方便。然而,用户在选择旅游目的地时,往往会面对海量的景点信息,这导致他们难以找到适合自己的景点,同时也费时费力 。数量众多的旅游景点存在着信息过载现象且日益严重,用户在网上查找时很难真正搜索到自己感兴趣的旅游景点,对此推荐系统是一种行之有效的解决方法。目前推荐系统已在电影、新闻、音乐、电子商务等方面应用广泛,但在旅游领域还未广泛使用。各大旅游网站多是提供信息查询及订票服务,因此本文将协同过滤算法应用于旅游景点的推荐。
|
SQL 存储 搜索推荐
基于线上考研资讯数据抓取的推荐系统的设计与实现(论文+源码)_kaic
随着互联网的飞速发展,互联网在各行各业的应用迅速成为众多学校关注的焦点。他们利用互联网提供电子商务服务,然后有了“考研信息平台”,这将使学生考研的信息平台更加方便和简单。 对于考研信息平台的设计,大多采用java技术。在设计了一个搭载mysal数据库的全人系统,是根据目前网上考研信息平台的情况,专门开发的,专门根据学生的需要,实现网上考研信息平台的在线管理,并定期进行各种信息存储,进入考研信息平台页面后,即可开始操作主控界面。系统功能包括学生前台:首页、考研信息、申请指南、资料信息、论坛信息、我的、跳转到后台、购物车、客服、管理员:首页、人人中心、研究生信息管理、学生管理、申请指南管理、资料信
|
搜索推荐 安全 关系型数据库
基于知识图谱的个性化学习资源推荐系统的设计与实现(论文+源码)_kaic
最近几年来,伴随着教育信息化、个性化教育和K12之类的新观念提出,一如既往的教育方法向信息化智能化的转变,学生群体都对这种不受时间和地点约束的学习方式有浓厚的兴趣。而现在市面上存在的推荐系统给学生推荐资料时不符合学生个人对知识获取的需求情况,以至于推荐效果差强人意。与此同时,这种信息数字化的新学习方法在给学生群体带来方便的同时,也带来了很多其他的问题,例如信息冗杂、形式让人眼花缭乱的问题,导致系统检索变得难以运行。 解决问题的关键是个性化学习推荐系统,它适合于各式各样的用户产生的各式各样的需求。
|
机器学习/深度学习 搜索推荐 TensorFlow
【推荐系统】TensorFlow复现论文Wide&Deep网络结构
【推荐系统】TensorFlow复现论文Wide&Deep网络结构
232 0
【推荐系统】TensorFlow复现论文Wide&Deep网络结构
|
人工智能 搜索推荐 算法
AAAI 2023杰出论文一作分享:新算法加持的大批量学习加速推荐系统训练
AAAI 2023杰出论文一作分享:新算法加持的大批量学习加速推荐系统训练
299 0
|
搜索推荐 TensorFlow 数据处理
【推荐系统】TensorFlow复现论文PNN网络结构
【推荐系统】TensorFlow复现论文PNN网络结构
127 0
【推荐系统】TensorFlow复现论文PNN网络结构
|
4月前
|
搜索推荐 前端开发 数据可视化
【优秀python web毕设案例】基于协同过滤算法的酒店推荐系统,django框架+bootstrap前端+echarts可视化,有后台有爬虫
本文介绍了一个基于Django框架、协同过滤算法、ECharts数据可视化以及Bootstrap前端技术的酒店推荐系统,该系统通过用户行为分析和推荐算法优化,提供个性化的酒店推荐和直观的数据展示,以提升用户体验。
170 1
【优秀python web毕设案例】基于协同过滤算法的酒店推荐系统,django框架+bootstrap前端+echarts可视化,有后台有爬虫
|
6月前
|
搜索推荐 算法 小程序
基于Java协同过滤算法的电影推荐系统设计和实现(源码+LW+调试文档+讲解等)
基于Java协同过滤算法的电影推荐系统设计和实现(源码+LW+调试文档+讲解等)
|
6月前
|
搜索推荐 算法 小程序
基于Java协同过滤算法的图书推荐系统设计和实现(源码+LW+调试文档+讲解等)
基于Java协同过滤算法的图书推荐系统设计和实现(源码+LW+调试文档+讲解等)