@TOC
论文名称:Content-Aware Collaborative Music Recommendation Using Pre-trained Neural Networks
原文地址:基于预训练神经网络的内容感知协同音乐推荐
⚡本系列历史文章⚡
【推荐系统论文精读系列】(一)--Amazon.com Recommendations
【推荐系统论文精读系列】(二)--Factorization Machines
【推荐系统论文精读系列】(三)--Matrix Factorization Techniques For Recommender Systems
【推荐系统论文精读系列】(四)--Practical Lessons from Predicting Clicks on Ads at Facebook
【推荐系统论文精读系列】(五)--Neural Collaborative Filtering
【推荐系统论文精读系列】(六)--Field-aware Factorization Machines for CTR Prediction
【推荐系统论文精读系列】(七)--AutoRec Autoencoders Meet Collaborative Filtering
【推荐系统论文精读系列】(八)--Deep Crossing:Web-Scale Modeling without Manually Crafted Combinatorial Features
【推荐系统论文精读系列】(九)--Product-based Neural Networks for User Response Prediction
【推荐系统论文精读系列】(十)--Wide&Deep Learning for Recommender Systems
【推荐系统论文精读系列】(十一)--DeepFM A Factorization-Machine based Neural Network for CTR Prediction
一、摘要
虽然内容是我们音乐收听喜好的基础,但音乐推荐的领先性能是通过基于协作过滤的方法实现的,这种方法利用了用户收听历史中的相似模式,而不是歌曲的音频内容。与此同时,协同过滤有一个众所周知的“冷启动”问题,也就是说,它无法处理没有人听过的新歌。将内容信息整合到协作过滤方法的努力在许多非音乐应用中都取得了成功,比如科学文章推荐。受相关工作的启发,我们将语义标签信息训练成一个神经网络作为内容模型,并将其作为协作过滤模型的先决条件。这样的系统仍然允许用户监听数据“为自己说话”。在百万歌曲数据集上进行了测试,结果表明该系统比协同过滤方法有更好的效果,并且在冷启动情况下具有良好的性能。
注解:协同过滤是基于共现矩阵(评分矩阵)进行计算,但是对于新的用户或者物品,它们没有任何历史行为或者数据,导致在这个矩阵中没有任何交互信息,会导致冷启动的问题。
而基于内容会将这个音乐的自身信息或者标签等训练成一个Embedding向量,然后基于这个向量寻找于它相似的音乐,这样对于一个新的音乐我们只需要计算出它的Embedding向量即可。
二、引言
音乐推荐是音乐信息检索中的一项重要而又困难的工作。一个能够准确预测用户的听力偏好的推荐系统具有巨大的商业价值。然而,由于音乐数据的复杂性和高维性以及用户反馈的稀缺性,使得成功的音乐推荐系统难以实现。
推荐中存在两种主要的方法:协作过滤和基于内容的方法。对于音乐,最先进的推荐结果是通过协作过滤方法实现的,这种方法只需要用户的收听历史信息,而不需要推荐音乐内容。该模型的核心假设是,用户很可能会接受与自己品味相似的用户喜欢的歌曲。协同过滤方法的一个主要类别是基于潜在因素模型。它假设用户和歌曲都存在低维表示,这样用户和歌曲之间的兼容性,作为他们在这个潜在空间中的内部产品,预测了用户对歌曲的喜爱。在用户反馈是隐式的情况下(例如,用户是否听过某首歌),Hu等人的加权矩阵分解效果特别好。关于协作过滤的细节将在2.1节中进一步讨论。另一方面,由于音乐数据的结构复杂性,用简单的模型很难捕捉音乐内容,因此很难对音乐内容进行味觉预测建模。深度学习从原始数据中提取层次表示的能力在各种模式识别任务中显示了其强大的能力。在音乐推荐中,van den Oord et al.用神经网络从音乐内容中预测歌曲的潜在表征。在推荐中结合协作过滤和内容模型来利用不同的信息源是很自然的。
注解:对于音乐来说,它的数据结构相对较为复杂,我们很难将一首音乐直接做成可以利用的特征数据,因为不同的音乐有不同的性质,而且还需要考虑乐律在内,导致一般的模型很难进行捕捉。
Wang和Blei成功地将文章内容模型与协同过滤相结合,在科学文章推荐方面取得了良好的效果。受上述启发,我们创建了一个内容感知的协同音乐推荐系统。顾名思义,系统有两个组件:内容模型和协作过滤模型。为了获得一个功能强大的内容模型,我们预先训练一个多层神经网络,从矢量量化的声学特征中预测语义标签。最后一个隐藏层的输出被视为音乐内容的高级表示,在协作过滤中用作歌曲潜在表示的先验。我们在百万歌曲数据集上对我们的系统进行了评估,显示了与最先进的系统相比的竞争力。
三、相关工作
首先,我们概述了用于推荐的矩阵分解模型,特别是用于隐式反馈的推荐模型。在此基础上,提出了两种与本文内容推荐密切相关的模型:基于协同主题的文章推荐模型和基于深度内容的音乐推荐模型。
3.1 通过矩阵分解进行推荐
一种广泛使用的推荐方法是协同过滤,即根据具有相似商品消费模式的其他用户向某个用户推荐商品。基于矩阵分解的潜在因素模型是最成功的协同过滤方法之一。
在矩阵分解推荐模型中,我们将用户和商品都表示在一个共享的低维空间中,这个空间的维度为K,即
3.2 协同主题模型
由于其内容无关的性质,协作过滤方法可以应用于广泛的领域。它们在所谓的“矩阵内预测”(in-matrix prediction)方面表现良好,即推荐一些用户已经消费过的商品。然而,这种方法存在一个众所周知的问题,即它无法推荐没有用户消费过的新道具,也无法做出矩阵外的预测,基于内容的模型更适合的地方。为了将内容整合到协作过滤中,已经做了很多努力。Wang和Blei提出了一种用于科学论文推荐的协同主题回归(CTR)模型,该模型与我们提出的方法密切相关。
将我们的方法与协作主题模型区分开来的主要区别是内容模型。LDA作为一种特征提取方法,由于其双线性特性,只能产生线性因子。另一方面,系统中使用的多层神经网络能够捕获特征空间中的非线性。
3.3 深度学习基于内容推荐
之前的基于内容的音乐推荐尝试已经取得了很好的效果。van den Oord等人的利用神经网络将声学特征映射到从加权矩阵分解中学习到的歌曲潜在因素。因此,假设有一首没有人听过的新歌,仍然可以从网络中预测潜在的因素,推荐可以像常规的协作过滤模型一样以同样的方式完成。
我们的方法与这个方法非常相似,但我们将指出两个主要的区别:
- 首先,神经网络用于不同的目的。我们将它用作内容特征提取器,就像协作主题模型中的LDA一样。神经网络将内容直接映射到从纯协作过滤中学习到的潜在因素,并且预期得到的模型在没有使用数据的情况下也会与协作过滤运行类似。
- 由于训练神经网络将内容映射到加权矩阵分解学习到的潜在因素,性能不太可能超过加权矩阵分解。另一方面,我们在本文中提出的是将内容作为加权矩阵分解的补充,其方式与第2.2节中描述的协作主题模型类似。正如我们在实验中所展示的,当我们只有有限的用户反馈时,我们能够获得比加权矩阵分解更好的结果
Preferences
[1] Thierry Bertin-Mahieux, Daniel P.W. Ellis, Brian Whitman, and Paul Lamere. The Million Song Dataset. In ISMIR, 2011.
[2] David M. Blei, Andrew Y. Ng, and Michael I. Jordan. Latent Dirichlet allocation. the Journal of machine Learning research, 3:993–1022, 2003.
[3] John Duchi, Elad Hazan, and Yoram Singer. Adaptive subgradient methods for online learning and stochastic optimization. The Journal of Machine Learning Research, 12:2121–2159, 2011.
[4] Prem Gopalan, Jake M. Hofman, and David M. Blei. Scalable recommendation with poisson factorization. arXiv preprint arXiv:1311.1704, 2013.
[5] Prem K. Gopalan, Laurent Charlin, and David Blei. Content-based recommendations with Poisson factorization. In Advances in Neural Information Processing Systems 27, pages 3176–3184. 2014. 300 Proceedings of the 16th ISMIR Conference, M´alaga, Spain, October 26-30, 2015
[6] Yifan Hu, Yehuda Koren, and Chris Volinsky. Collaborative filtering for implicit feedback datasets. In Data Mining, 2008. ICDM’08. Eighth IEEE International Conference on, pages 263–272. IEEE, 2008.
[7] Kalervo Jarvelin and Jaana Kek ¨ al¨ ainen. Cumulated ¨ gain-based evaluation of IR techniques. ACM Transactions on Information Systems (TOIS), 20(4):422–446, 2002.
f IR techniques. ACM Transactions on Information Systems (TOIS), 20(4):422–446, 2002.
[8] Yehuda Koren, Robert Bell, and Chris Volinsky. Matrix factorization techniques for recommender systems. Computer, (8):30–37, 2009.