协同过滤算法—MovieLense数据集分析

简介: R的recommenderlab包可以实现协同过滤算法。这个包中有许多关于推荐算法建立、处理及可视化的函数。

R的recommenderlab包可以实现协同过滤算法。这个包中有许多关于推荐算法建立、处理及可视化的函数。


本文任务:选用recommenderlab包中内置的MovieLense数据集进行分析,该数据集收集了网站MovieLens(movielens.umn.edu)从1997年9月19日到1998年4月22日的数据,包括943名用户对1664部电影的评分。


library(recommenderlab)library(ggplot2)

02. 数据处理与探索性

data(MovieLense)image(MovieLense)

)ZKA1T44LM)H1~3~1`00L~E.png

# 获取评分ratings.movie <- data.frame(ratings = getRatings(MovieLense))summary(ratings.movie$ratings)
ggplot(ratings.movie, aes(x = ratings)) +   geom_histogram(fill = "beige", color = "black",    binwidth = 1, alpha = 0.7) + xlab("rating") + ylab("count")


FW``I26G03F@(5UP9BIE)D3.png


利用summary()获取评分数据,可知最大值为5,最小值为1,平均值为3.53。并将其柱状图进行绘制,如下所示。

)1XC93KXGWJNOOJ`QIO]6[Q.png


数据标准化:在进行数据分析前,利用normalize()我们将数据进行标准化,并进行绘制。

atings.movie1 <- data.frame(ratings =     getRatings(normalize(MovieLense, method = "Z-score")))summary(ratings.movie1$ratings)##    Min. 1st Qu.  Median    Mean 3rd Qu.    Max.##  -4.852  -0.647   0.108   0.000   0.751   4.128ggplot(ratings.movie1, aes(x = ratings)) +   geom_histogram(fill = "beige", color = "black",    alpha = 0.7) + xlab("rating") + ylab("count")


用户的电影点评数:我们还对用户的电影点评数进行描述性分析,具体结果如下所示。

movie.count <- data.frame(count = rowCounts(MovieLense))ggplot(movie.count, aes(x = count)) +   geom_histogram(fill = "beige", color = "black",    alpha = 0.7) + xlab("counts of users") + ylab("counts of movies rated")


rating.mean <- data.frame(rating = colMeans(MovieLense))ggplot(rating.mean, aes(x = rating)) +   geom_histogram(fill = "beige", color = "black",    alpha = 0.7) + xlab("rating") + ylab("counts of movies ")


G6Z%9PAO3Y%DLE]IUE(9[JS.png


03. 建立推荐模型与模型评估

对于realRatingMatrix有六种方法:IBCF(基于物品的推荐)、UBCF(基于用户的推荐)、SVD(矩阵因子化)、PCA(主成分分析)、 RANDOM(随机推荐)、POPULAR(基于流行度的推荐)。


模型评估主要使用:recommenderlab包中自带的评估方案,对应的函数是evaluationScheme,能够设置采用n-fold交叉验证还是简单的training/train分开验证,本文采用后一种方法,即将数据集简单分为training和test,在training训练模型,然后在test上评估。接下来我们使用三种不同技术进行构建推荐系统,并利用评估方案比较三种技术的好坏。

library(recommenderlab)data(MovieLense)scheme <- evaluationScheme(MovieLense, method = "split",  train = 0.9, k = 1,  given = 10, goodRating = 4)algorithms <- list(popular = list(name = "POPULAR",  param = list(normalize = "Z-score")),    ubcf = list(name = "UBCF", param = list(normalize = "Z-score",      method = "Cosine",nn = 25, minRating = 3)),  ibcf = list(name = "IBCF", param = list(normalize = "Z-score")))results <- evaluate(scheme, algorithms, n = c(1, 3, 5, 10, 15, 20))


$49`W@_WD7C]WZF~~GC)C@7.png

plot(results, annotate = 1:3, legend = "topleft") #ROC

image.gif

]PBY~J16F2}MRRP}SN1BKWB.png


plot(results, "prec/rec", annotate = 3)#precision-recall

MW{C[7K604AB(90VV$UNQB3.png

按照评价方案建立推荐模型

model.popular <- Recommender(getData(scheme, "train"), method = "POPULAR")model.ibcf <- Recommender(getData(scheme, "train"), method = "IBCF")model.ubcf <- Recommender(getData(scheme, "train"), method = "UBCF")# 对推荐模型进行预测predict.popular <- predict(model.popular, getData(scheme, "known"), type = "ratings")predict.ibcf <- predict(model.ibcf, getData(scheme, "known"), type = "ratings")predict.ubcf <- predict(model.ubcf, getData(scheme, "known"), type = "ratings")# 做误差的计算predict.err <- rbind(calcPredictionAccuracy(predict.popular,  getData(scheme, "unknown")),calcPredictionAccuracy(predict.ubcf, getData(scheme,    "unknown")), calcPredictionAccuracy(predict.ibcf,getData(scheme, "unknown")))rownames(predict.err) <- c("POPULAR", "UBCF", "IBCF")predict.err



RMSE  MSE  MAE
POPULAR   1.046 1.095  0.8315
UBCF    1.217  1.481  0.9662
IBCF    1.693  2.866  1.2397


通过结果我们可以看到:基于流行度推荐系统对于本案例数据的效果最好,RMSE,MSE,MAE都是三者中的最小值。其次是基于用户的推荐,最后是基于项目协同过滤。

4. 参考资料

1. Recommenderlab包实现电影评分预测(R语言)

2. R语言:recommenderlab包的总结与应用案例

3. recommender system handbook

4. Item-Based Collaborative Filtering Recommendation Algorithms

5. recommenderlab: A Framework for Developing and Testing Recommendation Algorithms

目录
相关文章
|
11月前
|
数据采集 机器学习/深度学习 算法
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
别急着上算法,咱先把数据整明白:大数据分析的5个基本步骤,你都搞对了吗?
747 4
|
9月前
|
机器学习/深度学习 边缘计算 算法
NOMA和OFDMA优化算法分析
NOMA和OFDMA优化算法分析
453 127
|
6月前
|
运维 监控 JavaScript
基于 Node.js 图结构的局域网设备拓扑分析算法在局域网内监控软件中的应用研究
本文探讨图结构在局域网监控系统中的应用,通过Node.js实现设备拓扑建模、路径分析与故障定位,提升网络可视化、可追溯性与运维效率,结合模拟实验验证其高效性与准确性。
374 3
|
6月前
|
存储 边缘计算 算法
【太阳能学报EI复现】基于粒子群优化算法的风-水电联合优化运行分析(Matlab代码实现)
【太阳能学报EI复现】基于粒子群优化算法的风-水电联合优化运行分析(Matlab代码实现)
125 0
|
8月前
|
编解码 算法 5G
MIMO雷达空间谱估计中Capon算法与MUSIC算法的对比分析及实现
MIMO雷达空间谱估计中Capon算法与MUSIC算法的对比分析及实现
752 2
|
7月前
|
机器学习/深度学习 算法 5G
【MUSIC、最大似然与克拉美-罗下界】MUSIC与ESPRIT 算法来估计到达角(AoA),并尝试推导克拉美-罗下界(CRLB)以分析其性能研究(Matlab代码实现)
【MUSIC、最大似然与克拉美-罗下界】MUSIC与ESPRIT 算法来估计到达角(AoA),并尝试推导克拉美-罗下界(CRLB)以分析其性能研究(Matlab代码实现)
418 0
|
8月前
|
人工智能 自然语言处理 算法
2025 年 7 月境内深度合成服务算法备案情况分析报告
2025年7月,中央网信办发布第十二批深度合成算法备案信息,全国389款产品通过备案,服务提供者占比超七成。截至7月14日,全国累计备案达3834款,覆盖文本、图像、音视频等多模态场景,广泛应用于生活服务、医疗、金融等领域。广东以135款居首,数字人、AI客服等C端应用主导,民营企业成主力,国企聚焦公共服务。随着AI政策推动,备案已成为AI产品合规上线关键环节。
|
11月前
|
存储 监控 算法
员工行为监控软件中的 Go 语言哈希表算法:理论、实现与分析
当代企业管理体系中,员工行为监控软件已逐步成为维护企业信息安全、提升工作效能的关键工具。这类软件能够实时记录员工操作行为,为企业管理者提供数据驱动的决策依据。其核心支撑技术在于数据结构与算法的精妙运用。本文聚焦于 Go 语言中的哈希表算法,深入探究其在员工行为监控软件中的应用逻辑与实现机制。
264 14
|
自然语言处理 算法 安全
境内深度合成服务算法备案通过名单分析报告
本报告基于《境内深度合成服务算法备案通过名单》,分析了2023年6月至2025年3月公布的10批备案数据,涵盖属地分布、行业应用及产品形式等多个维度。报告显示,深度合成算法主要集中于经济发达地区,如北京、广东、上海等地,涉及教育、医疗、金融、娱乐等多行业。未来趋势显示技术将向多模态融合、行业定制化和安全合规方向发展。建议企业加强技术研发、拓展应用场景、关注政策动态,以在深度合成领域抢占先机。此分析旨在为企业提供参考,助力把握技术发展机遇。
境内深度合成服务算法备案通过名单分析报告
|
供应链 算法 搜索推荐
从公布的前十一批其他算法备案通过名单分析
2025年3月12日,国家网信办发布算法备案信息,深度合成算法通过395款,其他算法45款。前10次备案中,深度合成算法累计3234款,其他类别647款。个性化推送类占比49%,涵盖电商、资讯、视频推荐;检索过滤类占31.53%,用于搜索优化和内容安全;调度决策类占9.12%,集中在物流配送等;排序精选类占8.81%,生成合成类占1.55%。应用领域包括电商、社交媒体、物流、金融、医疗等,互联网科技企业主导,技术向垂直行业渗透,内容安全和多模态技术成新增长点。未来大模型检索和多模态生成或成重点。
从公布的前十一批其他算法备案通过名单分析

热门文章

最新文章