基于用户的协同过滤是怎么推荐电影的?

简介:

我们平时在浏览电商、视频等网站时,网页一般会有一个“猜你喜欢”,也就是”智能推荐系统“,虽然一般来说推荐的不是很准确,但是程Sir还是研究了一下这个玩意是怎么弄出来的……今天说一说最简单的一个实现方法,叫做基于用户的协同过滤。

假设有几个人分别看了如下电影并且给电影有如下评分(5分最高,没看过的不评分),我们目的是要向A用户推荐一部电影:

协同过滤的整体思路只有两步,非常简单:寻找相似用户,推荐电影

寻找相似用户

所谓相似,其实是对于电影品味的相似,也就是说需要将A与其他几位用户做比较,判断是不是品味相似。有很多种方法可以用来判断相似性,(与我之前写的K-Means文章中判断两点是否类似的方法是一致的)这篇文章用“欧几里德距离”来做相似性判定。

我们把每一部电影看成N维空间中的一个维度,这样每个用户对于电影的评分相当于维度的坐标,那么每一个用户的所有评分,相当于就把用户固定在这个N维空间的一个点上,然后利用欧几里德距离计算N维空间两点的距离:每一个电影的评分求差值,然后求每个差值的平方,然后求平方的和,然后在开平方。距离越短说明品味越接近。本例中A只看过两部电影(《老炮儿》和《唐人街探案》),因此只能通过这两部电影来判断品味了,那么计算A和其他几位的距离:

然后我们做一个变换,变换方法为:相似性 = 1/(1+欧几里德距离),这个相似性会落在【0,1】区间内,1表示完全品味一样,0表示完全品味不一样。这时我们就可以找到哪些人的品味和A最为接近了,计算后如下:

相似性:B-0.27,C-0.28,D-0.27,E-0.50,F-0.25,G-0.47

可见,E的口味与A最为接近,其次是G

推荐电影

要做电影加权评分推荐。意思是说,品味相近的人对于电影的评价对A选择电影来说更加重要,具体做法可以列一个表,计算加权分:

把相似性和对于每个电影的实际评分相乘,就是电影的加权分

加权后,还要做少量的计算:总分是每个电影加权分的总和,总相似度是对这个电影有评分的人的相似性综合,推荐度是总分/总相似性,目的是排除看电影人数对于总分的影响

结论在最终一行,就是电影的推荐度(因为是根据品味相同的人打分加权算出的分,可以近似认为如果A看了这部电影,预期的评分会是多少)。

有了电影的加权得分,通常做法还要设定一个阈值,如果超过了阈值再给用户推荐,要不怎么推荐都是烂片,如果这里我们设置阈值为4,那么最终推荐给A的电影就是《寻龙诀》。

我们现在的做法是向用户推荐电影。当然还可以从另外角度来思考:如果我们把一开始的评分表的行列调换,其他过程都不变,那么就变成了把电影推荐给合适的受众。因此,要根据不同场景选择不同的思考维度。


本文作者:程Sir 程SIR说

来源:51CTO

相关文章
|
12月前
|
人工智能 自然语言处理 监控
《AI赋能共享经济:资源配置与服务质量的双重优化》
共享经济借助互联网平台实现闲置资源高效利用,AI技术的融入进一步优化资源配置和服务质量。AI通过精准需求预测、智能调度和动态分配策略提升资源使用效率;借助个性化推荐、智能客服和实时监控改善用户体验。典型案例如Airbnb和滴滴出行展示了AI在提高预订率、减少等待时间和提升安全方面的显著成效。尽管面临数据隐私等挑战,AI仍为共享经济带来巨大创新和发展机遇。
586 18
|
机器学习/深度学习 存储 人工智能
NeurIPS 2024:解锁大模型知识记忆编辑的新路径,浙大用WISE对抗幻觉
在AI领域,大型语言模型(LLM)的发展带来了巨大便利,但如何高效更新模型知识以适应世界变化成为难题。浙江大学研究团队在NeurIPS 2024上提出的WISE方法,通过双参数化记忆方案及知识分片机制,有效解决了LLM知识更新中的可靠性、泛化性和局部性问题,显著提升了模型性能。
316 3
|
应用服务中间件 Linux nginx
“直播”极简教程
本文以一个非常简单的实际例子,搭建一个直播所需要的基础软件支撑平台,浅尝直播业务中核心业务概念及他们的交互流程。 对于一场直播,大致会拥有如下环节: * 主播通过直播设备将画面推送到直播平台 * 平台接收主播推送的画面 * 观众通过平台找到主播的直播画面,具体来说就是要找到主播的房间号 * 观众从平台拉取房间号中的直播画面
559 10
“直播”极简教程
|
监控 小程序 数据处理
揭秘支付宝小程序性能优化秘籍:从加载到运行,每一步都快人一步!
【8月更文挑战第27天】本文深入探讨了支付宝小程序性能优化的关键技术和策略,包括减少网络请求、利用CDN加速、代码按需加载、图片压缩、懒加载以及性能监控等多方面内容,并提供了实用的示例代码,帮助开发者显著提升小程序的加载速度与运行效率,创造更佳用户体验。
570 1
|
小程序 数据可视化 开发工具
HTML我帮您打造拖拽可视化的WEUI小程序工具
HTML我帮您打造拖拽可视化的WEUI小程序工具
313 0
|
安全 数据安全/隐私保护 Python
版权保卫战的新武器!揭秘数字水印如何成为知识产权的守护神!
【8月更文挑战第22天】数字水印技术在知识产权保护中至关重要。它通过在数字媒体中嵌入不可见信息(如版权标识),在不影响原内容的前提下实现作品的版权保护、防篡改及非法分发追踪。本文将概述数字水印的概念、技术原理(包括空间域与频域方法),并提供Python代码示例展示水印的嵌入与提取过程。此外,还将分享一个出版社如何运用数字水印成功维护自身版权的真实案例,以此展现数字水印在实际应用中的价值与潜力。
792 0
|
Java 关系型数据库 MySQL
使用JDBC连接ADB
【8月更文挑战第6天】
325 0
|
人工智能 C# 云计算
C#编程的未来发展趋向
【4月更文挑战第21天】C#编程未来将深化跨平台支持,强化云计算与容器技术集成,如.NET Core、Docker。在AI和ML领域,C#将提供更丰富框架,与AI芯片集成。语言和工具将持续创新,优化异步编程,如Task、async和await,提升多核性能。开源生态的壮大将吸引更多开发者,共创更多机遇。
510 4
|
数据库
SQLyog数据库管理工具的基本使用
SQLyog数据库管理工具的基本使用
458 0
|
存储 消息中间件 监控
大型系统如何划分边界?
大型系统如何划分边界?
705 0
大型系统如何划分边界?

热门文章

最新文章