《推荐系统:技术、评估及高效算法》一2.5 关联规则挖掘

简介:

本节书摘来自华章出版社《推荐系统:技术、评估及高效算法》一书中的第2章,第2.5节,作者 [ 美]弗朗西斯科·里奇(Francesco Ricci)利奥·罗卡奇(Lior Rokach)布拉哈·夏皮拉(Bracha Shapira)保罗 B.坎特(Paul B.Kantor),更多章节内容可以访问云栖社区“华章计算机”公众号查看

2.5 关联规则挖掘

关联规则挖掘关注于规则的发现,其他能够根据事务中出现其他物品来预测出现某个物品。两个物品被发现相关只意味着共同出现,但是没有因果关系。注意不要将这种技术与在2.3.3节中提到的基于规则的分类混淆。
我们定义物品集为一个或多个物品的集合(例如,(牛奶,啤酒,尿布))。k-物品集是包含k个物品的集合。给定物品的频繁度称为支持量(比如,(牛奶,啤酒,尿布)=131)。并且物品集的支持度是包含它的事务的比例(例如,(牛奶,啤酒,尿布)=0.12)。频繁物品集是支持度大于或等于最小支持度阈值的物品集。关联规则是公式XY的表达式,其中X和Y是物品集。(例如,牛奶,尿布啤酒)。在这个案例中,关联规则的支持度是同时拥有X和Y的事务的比例。另一方面,规则的置信度是Y中的物品有多经常出现在包含X的事务中。

给定一组事务集合T,关联规则挖掘的目标是发现具有支持度大于等于最小支持度阈值以及置信度大于等于最小置信度阈值的所有规则。暴力法将会列出所有可能的关联规则,为每一个规则计算支持度和置信度,然后删除不满足两个条件的规则。但是,这样的计算开销太大。因此,我们采用两步方法:1)产生了所有支持度大于等于最小支持度的物品集(频繁项集生成);2)从每一频繁物品集中产生高置信规则(规则产生)。

有几个技术来优化频繁物品集的产生。在一个广泛的意义上,它们可以分成:尝试最小化候选集数量(M),降低事务量(N),降低比较量数量(NM)。但是最常用的方法是使用先验规则来降低候选数量。这个原则表明如果物品集是频繁的,那么所有的子集也是频繁的。支持度的衡量标准已经验证了这一点,因为一个物品集的支持度永远不会超过其子集的支持度。Apriori算法是这个规则实际的实现。

给定一个频繁集L,产生规则时的目的是发现所有满足最小的置信度需求的非空子集。如果L=k,那么有2k2条候选关联规则。因此,在生成频繁物品集时,需要找到高效的方法来生成规则。对于Apriori算法,我们能通过合并规则结果中共用相同前缀的两个规则来产生候选规则。

关联规则在发现模式和推动个性化市场营销方面的显著效果闻名已久[2]。但是,尽管这些方法和推荐系统的目标之间有明显的关联,但是它们还是没有成为主流。主要原因是这种方法类似于基于物品的CF但缺少灵活性,因为它需要事务这个明确的概念——事件共同出现在某个给定的会话中。在第3章中我们将举一些有意义的例子,其中一些表明关联规则仍有潜力。

Mobasher等[53]提出一种基于关联规则的个性化网页系统。他们的系统基于用户的导航模式,从共同出现的浏览页面来识别关联规则。他们在精确度和覆盖率指标方面优于基于kNN的推荐系统。Smyth等[68]提出给推荐系统使用关联规则的两种不同的研究案例。在第一种案例中,为了生成较好的物品物品相似度指标,他们从用户属性中使用先验算法来抽离物品关联规则。在第二种案例中,他们应用关联规则到会话推荐中。这里的目标是发现共同发生的评论,比如,用户通过一个推荐物品的特定特征表明偏好。Lin等[49]提出一种新的关联规则挖掘算法,为了获得一个合适的有意义规则数量,在挖掘期间调整规则的最小支持度,因此解决了先前像Apriori这样算法的某些缺陷。他们挖掘在用户之间和物品之间的关联规则。测量出的精确度优于基于相关度推荐的报告值,并且接近于更精巧的方法,如SVD和ANN的结合。

最后,如在2.3.2节中提到的那样,Cho等[18]在一个网页商店推荐系统中结合了决策树和关联规则挖掘。在他们的系统,关联规则的导入是为了链接相关的物品集。然后通过连接用户偏好和关联规则来计算得出推荐结果。他们在不同的事务集中寻找关联规则,如商品,购物车,点击率。他们用启发式学习给每一个事务集中规则附加权重。例如,商品关联规则权重大于点击关联规则。

相关文章
|
1月前
|
机器学习/深度学习 搜索推荐 算法
在数字化时代,推荐系统成为互联网应用的重要组成部分,通过机器学习技术根据用户兴趣和行为提供个性化推荐,提升用户体验
在数字化时代,推荐系统成为互联网应用的重要组成部分,通过机器学习技术根据用户兴趣和行为提供个性化推荐,提升用户体验。本文探讨了推荐系统的基本原理、常用算法、实现步骤及Python应用,介绍了如何克服数据稀疏性、冷启动等问题,强调了合理选择算法和持续优化的重要性。
66 4
|
7月前
|
机器学习/深度学习 数据采集 人工智能
构建一个基于AI的推荐系统的技术探索
【5月更文挑战第23天】本文探讨了构建基于AI的推荐系统的关键技术,包括数据收集、预处理、特征工程、推荐算法(如协同过滤、内容过滤、深度学习)及结果评估。通过理解用户行为和偏好,推荐系统能提供个性化建议。实现步骤涉及确定业务需求、设计数据方案、预处理、算法选择、评估优化及系统部署。随着技术进步,未来推荐系统将更加智能。
|
3月前
|
算法 前端开发 机器人
一文了解分而治之和动态规则算法在前端中的应用
该文章详细介绍了分而治之策略和动态规划算法在前端开发中的应用,并通过具体的例子和LeetCode题目解析来说明这两种算法的特点及使用场景。
一文了解分而治之和动态规则算法在前端中的应用
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
用AI技术打造个性化新闻推荐系统
【10月更文挑战第7天】本文将介绍如何使用AI技术构建一个个性化的新闻推荐系统。我们将从数据收集、处理,到模型训练和优化,最后实现推荐系统的全过程进行讲解。通过这篇文章,你将了解到如何利用机器学习和深度学习技术,为用户提供精准的新闻推荐。
55 0
|
4月前
|
数据可视化 算法 前端开发
基于python flask+pyecharts实现的中药数据可视化大屏,实现基于Apriori算法的药品功效关系的关联规则
本文介绍了一个基于Python Flask和Pyecharts实现的中药数据可视化大屏,该系统应用Apriori算法挖掘中药药材与功效之间的关联规则,为中医药学研究提供了数据支持和可视化分析工具。
147 2
|
4月前
|
数据采集 机器学习/深度学习 人工智能
利用AI技术实现个性化新闻推荐系统
【8月更文挑战第31天】 本文将介绍如何利用AI技术实现一个个性化的新闻推荐系统。我们将使用Python语言和一些常用的机器学习库,如scikit-learn和pandas,来构建一个简单的推荐系统。这个系统可以根据用户的阅读历史和兴趣偏好,为他们推荐相关的新闻文章。我们将从数据预处理、特征提取、模型训练和结果评估等方面进行详细的讲解。
|
5月前
|
机器学习/深度学习 搜索推荐 算法
深度学习在推荐系统中的应用:技术解析与实践
【7月更文挑战第6天】深度学习在推荐系统中的应用为推荐算法的发展带来了新的机遇和挑战。通过深入理解深度学习的技术原理和应用场景,并结合具体的实践案例,我们可以更好地构建高效、准确的推荐系统,为用户提供更加个性化的推荐服务。
|
5月前
|
数据采集 机器学习/深度学习 算法
Python基于Apriori关联规则算法实现商品零售购物篮分析
Python基于Apriori关联规则算法实现商品零售购物篮分析
|
6月前
|
搜索推荐 算法 UED
基于Python的推荐系统算法实现与评估
本文介绍了推荐系统的基本概念和主流算法,包括基于内容的推荐、协同过滤以及混合推荐。通过Python代码示例展示了如何实现基于内容的推荐和简化版用户-用户协同过滤,并讨论了推荐系统性能评估指标,如预测精度和覆盖率。文章强调推荐系统设计的迭代优化过程,指出实际应用中需考虑数据稀疏性、冷启动等问题。【6月更文挑战第11天】
1085 3
|
6月前
|
机器学习/深度学习 人工智能 搜索推荐
构建基于AI的个性化新闻推荐系统:技术探索与实践
【6月更文挑战第5天】构建基于AI的个性化新闻推荐系统,通过数据预处理、用户画像构建、特征提取、推荐算法设计及结果评估优化,解决信息爆炸时代用户筛选新闻的难题。系统关键点包括:数据清洗、用户兴趣分析、表示学习、内容及协同过滤推荐。实践案例证明,结合深度学习的推荐系统能提升用户体验,未来系统将更智能、个性化。