1:关联规则分析概述
关联规则分析用于在一个数据集中找出各数据项之间的关联关系,广泛用于购物篮数据、生物信息学、医疗诊断、网页挖掘和科学数据分析中
关联规则分析又称购物篮分析,最早是为了发现超市销售数据库中不同商品之间的关联关系
例如有一些超市购物清单,每单有一些商品,如何从中找到最常用的组合,再如快餐店点餐,客户可能点鸡翅和薯条,或者汉堡和可乐,从消费者的角度选择套餐会比单点更加便宜,另外从商家的角度,如何从消费者的行为习惯中发现套餐不仅可以促进消费,还能在一定程度上提高消费者的忠诚度
采用关联模型比较典型的案例是尿布与啤酒的故事。在美国,一些年轻的父亲下班后经常要到超市区买尿布,超市也因此发现一个规律,在购买尿布的年轻父亲中,有百分之三十到四十的人要同时买一些啤酒,超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额,同样的还可以根据关联规则在商品销售方面做各种促销活动
关联规则分析通过量化的数字描述某物品的出现对其他物品的影响程度,是数据挖掘中较活跃的研究方法之一。目前,常用的关联规则分析算法如表6-1所示
2:频繁相机、闭项集和关联规则
关联规则分析最早是为了发现超市销售数据库中不同商品间的关联关系
频繁模式(Frequent Pattern)是指频繁出现在数据集中的模式(如项集,子序列或子结构)
挖掘频繁模式可以揭示数据集的内在的、重要的特性,可以作为很多重要数据挖掘任务的基础,比如
1. 关联规则的表示形式
模式可以用关联规则(Association Rule)的形式表示。例如购买计算机也趋向于同时购买打印机,可以用如下关联规则表示
规则的支持度(Support)和置信度(Confidence)是规则兴趣度的两种度量,分别反映规则的有用性和确定性
2.频繁项集和闭项集
同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称为强关联规则
一般来说,关联规则的挖掘可以看作两步的过程
(1)找出所有频繁项集,该项集的每一个出现的支持度计数≥ min_sup
(2)由频繁项集产生强关联规则,即满足最小支持度和最小置信度的规则
由于第2步的开销远小于第1步,因此挖掘关联规则的总体性能由第1步决定。第1步主要是找到所有的频繁k项集,而在找频繁项集的过程中,需要对每个k项集,计算支持度计数以发现频繁项集,k项集的产生过程如图6.1
因此,项集的个数太大严重影响算法的效率。为了克服这一困难,引入闭频繁项集和极大频繁项集的概念
项集X在数据集D中是闭的(Closed),如果不存在X的真超项集Y使得Y与X在D中具有相同的支持度计数
发现频繁项集是挖掘关联规则的基础。Apriori算法通过限制候选产生发现频繁项集,FP-growth算法发现频繁模式而不产生候选
创作不易 觉得有帮助请点赞关注收藏~~~