2.2.5 基于最大频繁项集的GenMax算法
GenMax算法用来挖掘最大频繁项集(Maximal Frequent Itemset,MFI)。算法应用了最大性特性,即增加多步来检查最大频繁项集而不只是频繁项集。这部分基于Eclat算法的事物编号集合交集运算。差集用于快速频繁检验。它是两个对应项目的事物编号集合的差。
可以通过候选最大频繁项集的定义来确定它。假定最大频繁项集记为M,若X属于M,且X是新得到频繁项集Y的超集,则Y被丢弃;然而,若X是Y的子集,则将X从集合M中移除。
下面是调用GenMax算法前的伪代码,
M← ,且P←{<Xi, t(Xi)>|Xi∈D, support_count(Xi)≥MIN_SUP}
其中,D是输入事务数据集。
R语言实现
GenMax算法的主要部分的R语言代码如下所示: