Apriori算法
频繁项集: 是支持值大于阈值(support)的项集。
关联分析的目的:
发现频繁项集:发现满足最小支持度的所有项集 发现关联规则:从频繁项集中提取所有高置信度的规则。 Apriori算法就是基于一个先验:
如果某个项集是频繁的,那么它的所有子集也是频繁的; 如果一个集合不是频繁项集,则它的所有父集(超集)都不是频繁项集。
FP Growth 算法
是对Apriori 算法以上缺点的改进,生成一个频繁模式而不需要生成候选模式。
FP Growth(频繁模式增长)将提供频繁项集的数据库压缩到一棵频繁模式树(FP-Tree),但仍保留项集关联信息。无论多少数据,只需要扫描两次数据,大大提高。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。