【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )-阿里云开发者社区

【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )

2022-01-27 354

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )

文章目录

一、 Apriori 算法过程

二、 Apriori 算法示例

参考博客 :

【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )

【数据挖掘】关联规则挖掘 Apriori 算法 ( 置信度 | 置信度示例 )

【数据挖掘】关联规则挖掘 Apriori 算法 ( 频繁项集 | 非频繁项集 | 强关联规则 | 弱关联规则 | 发现关联规则 )

【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )

一、 Apriori 算法过程

原始数据集 D \rm DD ,

1 11 项集 C 1 \rm C_1C

, 2 22 项集 C 2 \rm C_2C

, ⋯ \cdots⋯ , k \rm kk 项集 C k \rm C_kC

, 这些项集都是候选项集 ,

根据原始数据集 D \rm DD , 创造 1 11 项集 C 1 \rm C_1C

, 然后对 C 1 \rm C_1C

执行数据集扫描函数 , 找到其中的频繁 1 11 项集 L 1 \rm L_1L

根据频繁 1 11 项集 L 1 \rm L_1L

, 创造 2 22 项集 C 2 \rm C_2C

, 然后对 C 2 \rm C_2C

执行数据集扫描函数 , 找到其中的频繁 2 22 项集 L 2 \rm L_2L

⋮ \vdots

⋮

根据频繁 k − 1 \rm k-1k−1 项集 L k − 1 \rm L_{k-1}L

k−1

, 创造 k \rm kk 项集 C k \rm C_kC

, 然后对 C k \rm C_kC

执行数据集扫描函数 , 找到其中的频繁 k \rm kk 项集 L k \rm L_kL

二、 Apriori 算法示例

事物编号事物 ( 商品 )

001 001001 奶粉 , 莴苣

002 002002 莴苣 , 尿布 , 啤酒 , 甜菜

003 003003 奶粉 , 尿布 , 啤酒 , 橙汁

004 004004 奶粉 , 莴苣 , 尿布 , 啤酒

005 005005 奶粉 , 莴苣 , 尿布 , 橙汁

最小支持度阈值为 m i n s u p = 0.6 \rm minsup= 0.6minsup=0.6

根据原始数据集 D \rm DD , 创造 1 11 项集 C 1 \rm C_1C

, 然后对 C 1 \rm C_1C

执行数据集扫描函数 , 找到其中的频繁 1 11 项集 L 1 \rm L_1L

1 11 项集 { 奶粉 } \{ 奶粉 \}{奶粉} 支持度 0.8 0.80.8

1 11 项集 { 莴苣 } \{ 莴苣 \}{莴苣} 支持度 0.8 0.80.8

1 11 项集 { 尿布 } \{ 尿布 \}{尿布} 支持度 0.8 0.80.8

1 11 项集 { 啤酒 } \{ 啤酒 \}{啤酒} 支持度 0.6 0.60.6

1 11 项集 { 甜菜 } \{ 甜菜 \}{甜菜} 支持度 0.2 0.20.2

1 11 项集 { 诚挚 } \{ 诚挚 \}{诚挚} 支持度 0.4 0.40.4

1 11 项集中只有 { 奶粉 } \{ 奶粉 \}{奶粉} , { 莴苣 } \{ 莴苣 \}{莴苣} , { 尿布 } \{ 尿布 \}{尿布} , { 啤酒 } \{ 啤酒 \}{啤酒} 是频繁 1 11 项集 ;

根据频繁 1 11 项集 L 1 \rm L_1L

, 创造 2 22 项集 C 2 \rm C_2C

, 然后对 C 2 \rm C_2C

执行数据集扫描函数 , 找到其中的频繁 2 22 项集 L 2 \rm L_2L

2 22 项集 { 奶粉 , 莴苣 } \{ 奶粉 , 莴苣 \}{奶粉,莴苣} 支持度 0.6 0.60.6

2 22 项集 { 莴苣 , 尿布 } \{ 莴苣 , 尿布 \}{莴苣,尿布} 支持度 0.6 0.60.6

2 22 项集 { 莴苣 , 啤酒 } \{ 莴苣 , 啤酒 \}{莴苣,啤酒} 支持度 0.4 0.40.4

2 22 项集 { 尿布 , 啤酒 } \{ 尿布 , 啤酒 \}{尿布,啤酒} 支持度 0.8 0.80.8

2 22 项集 { 奶粉 , 尿布 } \{ 奶粉 , 尿布 \}{奶粉,尿布} 支持度 0.6 0.60.6

2 22 项集 { 奶粉 , 啤酒 } \{ 奶粉 , 啤酒 \}{奶粉,啤酒} 支持度 0.4 0.40.4

2 22 项集中只有 { 奶粉 , 尿布 } \{ 奶粉 , 尿布 \}{奶粉,尿布} , { 尿布 , 啤酒 } \{ 尿布 , 啤酒 \}{尿布,啤酒} , { 莴苣 , 尿布 } \{ 莴苣 , 尿布 \}{莴苣,尿布} , { 奶粉 , 莴苣 } \{ 奶粉 , 莴苣 \}{奶粉,莴苣} 是频繁 2 22 项集 ;

根据频繁 2 22 项集 L 1 \rm L_1L

, 创造 3 33 项集 C 3 \rm C_3C

, 然后对 C 3 \rm C_3C

执行数据集扫描函数 , 找到其中的频繁 3 33 项集 L 3 \rm L_3L

3 33 项集 { 奶粉 , 莴苣 , 尿布 } \{ 奶粉 , 莴苣 , 尿布 \}{奶粉,莴苣,尿布} 支持度 0.4 0.40.4

3 33 项集 { 奶粉 , 莴苣 , 啤酒 } \{ 奶粉 , 莴苣 , 啤酒 \}{奶粉,莴苣,啤酒} 支持度 0.2 0.20.2

3 33 项集 { 莴苣 , 尿布 , 啤酒 } \{ 莴苣 , 尿布 , 啤酒 \}{莴苣,尿布,啤酒} 支持度 0.4 0.40.4

3 33 项集 { 奶粉 , 尿布 , 啤酒 } \{ 奶粉 , 尿布 , 啤酒 \}{奶粉,尿布,啤酒} 支持度 0.4 0.40.4

3 33 项集中没有频繁项集 ;

【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )

热门文章

最新文章

相关课程

相关电子书