【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )

简介: 【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )

文章目录

一、 Apriori 算法过程

二、 Apriori 算法示例



参考博客 :


【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )

【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )

【数据挖掘】关联规则挖掘 Apriori 算法 ( 置信度 | 置信度示例 )

【数据挖掘】关联规则挖掘 Apriori 算法 ( 频繁项集 | 非频繁项集 | 强关联规则 | 弱关联规则 | 发现关联规则 )

【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )





一、 Apriori 算法过程




原始数据集 D \rm DD ,


1 11 项集 C 1 \rm C_1C

1


 , 2 22 项集 C 2 \rm C_2C

2


 , ⋯ \cdots⋯ , k \rm kk 项集 C k \rm C_kC

k


 , 这些项集都是候选项集 ,



根据 原始数据集 D \rm DD , 创造 1 11 项集 C 1 \rm C_1C

1


 , 然后对 C 1 \rm C_1C

1


 执行 数据集扫描函数 , 找到其中的 频繁 1 11 项集 L 1 \rm L_1L

1


 ,


根据 频繁 1 11 项集 L 1 \rm L_1L

1


 , 创造 2 22 项集 C 2 \rm C_2C

2


 , 然后对 C 2 \rm C_2C

2


 执行 数据集扫描函数 , 找到其中的 频繁 2 22 项集 L 2 \rm L_2L

2


 ,


⋮ \vdots


根据 频繁 k − 1 \rm k-1k−1 项集 L k − 1 \rm L_{k-1}L

k−1


 , 创造 k \rm kk 项集 C k \rm C_kC

k


 , 然后对 C k \rm C_kC

k


 执行 数据集扫描函数 , 找到其中的 频繁 k \rm kk 项集 L k \rm L_kL

k


 ,






二、 Apriori 算法示例



事物编号 事物 ( 商品 )

001 001001 奶粉 , 莴苣

002 002002 莴苣 , 尿布 , 啤酒 , 甜菜

003 003003 奶粉 , 尿布 , 啤酒 , 橙汁

004 004004 奶粉 , 莴苣 , 尿布 , 啤酒

005 005005 奶粉 , 莴苣 , 尿布 , 橙汁


最小支持度阈值为 m i n s u p = 0.6 \rm minsup= 0.6minsup=0.6



根据 原始数据集 D \rm DD , 创造 1 11 项集 C 1 \rm C_1C

1


 , 然后对 C 1 \rm C_1C

1


 执行 数据集扫描函数 , 找到其中的 频繁 1 11 项集 L 1 \rm L_1L

1


 ,


1 11 项集 { 奶 粉 } \{ 奶粉 \}{奶粉} 支持度 0.8 0.80.8

1 11 项集 { 莴 苣 } \{ 莴苣 \}{莴苣} 支持度 0.8 0.80.8

1 11 项集 { 尿 布 } \{ 尿布 \}{尿布} 支持度 0.8 0.80.8

1 11 项集 { 啤 酒 } \{ 啤酒 \}{啤酒} 支持度 0.6 0.60.6

1 11 项集 { 甜 菜 } \{ 甜菜 \}{甜菜} 支持度 0.2 0.20.2

1 11 项集 { 诚 挚 } \{ 诚挚 \}{诚挚} 支持度 0.4 0.40.4


1 11 项集中只有 { 奶 粉 } \{ 奶粉 \}{奶粉} , { 莴 苣 } \{ 莴苣 \}{莴苣} , { 尿 布 } \{ 尿布 \}{尿布} , { 啤 酒 } \{ 啤酒 \}{啤酒} 是频繁 1 11 项集 ;



根据 频繁 1 11 项集 L 1 \rm L_1L

1


 , 创造 2 22 项集 C 2 \rm C_2C

2


 , 然后对 C 2 \rm C_2C

2


 执行 数据集扫描函数 , 找到其中的 频繁 2 22 项集 L 2 \rm L_2L

2


 ,


2 22 项集 { 奶 粉 , 莴 苣 } \{ 奶粉 , 莴苣 \}{奶粉,莴苣} 支持度 0.6 0.60.6

2 22 项集 { 莴 苣 , 尿 布 } \{ 莴苣 , 尿布 \}{莴苣,尿布} 支持度 0.6 0.60.6

2 22 项集 { 莴 苣 , 啤 酒 } \{ 莴苣 , 啤酒 \}{莴苣,啤酒} 支持度 0.4 0.40.4

2 22 项集 { 尿 布 , 啤 酒 } \{ 尿布 , 啤酒 \}{尿布,啤酒} 支持度 0.8 0.80.8

2 22 项集 { 奶 粉 , 尿 布 } \{ 奶粉 , 尿布 \}{奶粉,尿布} 支持度 0.6 0.60.6

2 22 项集 { 奶 粉 , 啤 酒 } \{ 奶粉 , 啤酒 \}{奶粉,啤酒} 支持度 0.4 0.40.4


2 22 项集中只有 { 奶 粉 , 尿 布 } \{ 奶粉 , 尿布 \}{奶粉,尿布} , { 尿 布 , 啤 酒 } \{ 尿布 , 啤酒 \}{尿布,啤酒} , { 莴 苣 , 尿 布 } \{ 莴苣 , 尿布 \}{莴苣,尿布} , { 奶 粉 , 莴 苣 } \{ 奶粉 , 莴苣 \}{奶粉,莴苣} 是 频繁 2 22 项集 ;



根据 频繁 2 22 项集 L 1 \rm L_1L

1


 , 创造 3 33 项集 C 3 \rm C_3C

3


 , 然后对 C 3 \rm C_3C

3


 执行 数据集扫描函数 , 找到其中的 频繁 3 33 项集 L 3 \rm L_3L

3


 ,


3 33 项集 { 奶 粉 , 莴 苣 , 尿 布 } \{ 奶粉 , 莴苣 , 尿布 \}{奶粉,莴苣,尿布} 支持度 0.4 0.40.4

3 33 项集 { 奶 粉 , 莴 苣 , 啤 酒 } \{ 奶粉 , 莴苣 , 啤酒 \}{奶粉,莴苣,啤酒} 支持度 0.2 0.20.2

3 33 项集 { 莴 苣 , 尿 布 , 啤 酒 } \{ 莴苣 , 尿布 , 啤酒 \}{莴苣,尿布,啤酒} 支持度 0.4 0.40.4

3 33 项集 { 奶 粉 , 尿 布 , 啤 酒 } \{ 奶粉 , 尿布 , 啤酒 \}{奶粉,尿布,啤酒} 支持度 0.4 0.40.4


3 33 项集中没有频繁项集 ;


目录
相关文章
|
5月前
|
算法 前端开发 机器人
一文了解分而治之和动态规则算法在前端中的应用
该文章详细介绍了分而治之策略和动态规划算法在前端开发中的应用,并通过具体的例子和LeetCode题目解析来说明这两种算法的特点及使用场景。
一文了解分而治之和动态规则算法在前端中的应用
|
5月前
|
存储 算法 大数据
Apriori算法和Eclat算法差异
Apriori算法和Eclat算法差异
|
6月前
|
数据可视化 算法 前端开发
基于python flask+pyecharts实现的中药数据可视化大屏,实现基于Apriori算法的药品功效关系的关联规则
本文介绍了一个基于Python Flask和Pyecharts实现的中药数据可视化大屏,该系统应用Apriori算法挖掘中药药材与功效之间的关联规则,为中医药学研究提供了数据支持和可视化分析工具。
175 2
|
7月前
|
存储 算法 大数据
Apriori算法和Eclat算法在性能上有哪些主要的差异
Apriori算法和Eclat算法在性能上有哪些主要的差异
|
7月前
|
算法 数据挖掘 数据库
|
6月前
|
SQL 开发框架 大数据
【数据挖掘】顺丰科技2022年秋招大数据挖掘与分析工程师笔试题
顺丰科技2022年秋招大数据挖掘与分析工程师笔试题解析,涵盖了多领域选择题和编程题,包括动态规划、数据库封锁协议、概率论、SQL、排序算法等知识点。
116 0
|
28天前
|
算法 数据安全/隐私保护 计算机视觉
基于Retinex算法的图像去雾matlab仿真
本项目展示了基于Retinex算法的图像去雾技术。完整程序运行效果无水印,使用Matlab2022a开发。核心代码包含详细中文注释和操作步骤视频。Retinex理论由Edwin Land提出,旨在分离图像的光照和反射分量,增强图像对比度、颜色和细节,尤其在雾天条件下表现优异,有效解决图像去雾问题。
|
28天前
|
算法 数据可视化 安全
基于DWA优化算法的机器人路径规划matlab仿真
本项目基于DWA优化算法实现机器人路径规划的MATLAB仿真,适用于动态环境下的自主导航。使用MATLAB2022A版本运行,展示路径规划和预测结果。核心代码通过散点图和轨迹图可视化路径点及预测路径。DWA算法通过定义速度空间、采样候选动作并评估其优劣(目标方向性、障碍物距离、速度一致性),实时调整机器人运动参数,确保安全避障并接近目标。
139 68
|
1月前
|
算法 数据安全/隐私保护
室内障碍物射线追踪算法matlab模拟仿真
### 简介 本项目展示了室内障碍物射线追踪算法在无线通信中的应用。通过Matlab 2022a实现,包含完整程序运行效果(无水印),支持增加发射点和室内墙壁设置。核心代码配有详细中文注释及操作视频。该算法基于几何光学原理,模拟信号在复杂室内环境中的传播路径与强度,涵盖场景建模、射线发射、传播及接收点场强计算等步骤,为无线网络规划提供重要依据。
|
1月前
|
机器学习/深度学习 数据采集 算法
基于GA遗传优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真
本项目基于MATLAB2022a实现时间序列预测,采用CNN-GRU-SAM网络结构。卷积层提取局部特征,GRU层处理长期依赖,自注意力机制捕捉全局特征。完整代码含中文注释和操作视频,运行效果无水印展示。算法通过数据归一化、种群初始化、适应度计算、个体更新等步骤优化网络参数,最终输出预测结果。适用于金融市场、气象预报等领域。
基于GA遗传优化的CNN-GRU-SAM网络时间序列回归预测算法matlab仿真