【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )

简介: 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )

文章目录

一、 关联规则

二、 数据项支持度

三、 关联规则支持度



参考博客 :


【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )





一、 关联规则


关联规则 是指 :


某些 项集 出现在一个 事务 中 ,


可以推导出 :


另外一些 项集 也出现在同一个 事务 中 ;



如 : 事物 2 22 : t 2 = { 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 } t_2 = \{ 莴苣 , 尿布 , 啤酒 , 甜菜 \}t

2


={莴苣,尿布,啤酒,甜菜}


{ 啤 酒 } \{ 啤酒 \}{啤酒} 1 11 项集 出现在购买清单 事务 2 22 中 , { 尿 布 } \{ 尿布 \}{尿布} 1 11 项集 也出现在购买清单 事务 2 22 中 ;






二、 数据项支持度


支持度 表示 数据项 ( Item ) 在 事务 ( Transaction ) 中的 出现频度 ;



支持度公式 :


S u p p o r t ( X ) = c o u n t ( X ) c o u n t ( D ) \rm Support (X) = \cfrac{count (X)}{count (D)}Support(X)=

count(D)

count(X)




S u p p o r t ( X ) \rm Support (X)Support(X) 指的是 X \rm XX 项集的支持度 ;


c o u n t ( X ) \rm count (X)count(X) 指的是 数据集 D \rm DD 中含有项集 X \rm XX 的事务个数 ;


c o u n t ( D ) \rm count(D)count(D) 指的是 数据集 D \rm DD 的事务总数 ;



示例 : 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 ) 六、数据集、事物、项、项集合、项集 示例


数据集 D \rm DD 为 :


事物编号 事物 ( 商品 )

001 001001 奶粉 , 莴苣

002 002002 莴苣 , 尿布 , 啤酒 , 甜菜

003 003003 奶粉 , 尿布 , 啤酒 , 橙汁

004 004004 奶粉 , 莴苣 , 尿布 , 啤酒

005 005005 奶粉 , 莴苣 , 尿布 , 橙汁


项集 X = { 奶 粉 } \rm X=\{ 奶粉 \}X={奶粉} , 求该项集的支持度 ? \rm ??



根据上述公式 S u p p o r t ( X ) = c o u n t ( X ) c o u n t ( D ) \rm Support (X) = \cfrac{count (X)}{count (D)}Support(X)=

count(D)

count(X)


 计算支持度 ;



c o u n t ( X ) \rm count (X)count(X) 指的是 数据集 D \rm DD 中含有项集 X \rm XX 的事务个数 ;


含有 X = { 奶 粉 } \rm X=\{ 奶粉 \}X={奶粉} 项集的事务有 事务 1 \rm 11 , 事务 3 33 , 事务 4 44 , 事务 5 55 , 得出 :


c o u n t ( X ) = 4 \rm count (X) = 4count(X)=4



c o u n t ( D ) \rm count(D)count(D) 指的是 数据集 D \rm DD 的事务总数 ; 得出


c o u n t ( D ) = 5 \rm count(D) = 5count(D)=5



则计算支持度 :


S u p p o r t ( X ) = c o u n t ( X ) c o u n t ( D ) \rm Support (X) = \cfrac{count (X)}{count (D)}Support(X)=

count(D)

count(X)



S u p p o r t ( X ) = 4 5 \rm Support (X) = \cfrac{4}{5}Support(X)=

5

4







三、 关联规则支持度


关联规则 X ⇒ Y \rm X \Rightarrow YX⇒Y 的支持度 ,


等于 项集 X ∪ Y \rm X \cup YX∪Y 的支持度 ;


公式为 :


S u p p o r t ( X ⇒ Y ) = S u p p o r t ( X ∪ Y ) = c o u n t ( X ∪ Y ) c o u n t ( D ) \rm Support (X \Rightarrow Y) = Support (X \cup Y) = \cfrac{count (X \cup Y)}{count (D)}Support(X⇒Y)=Support(X∪Y)=

count(D)

count(X∪Y)




示例 : 数据集 D \rm DD 为 :


事物编号 事物 ( 商品 )

001 001001 奶粉 , 莴苣

002 002002 莴苣 , 尿布 , 啤酒 , 甜菜

003 003003 奶粉 , 尿布 , 啤酒 , 橙汁

004 004004 奶粉 , 莴苣 , 尿布 , 啤酒

005 005005 奶粉 , 莴苣 , 尿布 , 橙汁


求关联规则 尿 布 ⇒ 啤 酒 \rm 尿布 \Rightarrow 啤酒尿布⇒啤酒 的支持度 ? ??


上述问题等价于 , 项集 X = { 尿 布 , 啤 酒 } \rm X=\{ 尿布 , 啤酒 \}X={尿布,啤酒} 的支持度 ;



根据上述公式


S u p p o r t ( X ⇒ Y ) = S u p p o r t ( X ∪ Y ) = c o u n t ( X ∪ Y ) c o u n t ( D ) \rm Support (X \Rightarrow Y) = Support (X \cup Y) = \cfrac{count (X \cup Y)}{count (D)}Support(X⇒Y)=Support(X∪Y)=

count(D)

count(X∪Y)



计算支持度 ;



c o u n t ( X ∪ Y ) \rm count (X \cup Y)count(X∪Y) 指的是 数据集 D \rm DD 中含有项集 X ∪ Y \rm X \cup YX∪Y 的事务个数 ;


含有 X ∪ Y = { 尿 布 , 啤 酒 } \rm X \cup Y=\{ 尿布 , 啤酒 \}X∪Y={尿布,啤酒} 项集的事务有 事务 2 \rm 22 , 事务 3 33 , 事务 4 44 , 得出 :


c o u n t ( X ∪ Y ) = 3 \rm count (X \cup Y) = 3count(X∪Y)=3



c o u n t ( D ) \rm count(D)count(D) 指的是 数据集 D \rm DD 的事务总数 ; 得出


c o u n t ( D ) = 5 \rm count(D) = 5count(D)=5



则计算支持度 :


S u p p o r t ( X ⇒ Y ) = S u p p o r t ( X ∪ Y ) = c o u n t ( X ∪ Y ) c o u n t ( D ) \rm Support (X \Rightarrow Y) = Support (X \cup Y) = \cfrac{count (X \cup Y)}{count (D)}Support(X⇒Y)=Support(X∪Y)=

count(D)

count(X∪Y)



S u p p o r t ( X ) = S u p p o r t ( X ∪ Y ) = 3 5 \rm Support (X) = Support (X \cup Y) = \cfrac{3}{5}Support(X)=Support(X∪Y)=

5

3

 


目录
相关文章
|
3月前
|
机器学习/深度学习 数据采集 算法
数据挖掘和机器学习算法
数据挖掘和机器学习算法
|
3月前
|
存储 算法 大数据
Apriori算法和Eclat算法差异
Apriori算法和Eclat算法差异
|
4月前
|
机器学习/深度学习 人工智能 算法
【数据挖掘】2022年2023届秋招奇虎360机器学习算法工程师 笔试题
本文提供了奇虎360公司2022年秋招机器学习算法工程师岗位的笔试题内容,包括选择题和编程题,涉及概率统计、数据结构、机器学习、计算机组成原理等多个领域。
102 5
|
4月前
|
数据可视化 算法 前端开发
基于python flask+pyecharts实现的中药数据可视化大屏,实现基于Apriori算法的药品功效关系的关联规则
本文介绍了一个基于Python Flask和Pyecharts实现的中药数据可视化大屏,该系统应用Apriori算法挖掘中药药材与功效之间的关联规则,为中医药学研究提供了数据支持和可视化分析工具。
147 2
|
4月前
|
数据采集 自然语言处理 数据可视化
基于Python的社交媒体评论数据挖掘,使用LDA主题分析、文本聚类算法、情感分析实现
本文介绍了基于Python的社交媒体评论数据挖掘方法,使用LDA主题分析、文本聚类算法和情感分析技术,对数据进行深入分析和可视化,以揭示文本数据中的潜在主题、模式和情感倾向。
321 0
|
4月前
|
算法 数据挖掘 索引
【数据挖掘】2022年2023届秋招Kanaries雾角科技算法岗 笔试题
本文介绍了2022年Kanaries雾角科技算法岗位的笔试题目,涵盖了LeetCode和牛客网的题目,包括字符串处理、几何问题、矩阵操作、数组搜索、二叉树遍历、幂运算及概率计算等多种算法题目,并提供了部分题目的Python代码实现。
66 1