文章目录
一、 关联规则挖掘简介
二、 数据集 与 事物 ( Transaction ) 概念
三、项 ( Item ) 概念
四、项集 ( Item Set ) 概念
五、频繁项集
六、数据集、事物、项、项集合、项集 示例
一、 关联规则挖掘简介
Apriori 算法 是 关联规则 挖掘算法 ,
关联规则 反映了 对象之间 相互依赖关系 ,
可以通过 一个对象 的行为或属性 预测 其它对象的行为或属性 ;
关联规则 不是 因果关系 , 有可能有因果关系 , 有可能没有 ;
如 : 购买商品时 , 啤酒 与 尿布 就有关联关系 , 这两个之间肯定没有因果关系 , 有一种未知的关联关系 ;
关联规则挖掘步骤 :
① 步骤一 : 找出 支持度 ≥ \geq≥ 最小支持度阈值 的 频繁项集 ;
② 步骤二 : 根据 频繁模式 生成 满足 可信度阈值 的 关联规则 ;
二、 数据集 与 事物 ( Transaction ) 概念
数据集 与 事物 ( Transaction ) 概念 :
数据挖掘 数据集 由 事物 构成 ;
数据集 记做 D DD ;
使用事物表示 数据集 , 表示为 D = { t 1 , t 2 , ⋯ , t n } D = \{ t_1 , t_2 , \cdots , t_n \}D={t
1
,t
2
,⋯,t
n
} ,
其中 t k , ( k = 1 , 2 , ⋯ , n ) t_k , \ ( k = 1, 2, \cdots, n )t
k
, (k=1,2,⋯,n) 称为事物 ;
每个事物可以使用 唯一的标识符 表示 事物编号 ( TID ) ;
三、项 ( Item ) 概念
项 ( Item ) 概念 :
每个 事物 ( Transaction ) 由多个 项 ( Item ) 组成 ;
项 记做 i ii ;
表示为 t k = { i 1 , i 2 , ⋯ , i n } t_k = \{ i_1 , i_2 , \cdots , i_n \}t
k
={i
1
,i
2
,⋯,i
n
} ;
数据集 D DD 是所有 项 i ii 的集合 是 I II 集合 ;
四、项集 ( Item Set ) 概念
项集 ( Item Set ) 概念 :
I II 中的 任意子集 X XX , 称为 数据集 D DD 的 项集 ( Item Set ) ;
如果 项集 ( Item Set ) 中 项 ( Item ) 个数为 k kk ,
则称该 项集 ( Item Set ) 为 k kk 项集 ( k-itemset ) ;
五、频繁项集
频繁项集 : 频繁项集指的是出现次数较多的项集 ;
六、数据集、事物、项、项集合、项集 示例
事物编号 事物 ( 商品 )
001 001001 奶粉 , 莴苣
002 002002 莴苣 , 尿布 , 啤酒 , 甜菜
003 003003 奶粉 , 尿布 , 啤酒 , 橙汁
004 004004 奶粉 , 莴苣 , 尿布 , 啤酒
005 005005 奶粉 , 莴苣 , 尿布 , 橙汁
整个 数据集 D DD , 由 5 55 个事物 构成 ;
数据集 : D = { t 1 , t 2 , t 3 , t 4 , t 5 } D = \{ t_1 , t_2 , t_3 , t_4, t_5 \}D={t
1
,t
2
,t
3
,t
4
,t
5
}
事物 1 11 : t 1 = { 奶 粉 , 莴 苣 } t_1 = \{ 奶粉 , 莴苣 \}t
1
={奶粉,莴苣}
事物 2 22 : t 2 = { 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 } t_2 = \{ 莴苣 , 尿布 , 啤酒 , 甜菜 \}t
2
={莴苣,尿布,啤酒,甜菜}
事物 3 33 : t 3 = { 奶 粉 , 尿 布 , 啤 酒 , 橙 汁 } t_3 = \{ 奶粉 , 尿布 , 啤酒 , 橙汁 \}t
3
={奶粉,尿布,啤酒,橙汁}
事物 4 44 : t 4 = { 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 } t_4 = \{ 奶粉 , 莴苣 , 尿布 , 啤酒 \}t
4
={奶粉,莴苣,尿布,啤酒}
事物 5 55 : t 5 = { 奶 粉 , 莴 苣 , 尿 布 , 橙 汁 } t_5 = \{ 奶粉 , 莴苣 , 尿布 , 橙汁 \}t
5
={奶粉,莴苣,尿布,橙汁}
上述 事物 集合中的元素 i ii 都称为项 , 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 , 橙 汁 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁奶粉,莴苣,尿布,啤酒,甜菜,橙汁 都是 项 ;
I = { 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 , 橙 汁 } I = \{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 \}I={奶粉,莴苣,尿布,啤酒,甜菜,橙汁}
项集 : 任意不相同的项组成的集合就称为项集 , 上述 6 66 个元素的集合有 2 6 2^62
6
个项集 ; 参考集合幂集个数
{ 奶 粉 } \{ 奶粉 \}{奶粉} 是 1 11 项集 ;
{ 尿 布 , 啤 酒 } \{ 尿布 , 啤酒 \}{尿布,啤酒} 是 2 22 项集 ;
{ 莴 苣 , 尿 布 , 啤 酒 } \{ 莴苣 , 尿布 , 啤酒 \}{莴苣,尿布,啤酒} 是 3 33 项集 ;
{ 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 } \{ 奶粉 , 莴苣 , 尿布 , 啤酒 \}{奶粉,莴苣,尿布,啤酒} 是 4 44 项集 ;
{ 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 } \{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 \}{奶粉,莴苣,尿布,啤酒,甜菜} 是 5 55 项集 ;
{ 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 , 橙 汁 } \{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 \}{奶粉,莴苣,尿布,啤酒,甜菜,橙汁} 是 6 66 项集 ;