【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )

简介: 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )

文章目录

一、 关联规则挖掘简介

二、 数据集 与 事物 ( Transaction ) 概念

三、项 ( Item ) 概念

四、项集 ( Item Set ) 概念

五、频繁项集

六、数据集、事物、项、项集合、项集 示例





一、 关联规则挖掘简介


Apriori 算法 是 关联规则 挖掘算法 ,


关联规则 反映了 对象之间 相互依赖关系 ,


可以通过 一个对象 的行为或属性 预测 其它对象的行为或属性 ;



关联规则 不是 因果关系 , 有可能有因果关系 , 有可能没有 ;


如 : 购买商品时 , 啤酒 与 尿布 就有关联关系 , 这两个之间肯定没有因果关系 , 有一种未知的关联关系 ;



关联规则挖掘步骤 :


① 步骤一 : 找出 支持度 ≥ \geq≥ 最小支持度阈值 的 频繁项集 ;


② 步骤二 : 根据 频繁模式 生成 满足 可信度阈值 的 关联规则 ;






二、 数据集 与 事物 ( Transaction ) 概念


数据集 与 事物 ( Transaction ) 概念 :


数据挖掘 数据集 由 事物 构成 ;


数据集 记做 D DD ;


使用事物表示 数据集 , 表示为 D = { t 1 , t 2 , ⋯   , t n } D = \{ t_1 , t_2 , \cdots , t_n \}D={t

1


,t

2


,⋯,t

n


} ,


其中 t k ,   ( k = 1 , 2 , ⋯   , n ) t_k , \ ( k = 1, 2, \cdots, n )t

k


, (k=1,2,⋯,n) 称为事物 ;


每个事物可以使用 唯一的标识符 表示 事物编号 ( TID ) ;






三、项 ( Item ) 概念


项 ( Item ) 概念 :


每个 事物 ( Transaction ) 由多个 项 ( Item ) 组成 ;


项 记做 i ii ;


表示为 t k = { i 1 , i 2 , ⋯   , i n } t_k = \{ i_1 , i_2 , \cdots , i_n \}t

k


={i

1


,i

2


,⋯,i

n


} ;


数据集 D DD 是所有 项 i ii 的集合 是 I II 集合 ;






四、项集 ( Item Set ) 概念


项集 ( Item Set ) 概念 :


I II 中的 任意子集 X XX , 称为 数据集 D DD 的 项集 ( Item Set ) ;


如果 项集 ( Item Set ) 中 项 ( Item ) 个数为 k kk ,


则称该 项集 ( Item Set ) 为 k kk 项集 ( k-itemset ) ;






五、频繁项集


频繁项集 : 频繁项集指的是出现次数较多的项集 ;






六、数据集、事物、项、项集合、项集 示例


事物编号 事物 ( 商品 )

001 001001 奶粉 , 莴苣

002 002002 莴苣 , 尿布 , 啤酒 , 甜菜

003 003003 奶粉 , 尿布 , 啤酒 , 橙汁

004 004004 奶粉 , 莴苣 , 尿布 , 啤酒

005 005005 奶粉 , 莴苣 , 尿布 , 橙汁


整个 数据集 D DD , 由 5 55 个事物 构成 ;



数据集 : D = { t 1 , t 2 , t 3 , t 4 , t 5 } D = \{ t_1 , t_2 , t_3 , t_4, t_5 \}D={t

1


,t

2


,t

3


,t

4


,t

5


}



事物 1 11 : t 1 = { 奶 粉 , 莴 苣 } t_1 = \{ 奶粉 , 莴苣 \}t

1


={奶粉,莴苣}


事物 2 22 : t 2 = { 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 } t_2 = \{ 莴苣 , 尿布 , 啤酒 , 甜菜 \}t

2


={莴苣,尿布,啤酒,甜菜}


事物 3 33 : t 3 = { 奶 粉 , 尿 布 , 啤 酒 , 橙 汁 } t_3 = \{ 奶粉 , 尿布 , 啤酒 , 橙汁 \}t

3


={奶粉,尿布,啤酒,橙汁}


事物 4 44 : t 4 = { 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 } t_4 = \{ 奶粉 , 莴苣 , 尿布 , 啤酒 \}t

4


={奶粉,莴苣,尿布,啤酒}


事物 5 55 : t 5 = { 奶 粉 , 莴 苣 , 尿 布 , 橙 汁 } t_5 = \{ 奶粉 , 莴苣 , 尿布 , 橙汁 \}t

5


={奶粉,莴苣,尿布,橙汁}



上述 事物 集合中的元素 i ii 都称为项 , 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 , 橙 汁 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁奶粉,莴苣,尿布,啤酒,甜菜,橙汁 都是 项 ;



I = { 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 , 橙 汁 } I = \{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 \}I={奶粉,莴苣,尿布,啤酒,甜菜,橙汁}



项集 : 任意不相同的项组成的集合就称为项集 , 上述 6 66 个元素的集合有 2 6 2^62

6

 个项集 ; 参考集合幂集个数


{ 奶 粉 } \{ 奶粉 \}{奶粉} 是 1 11 项集 ;


{ 尿 布 , 啤 酒 } \{ 尿布 , 啤酒 \}{尿布,啤酒} 是 2 22 项集 ;


{ 莴 苣 , 尿 布 , 啤 酒 } \{ 莴苣 , 尿布 , 啤酒 \}{莴苣,尿布,啤酒} 是 3 33 项集 ;


{ 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 } \{ 奶粉 , 莴苣 , 尿布 , 啤酒 \}{奶粉,莴苣,尿布,啤酒} 是 4 44 项集 ;


{ 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 } \{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 \}{奶粉,莴苣,尿布,啤酒,甜菜} 是 5 55 项集 ;


{ 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 , 橙 汁 } \{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 \}{奶粉,莴苣,尿布,啤酒,甜菜,橙汁} 是 6 66 项集 ;


目录
相关文章
|
8月前
|
机器学习/深度学习 算法 数据可视化
近端策略优化算法PPO的核心概念和PyTorch实现详解
本文深入解析了近端策略优化(PPO)算法的核心原理,并基于PyTorch框架实现了完整的强化学习训练流程。通过Lunar Lander环境展示了算法的全过程,涵盖环境交互、优势函数计算、策略更新等关键模块。内容理论与实践结合,适合希望掌握PPO算法及其实现的读者。
1357 2
近端策略优化算法PPO的核心概念和PyTorch实现详解
|
监控 算法 安全
基于 C# 的内网行为管理软件入侵检测算法解析
当下数字化办公环境中,内网行为管理软件已成为企业维护网络安全、提高办公效率的关键工具。它宛如一位恪尽职守的网络守护者,持续监控内网中的各类活动,以确保数据安全及网络稳定。在其诸多功能实现的背后,先进的数据结构与算法发挥着至关重要的作用。本文将深入探究一种应用于内网行为管理软件的 C# 算法 —— 基于二叉搜索树的入侵检测算法,并借助具体代码例程予以解析。
205 4
|
JavaScript 算法 前端开发
JS数组操作方法全景图,全网最全构建完整知识网络!js数组操作方法全集(实现筛选转换、随机排序洗牌算法、复杂数据处理统计等情景详解,附大量源码和易错点解析)
这些方法提供了对数组的全面操作,包括搜索、遍历、转换和聚合等。通过分为原地操作方法、非原地操作方法和其他方法便于您理解和记忆,并熟悉他们各自的使用方法与使用范围。详细的案例与进阶使用,方便您理解数组操作的底层原理。链式调用的几个案例,让您玩转数组操作。 只有锻炼思维才能可持续地解决问题,只有思维才是真正值得学习和分享的核心要素。如果这篇博客能给您带来一点帮助,麻烦您点个赞支持一下,还可以收藏起来以备不时之需,有疑问和错误欢迎在评论区指出~
|
存储 监控 算法
关于员工上网监控系统中 PHP 关联数组算法的学术解析
在当代企业管理中,员工上网监控系统是维护信息安全和提升工作效率的关键工具。PHP 中的关联数组凭借其灵活的键值对存储方式,在记录员工网络活动、管理访问规则及分析上网行为等方面发挥重要作用。通过关联数组,系统能高效记录每位员工的上网历史,设定网站访问权限,并统计不同类型的网站访问频率,帮助企业洞察员工上网模式,发现潜在问题并采取相应管理措施,从而保障信息安全和提高工作效率。
223 7
|
机器学习/深度学习 自然语言处理 算法
生成式 AI 大语言模型(LLMs)核心算法及源码解析:预训练篇
生成式 AI 大语言模型(LLMs)核心算法及源码解析:预训练篇
3742 1
|
存储 算法 安全
基于 Go 语言的公司内网管理软件哈希表算法深度解析与研究
在数字化办公中,公司内网管理软件通过哈希表算法保障信息安全与高效管理。哈希表基于键值对存储和查找,如用户登录验证、设备信息管理和文件权限控制等场景,Go语言实现的哈希表能快速验证用户信息,提升管理效率,确保网络稳定运行。
261 0

热门文章

最新文章

推荐镜像

更多
  • DNS