【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介: 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )

文章目录

一、 关联规则挖掘简介

二、 数据集 与 事物 ( Transaction ) 概念

三、项 ( Item ) 概念

四、项集 ( Item Set ) 概念

五、频繁项集

六、数据集、事物、项、项集合、项集 示例





一、 关联规则挖掘简介


Apriori 算法 是 关联规则 挖掘算法 ,


关联规则 反映了 对象之间 相互依赖关系 ,


可以通过 一个对象 的行为或属性 预测 其它对象的行为或属性 ;



关联规则 不是 因果关系 , 有可能有因果关系 , 有可能没有 ;


如 : 购买商品时 , 啤酒 与 尿布 就有关联关系 , 这两个之间肯定没有因果关系 , 有一种未知的关联关系 ;



关联规则挖掘步骤 :


① 步骤一 : 找出 支持度 ≥ \geq≥ 最小支持度阈值 的 频繁项集 ;


② 步骤二 : 根据 频繁模式 生成 满足 可信度阈值 的 关联规则 ;






二、 数据集 与 事物 ( Transaction ) 概念


数据集 与 事物 ( Transaction ) 概念 :


数据挖掘 数据集 由 事物 构成 ;


数据集 记做 D DD ;


使用事物表示 数据集 , 表示为 D = { t 1 , t 2 , ⋯   , t n } D = \{ t_1 , t_2 , \cdots , t_n \}D={t

1


,t

2


,⋯,t

n


} ,


其中 t k ,   ( k = 1 , 2 , ⋯   , n ) t_k , \ ( k = 1, 2, \cdots, n )t

k


, (k=1,2,⋯,n) 称为事物 ;


每个事物可以使用 唯一的标识符 表示 事物编号 ( TID ) ;






三、项 ( Item ) 概念


项 ( Item ) 概念 :


每个 事物 ( Transaction ) 由多个 项 ( Item ) 组成 ;


项 记做 i ii ;


表示为 t k = { i 1 , i 2 , ⋯   , i n } t_k = \{ i_1 , i_2 , \cdots , i_n \}t

k


={i

1


,i

2


,⋯,i

n


} ;


数据集 D DD 是所有 项 i ii 的集合 是 I II 集合 ;






四、项集 ( Item Set ) 概念


项集 ( Item Set ) 概念 :


I II 中的 任意子集 X XX , 称为 数据集 D DD 的 项集 ( Item Set ) ;


如果 项集 ( Item Set ) 中 项 ( Item ) 个数为 k kk ,


则称该 项集 ( Item Set ) 为 k kk 项集 ( k-itemset ) ;






五、频繁项集


频繁项集 : 频繁项集指的是出现次数较多的项集 ;






六、数据集、事物、项、项集合、项集 示例


事物编号 事物 ( 商品 )

001 001001 奶粉 , 莴苣

002 002002 莴苣 , 尿布 , 啤酒 , 甜菜

003 003003 奶粉 , 尿布 , 啤酒 , 橙汁

004 004004 奶粉 , 莴苣 , 尿布 , 啤酒

005 005005 奶粉 , 莴苣 , 尿布 , 橙汁


整个 数据集 D DD , 由 5 55 个事物 构成 ;



数据集 : D = { t 1 , t 2 , t 3 , t 4 , t 5 } D = \{ t_1 , t_2 , t_3 , t_4, t_5 \}D={t

1


,t

2


,t

3


,t

4


,t

5


}



事物 1 11 : t 1 = { 奶 粉 , 莴 苣 } t_1 = \{ 奶粉 , 莴苣 \}t

1


={奶粉,莴苣}


事物 2 22 : t 2 = { 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 } t_2 = \{ 莴苣 , 尿布 , 啤酒 , 甜菜 \}t

2


={莴苣,尿布,啤酒,甜菜}


事物 3 33 : t 3 = { 奶 粉 , 尿 布 , 啤 酒 , 橙 汁 } t_3 = \{ 奶粉 , 尿布 , 啤酒 , 橙汁 \}t

3


={奶粉,尿布,啤酒,橙汁}


事物 4 44 : t 4 = { 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 } t_4 = \{ 奶粉 , 莴苣 , 尿布 , 啤酒 \}t

4


={奶粉,莴苣,尿布,啤酒}


事物 5 55 : t 5 = { 奶 粉 , 莴 苣 , 尿 布 , 橙 汁 } t_5 = \{ 奶粉 , 莴苣 , 尿布 , 橙汁 \}t

5


={奶粉,莴苣,尿布,橙汁}



上述 事物 集合中的元素 i ii 都称为项 , 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 , 橙 汁 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁奶粉,莴苣,尿布,啤酒,甜菜,橙汁 都是 项 ;



I = { 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 , 橙 汁 } I = \{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 \}I={奶粉,莴苣,尿布,啤酒,甜菜,橙汁}



项集 : 任意不相同的项组成的集合就称为项集 , 上述 6 66 个元素的集合有 2 6 2^62

6

 个项集 ; 参考集合幂集个数


{ 奶 粉 } \{ 奶粉 \}{奶粉} 是 1 11 项集 ;


{ 尿 布 , 啤 酒 } \{ 尿布 , 啤酒 \}{尿布,啤酒} 是 2 22 项集 ;


{ 莴 苣 , 尿 布 , 啤 酒 } \{ 莴苣 , 尿布 , 啤酒 \}{莴苣,尿布,啤酒} 是 3 33 项集 ;


{ 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 } \{ 奶粉 , 莴苣 , 尿布 , 啤酒 \}{奶粉,莴苣,尿布,啤酒} 是 4 44 项集 ;


{ 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 } \{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 \}{奶粉,莴苣,尿布,啤酒,甜菜} 是 5 55 项集 ;


{ 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 , 橙 汁 } \{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 \}{奶粉,莴苣,尿布,啤酒,甜菜,橙汁} 是 6 66 项集 ;


目录
相关文章
|
1月前
|
算法 前端开发 数据处理
小白学python-深入解析一位字符判定算法
小白学python-深入解析一位字符判定算法
47 0
|
29天前
|
存储 算法 Java
解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用
在Java中,Set接口以其独特的“无重复”特性脱颖而出。本文通过解析HashSet的工作原理,揭示Set如何利用哈希算法和equals()方法确保元素唯一性,并通过示例代码展示了其“无重复”特性的具体应用。
41 3
|
30天前
|
搜索推荐 算法
插入排序算法的平均时间复杂度解析
【10月更文挑战第12天】 插入排序是一种简单直观的排序算法,通过不断将未排序元素插入到已排序部分的合适位置来完成排序。其平均时间复杂度为$O(n^2)$,适用于小规模或部分有序的数据。尽管效率不高,但在特定场景下仍具优势。
|
5天前
|
存储 算法 Java
Java Set深度解析:为何它能成为“无重复”的代名词?
Java的集合框架中,Set接口以其“无重复”特性著称。本文解析了Set的实现原理,包括HashSet和TreeSet的不同数据结构和算法,以及如何通过示例代码实现最佳实践。选择合适的Set实现类和正确实现自定义对象的hashCode()和equals()方法是关键。
18 4
|
13天前
|
算法 Linux 定位技术
Linux内核中的进程调度算法解析####
【10月更文挑战第29天】 本文深入剖析了Linux操作系统的心脏——内核中至关重要的组成部分之一,即进程调度机制。不同于传统的摘要概述,我们将通过一段引人入胜的故事线来揭开进程调度算法的神秘面纱,展现其背后的精妙设计与复杂逻辑,让读者仿佛跟随一位虚拟的“进程侦探”,一步步探索Linux如何高效、公平地管理众多进程,确保系统资源的最优分配与利用。 ####
46 4
|
14天前
|
缓存 负载均衡 算法
Linux内核中的进程调度算法解析####
本文深入探讨了Linux操作系统核心组件之一——进程调度器,着重分析了其采用的CFS(完全公平调度器)算法。不同于传统摘要对研究背景、方法、结果和结论的概述,本文摘要将直接揭示CFS算法的核心优势及其在现代多核处理器环境下如何实现高效、公平的资源分配,同时简要提及该算法如何优化系统响应时间和吞吐量,为读者快速构建对Linux进程调度机制的认知框架。 ####
|
27天前
|
存储 算法 Java
Java Set深度解析:为何它能成为“无重复”的代名词?
Java Set深度解析:为何它能成为“无重复”的代名词?本文详解Set接口及其主要实现类(HashSet、TreeSet、LinkedHashSet)的“无重复”特性,探讨其内部数据结构和算法实现,并通过示例代码展示最佳实践。
28 3
|
1月前
|
机器学习/深度学习 算法 PyTorch
Pytorch-RMSprop算法解析
关注B站【肆十二】,观看更多实战教学视频。本期介绍深度学习中的RMSprop优化算法,通过调整每个参数的学习率来优化模型训练。示例代码使用PyTorch实现,详细解析了RMSprop的参数及其作用。适合初学者了解和实践。
37 1
|
30天前
|
前端开发 算法 JavaScript
无界SaaS模式深度解析:算力算法、链接力、数据确权制度
私域电商的无界SaaS模式涉及后端开发、前端开发、数据库设计、API接口、区块链技术、支付和身份验证系统等多个技术领域。本文通过简化框架和示例代码,指导如何将核心功能转化为技术实现,涵盖用户管理、企业店铺管理、数据流量管理等关键环节。
|
1月前
|
机器学习/深度学习 算法 PyTorch
Pytorch-SGD算法解析
SGD(随机梯度下降)是机器学习中常用的优化算法,特别适用于大数据集和在线学习。与批量梯度下降不同,SGD每次仅使用一个样本来更新模型参数,提高了训练效率。本文介绍了SGD的基本步骤、Python实现及PyTorch中的应用示例。
33 0

热门文章

最新文章

推荐镜像

更多