【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )

简介: 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )

文章目录

一、 关联规则挖掘简介

二、 数据集 与 事物 ( Transaction ) 概念

三、项 ( Item ) 概念

四、项集 ( Item Set ) 概念

五、频繁项集

六、数据集、事物、项、项集合、项集 示例





一、 关联规则挖掘简介


Apriori 算法 是 关联规则 挖掘算法 ,


关联规则 反映了 对象之间 相互依赖关系 ,


可以通过 一个对象 的行为或属性 预测 其它对象的行为或属性 ;



关联规则 不是 因果关系 , 有可能有因果关系 , 有可能没有 ;


如 : 购买商品时 , 啤酒 与 尿布 就有关联关系 , 这两个之间肯定没有因果关系 , 有一种未知的关联关系 ;



关联规则挖掘步骤 :


① 步骤一 : 找出 支持度 ≥ \geq≥ 最小支持度阈值 的 频繁项集 ;


② 步骤二 : 根据 频繁模式 生成 满足 可信度阈值 的 关联规则 ;






二、 数据集 与 事物 ( Transaction ) 概念


数据集 与 事物 ( Transaction ) 概念 :


数据挖掘 数据集 由 事物 构成 ;


数据集 记做 D DD ;


使用事物表示 数据集 , 表示为 D = { t 1 , t 2 , ⋯   , t n } D = \{ t_1 , t_2 , \cdots , t_n \}D={t

1


,t

2


,⋯,t

n


} ,


其中 t k ,   ( k = 1 , 2 , ⋯   , n ) t_k , \ ( k = 1, 2, \cdots, n )t

k


, (k=1,2,⋯,n) 称为事物 ;


每个事物可以使用 唯一的标识符 表示 事物编号 ( TID ) ;






三、项 ( Item ) 概念


项 ( Item ) 概念 :


每个 事物 ( Transaction ) 由多个 项 ( Item ) 组成 ;


项 记做 i ii ;


表示为 t k = { i 1 , i 2 , ⋯   , i n } t_k = \{ i_1 , i_2 , \cdots , i_n \}t

k


={i

1


,i

2


,⋯,i

n


} ;


数据集 D DD 是所有 项 i ii 的集合 是 I II 集合 ;






四、项集 ( Item Set ) 概念


项集 ( Item Set ) 概念 :


I II 中的 任意子集 X XX , 称为 数据集 D DD 的 项集 ( Item Set ) ;


如果 项集 ( Item Set ) 中 项 ( Item ) 个数为 k kk ,


则称该 项集 ( Item Set ) 为 k kk 项集 ( k-itemset ) ;






五、频繁项集


频繁项集 : 频繁项集指的是出现次数较多的项集 ;






六、数据集、事物、项、项集合、项集 示例


事物编号 事物 ( 商品 )

001 001001 奶粉 , 莴苣

002 002002 莴苣 , 尿布 , 啤酒 , 甜菜

003 003003 奶粉 , 尿布 , 啤酒 , 橙汁

004 004004 奶粉 , 莴苣 , 尿布 , 啤酒

005 005005 奶粉 , 莴苣 , 尿布 , 橙汁


整个 数据集 D DD , 由 5 55 个事物 构成 ;



数据集 : D = { t 1 , t 2 , t 3 , t 4 , t 5 } D = \{ t_1 , t_2 , t_3 , t_4, t_5 \}D={t

1


,t

2


,t

3


,t

4


,t

5


}



事物 1 11 : t 1 = { 奶 粉 , 莴 苣 } t_1 = \{ 奶粉 , 莴苣 \}t

1


={奶粉,莴苣}


事物 2 22 : t 2 = { 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 } t_2 = \{ 莴苣 , 尿布 , 啤酒 , 甜菜 \}t

2


={莴苣,尿布,啤酒,甜菜}


事物 3 33 : t 3 = { 奶 粉 , 尿 布 , 啤 酒 , 橙 汁 } t_3 = \{ 奶粉 , 尿布 , 啤酒 , 橙汁 \}t

3


={奶粉,尿布,啤酒,橙汁}


事物 4 44 : t 4 = { 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 } t_4 = \{ 奶粉 , 莴苣 , 尿布 , 啤酒 \}t

4


={奶粉,莴苣,尿布,啤酒}


事物 5 55 : t 5 = { 奶 粉 , 莴 苣 , 尿 布 , 橙 汁 } t_5 = \{ 奶粉 , 莴苣 , 尿布 , 橙汁 \}t

5


={奶粉,莴苣,尿布,橙汁}



上述 事物 集合中的元素 i ii 都称为项 , 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 , 橙 汁 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁奶粉,莴苣,尿布,啤酒,甜菜,橙汁 都是 项 ;



I = { 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 , 橙 汁 } I = \{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 \}I={奶粉,莴苣,尿布,啤酒,甜菜,橙汁}



项集 : 任意不相同的项组成的集合就称为项集 , 上述 6 66 个元素的集合有 2 6 2^62

6

 个项集 ; 参考集合幂集个数


{ 奶 粉 } \{ 奶粉 \}{奶粉} 是 1 11 项集 ;


{ 尿 布 , 啤 酒 } \{ 尿布 , 啤酒 \}{尿布,啤酒} 是 2 22 项集 ;


{ 莴 苣 , 尿 布 , 啤 酒 } \{ 莴苣 , 尿布 , 啤酒 \}{莴苣,尿布,啤酒} 是 3 33 项集 ;


{ 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 } \{ 奶粉 , 莴苣 , 尿布 , 啤酒 \}{奶粉,莴苣,尿布,啤酒} 是 4 44 项集 ;


{ 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 } \{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 \}{奶粉,莴苣,尿布,啤酒,甜菜} 是 5 55 项集 ;


{ 奶 粉 , 莴 苣 , 尿 布 , 啤 酒 , 甜 菜 , 橙 汁 } \{ 奶粉 , 莴苣 , 尿布 , 啤酒 , 甜菜 , 橙汁 \}{奶粉,莴苣,尿布,啤酒,甜菜,橙汁} 是 6 66 项集 ;


目录
相关文章
|
1月前
|
存储 人工智能 算法
从零掌握贪心算法Java版:LeetCode 10题实战解析(上)
在算法世界里,有一种思想如同生活中的"见好就收"——每次做出当前看来最优的选择,寄希望于通过局部最优达成全局最优。这种思想就是贪心算法,它以其简洁高效的特点,成为解决最优问题的利器。今天我们就来系统学习贪心算法的核心思想,并通过10道LeetCode经典题目实战演练,带你掌握这种"步步为营"的解题思维。
|
2月前
|
机器学习/深度学习 人工智能 搜索推荐
从零构建短视频推荐系统:双塔算法架构解析与代码实现
短视频推荐看似“读心”,实则依赖双塔推荐系统:用户塔与物品塔分别将行为与内容编码为向量,通过相似度匹配实现精准推送。本文解析其架构原理、技术实现与工程挑战,揭秘抖音等平台如何用AI抓住你的注意力。
534 7
从零构建短视频推荐系统:双塔算法架构解析与代码实现
|
2月前
|
机器学习/深度学习 存储 算法
动态规划算法深度解析:0-1背包问题
0-1背包问题是经典的组合优化问题,目标是在给定物品重量和价值及背包容量限制下,选取物品使得总价值最大化且每个物品仅能被选一次。该问题通常采用动态规划方法解决,通过构建二维状态表dp[i][j]记录前i个物品在容量j时的最大价值,利用状态转移方程避免重复计算子问题,从而高效求解最优解。
432 1
|
2月前
|
算法 搜索推荐 Java
贪心算法:部分背包问题深度解析
该Java代码基于贪心算法求解分数背包问题,通过按单位价值降序排序,优先装入高价值物品,并支持部分装入。核心包括冒泡排序优化、分阶段装入策略及精度控制,体现贪心选择性质,适用于可分割资源的最优化场景。
253 1
贪心算法:部分背包问题深度解析
|
2月前
|
机器学习/深度学习 边缘计算 人工智能
粒子群算法模型深度解析与实战应用
蒋星熠Jaxonic是一位深耕智能优化算法领域多年的技术探索者,专注于粒子群优化(PSO)算法的研究与应用。他深入剖析了PSO的数学模型、核心公式及实现方法,并通过大量实践验证了其在神经网络优化、工程设计等复杂问题上的卓越性能。本文全面展示了PSO的理论基础、改进策略与前沿发展方向,为读者提供了一份详尽的技术指南。
粒子群算法模型深度解析与实战应用
|
2月前
|
机器学习/深度学习 资源调度 算法
遗传算法模型深度解析与实战应用
摘要 遗传算法(GA)作为一种受生物进化启发的优化算法,在复杂问题求解中展现出独特优势。本文系统介绍了GA的核心理论、实现细节和应用经验。算法通过模拟自然选择机制,利用选择、交叉、变异三大操作在解空间中进行全局搜索。与梯度下降等传统方法相比,GA不依赖目标函数的连续性或可微性,特别适合处理离散优化、多目标优化等复杂问题。文中详细阐述了染色体编码、适应度函数设计、遗传操作实现等关键技术,并提供了Python代码实现示例。实践表明,GA的成功应用关键在于平衡探索与开发,通过精心调参维持种群多样性同时确保收敛效率
机器学习/深度学习 算法 自动驾驶
445 0
|
2月前
|
机器学习/深度学习 人工智能 资源调度
大语言模型的核心算法——简要解析
大语言模型的核心算法基于Transformer架构,以自注意力机制为核心,通过Q、K、V矩阵动态捕捉序列内部关系。多头注意力增强模型表达能力,位置编码(如RoPE)解决顺序信息问题。Flash Attention优化计算效率,GQA平衡性能与资源消耗。训练上,DPO替代RLHF提升效率,MoE架构实现参数扩展,Constitutional AI实现自监督对齐。整体技术推动模型在长序列、低资源下的性能突破。
360 8
|
2月前
|
算法 API 数据安全/隐私保护
深度解析京东图片搜索API:从图像识别到商品匹配的算法实践
京东图片搜索API基于图像识别技术,支持通过上传图片或图片URL搜索相似商品,提供智能匹配、结果筛选、分页查询等功能。适用于比价、竞品分析、推荐系统等场景。支持Python等开发语言,提供详细请求示例与文档。
|
4月前
|
机器学习/深度学习 人工智能 编解码
AI视觉新突破:多角度理解3D世界的算法原理全解析
多视角条件扩散算法通过多张图片输入生成高质量3D模型,克服了单图建模背面细节缺失的问题。该技术模拟人类多角度观察方式,结合跨视图注意力机制与一致性损失优化,大幅提升几何精度与纹理保真度,成为AI 3D生成的重要突破。
376 0

热门文章

最新文章