【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )

简介: 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )

文章目录

一、 非频繁项集超集性质

二、 频繁项集子集性质

三、 项集与超集支持度性质



参考博客 :


【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )

【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )

【数据挖掘】关联规则挖掘 Apriori 算法 ( 置信度 | 置信度示例 )

【数据挖掘】关联规则挖掘 Apriori 算法 ( 频繁项集 | 非频繁项集 | 强关联规则 | 弱关联规则 | 发现关联规则 )





一、 非频繁项集超集性质


关联规则 性质 1 : 非频繁项集 的 超集 一定是 非频繁的 ;



超集 就是 包含 该集合的集合 ;



项集 X \rm XX 是 非频繁项集 ,


项集 Y \rm YY 是 项集 X \rm XX 的超集 ,


( 使用集合表示 : X ⊆ Y , X ≠ ∅ \rm X \subseteq Y , X \not= \varnothingX⊆Y,X


=∅ , 项集 Y \rm YY 包含 项集 X \rm XX , 并且 项集 X \rm XX 不为空集 )


则 项集 Y \rm YY 一定是 非频繁的 ;



举例 :


数据集 D \rm DD 为 :


事物编号 事物 ( 商品 )

001 001001 奶粉 , 莴苣

002 002002 莴苣 , 尿布 , 啤酒 , 甜菜

003 003003 奶粉 , 尿布 , 啤酒 , 橙汁

004 004004 奶粉 , 莴苣 , 尿布 , 啤酒

005 005005 奶粉 , 莴苣 , 尿布 , 橙汁

1 11 项集 { 甜 菜 } \{ 甜菜 \}{甜菜}


2 22 项集 { 甜 菜 , 啤 酒 } \{ 甜菜 , 啤酒 \}{甜菜,啤酒}


上述 { 甜 菜 , 啤 酒 } \{ 甜菜 , 啤酒 \}{甜菜,啤酒} 就是 { 甜 菜 } \{ 甜菜 \}{甜菜} 的 超集 ,


1 11 项集 { 甜 菜 } \{ 甜菜 \}{甜菜} 其支持度是 0.2 \rm 0.20.2 , 小于最小支持度 m i n s u p = 0.6 \rm minsup = 0.6minsup=0.6, 是 非频繁项集


那么 { 甜 菜 , 啤 酒 } \{ 甜菜 , 啤酒 \}{甜菜,啤酒} 也是 非频繁项集 ;




在具体算法中会使用该性质 , 用于进行 “剪枝” 操作 ;


计算支持度时 , 按照 1 11 项集 支持度 , 2 22 项集 支持度 , ⋯ \cdots⋯ 顺序进行计算 ,


如果发现 1 11 项集 中有 非频繁项集 , 则包含该 1 11 项集的 n \rm nn 项集 肯定是 非频繁项集 ;


然后使用 频繁 1 11 项集 组合成 2 22 项集 , 然后再计算这些 2 22 项集是否是频繁项集 ;


“剪枝” 操作 减少了不必要的计算量 ;






二、 频繁项集子集性质


频繁项集 的 所有非空子集 , 一定是 频繁项集 ;



项集 Y \rm YY 是 频繁项集 ,


项集 Y \rm YY 是 项集 X \rm XX 的超集 ,


( 使用集合表示 : X ⊆ Y , X ≠ ∅ \rm X \subseteq Y , X \not= \varnothingX⊆Y,X


=∅ , 项集 Y \rm YY 包含 项集 X \rm XX , 并且 项集 X \rm XX 不为空集 )


则 项集 X \rm XX 一定是 频繁的 ;



举例 :


数据集 D \rm DD 为 :


事物编号 事物 ( 商品 )

001 001001 奶粉 , 莴苣

002 002002 莴苣 , 尿布 , 啤酒 , 甜菜

003 003003 奶粉 , 尿布 , 啤酒 , 橙汁

004 004004 奶粉 , 莴苣 , 尿布 , 啤酒

005 005005 奶粉 , 莴苣 , 尿布 , 橙汁

1 11 项集 { 尿 布 } \{ 尿布 \}{尿布} , { 啤 酒 } \{ 啤酒 \}{啤酒}


2 22 项集 { 尿 布 , 啤 酒 } \{ 尿布 , 啤酒 \}{尿布,啤酒}



2 22 项集 { 尿 布 , 啤 酒 } \{ 尿布 , 啤酒 \}{尿布,啤酒} 其支持度是 0.6 \rm 0.60.6 , 等于最小支持度 m i n s u p = 0.6 \rm minsup = 0.6minsup=0.6, 是 频繁项集


那么 2 22 项集 { 尿 布 , 啤 酒 } \{ 尿布 , 啤酒 \}{尿布,啤酒} 的子集是 1 11 项集 { 尿 布 } \{ 尿布 \}{尿布} , { 啤 酒 } \{ 啤酒 \}{啤酒} ,


根据上述性质 , 1 11 项集 { 尿 布 } \{ 尿布 \}{尿布} , { 啤 酒 } \{ 啤酒 \}{啤酒} 都是 频繁项集 ;






三、 项集与超集支持度性质


任意一个 项集 的 支持度 , 都 大于等于 其 超集 支持度 ;



超集 就是 包含 该集合的集合 ;


目录
相关文章
|
4月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】金山办公2020校招大数据和机器学习算法笔试题
金山办公2020校招大数据和机器学习算法笔试题的解析,涵盖了编程、数据结构、正则表达式、机器学习等多个领域的题目和答案。
105 10
|
4月前
|
算法 数据挖掘 Python
【数据挖掘】十大算法之Apriori关联算法
Apriori关联算法,这是一种用于发现数据集中频繁项集和关联规则的数据挖掘技术,通过迭代过程找出满足最小支持度阈值的项集。
71 8
|
4月前
|
自然语言处理 算法 数据挖掘
【数据挖掘】十大算法之PageRank连接分析算法
文章介绍了PageRank算法的基本概念和数学模型,包括如何通过一阶马尔科夫链定义随机游走模型以及如何计算网页的重要性评分,并提供了PageRank迭代算法的具体步骤。
79 0
|
3月前
|
机器学习/深度学习 数据采集 算法
数据挖掘和机器学习算法
数据挖掘和机器学习算法
|
3月前
|
存储 算法 大数据
Apriori算法和Eclat算法差异
Apriori算法和Eclat算法差异
|
4月前
|
机器学习/深度学习 存储 人工智能
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题
本文是关于2022-2023年知能科技公司机器学习算法工程师岗位的秋招笔试题,包括简答题和编程题,简答题涉及神经网络防止过拟合的方法、ReLU激活函数的使用原因以及条件概率计算,编程题包括路径行走时间计算和两车相向而行相遇时间问题。
77 2
【数据挖掘】2022年2023届秋招知能科技公司机器学习算法工程师 笔试题
|
4月前
|
机器学习/深度学习 自然语言处理 算法
【数据挖掘】2020奇安信秋招算法方向试卷1 笔试题解析
2020年奇安信秋招算法方向试卷1的题目解析,覆盖了数据结构、机器学习、深度学习、自然语言处理、排序算法、激活函数、主题模型、采样方法、图像处理等多个领域的知识点。
51 1
【数据挖掘】2020奇安信秋招算法方向试卷1 笔试题解析
|
4月前
|
机器学习/深度学习 存储 算法
【数据挖掘】2020奇安信秋招算法方向试卷3 笔试题解析
2020年奇安信秋招算法方向试卷3的题目解析,涵盖了数据结构、机器学习、深度学习、自然语言处理、排序算法、激活函数、PCA、词嵌入库等多个领域的知识点。
63 1
【数据挖掘】2020奇安信秋招算法方向试卷3 笔试题解析
|
4月前
|
机器学习/深度学习 人工智能 算法
【数据挖掘】2022年2023届秋招奇虎360机器学习算法工程师 笔试题
本文提供了奇虎360公司2022年秋招机器学习算法工程师岗位的笔试题内容,包括选择题和编程题,涉及概率统计、数据结构、机器学习、计算机组成原理等多个领域。
98 5
|
4月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】2022年2023届秋招宏瓴科技公司机器学习算法工程师 笔试题
关于宏瓴科技有限公司2022-2023年秋招机器学习算法工程师岗位的笔试题目及作者个人对部分题目的解答尝试,涉及贝叶斯误差和贝叶斯最优分类器的概念、贝叶斯误差的重要性和估算方法,以及如何有效利用训练集和测试集进行深度学习模型训练的数据集划分策略。
61 4

热门文章

最新文章

下一篇
无影云桌面