五、 K-Means 算法优缺点
K-Means 算法优点 :
① 处理大数据量有 可扩充性 和 高效率 ; 其算法复杂度是 O ( t k n ) \rm O(tkn)O(tkn) , n \rm nn 是样本个数 , k \rm kk 是聚类个数 , t \rm tt 是循环次数 ;
② 可以实现局部最优化 ;
K-Means 算法缺点 :
① 族个数 : 族的个数 K \rm KK 必须事先确定 ;
② 形状 : 无法找到 特殊形状 的族 , 如凹形的 ;
③ 异常值 : 对于 异常数据敏感 , 异常数据对中心点计算影响很大 ;
④ 必须给定 K \rm KK 个初始中心点 , 中心点选不好 , 影响聚类质量 ;
⑤ 求中心点时 , 需要计算算术平均值 , 针对分类属性的数据无法计算 , 如男女无法计算 ;
六、 DBSCAN 算法优缺点
DBSCAN 算法优点 :
① 族个数 : 不需要事先确定 族个数 ;
② 形状 : 能发现 任意形状的族 ;
③ 异常值 : 对异常数据不敏感 ;
④ 聚类速度快 ;
DBSCAN 算法缺点 :
① 输入参数 ε \varepsilonε 和 M i n P t s \rm MinPtsMinPts 的值比较难确定 ;
② 数据库中 数据对象密度分布不均匀 时 , 使用相同的参数值可能无法得到好的聚类结果 ;
七、 支持度 置信度
给定 X , Y \rm X , YX,Y 两个项集 , 并且有 X ≥ Y \rm X \geq YX≥Y ;
支持度 : X ⇒ Y \rm X \Rightarrow YX⇒Y 的支持度是 X , Y \rm X , YX,Y 两个项集在数据库 D \rm DD 中 同时出现的概率 , 即 P r ( X ∪ Y ) \rm Pr(X \cup Y)Pr(X∪Y)
置信度 : X ⇒ Y \rm X \Rightarrow YX⇒Y 的置信度度是 X \rm XX 出现的前提下 , Y \rm YY 项集在数据库 D \rm DD 中同时出现的概率 , 即 P r ( Y ∣ X ) = P r ( X ∪ Y ) P r ( X ) \rm Pr(Y|X) = \cfrac{Pr(X \cup Y)}{Pr(X)}Pr(Y∣X)=
Pr(X)
Pr(X∪Y)
一般情况下 置信度 大于 支持度 ;
八、 频繁项集
项集 X \rm XX 的 支持度 s u p p o r t ( X ) \rm support(X)support(X) , 大于等于 指定的 最小支持度阈值 m i n s u p \rm minsupminsup ,
则称该 项集 X \rm XX 为 频繁项集 ,
又称为 频繁项目集 ;
九、 非频繁项集
项集 X \rm XX 的 支持度 s u p p o r t ( X ) \rm support(X)support(X) , 小于 指定的 最小支持度阈值 m i n s u p \rm minsupminsup ,
则称该 项集 X \rm XX 为 非频繁项集 ,
又称为 非频繁项目集 ;
十、 Apriori 算法过程
原始数据集 D \rm DD ,
1 11 项集 C 1 \rm C_1C
1
, 2 22 项集 C 2 \rm C_2C
2
, ⋯ \cdots⋯ , k \rm kk 项集 C k \rm C_kC
k
, 这些项集都是候选项集 ,
根据 原始数据集 D \rm DD , 创造 1 11 项集 C 1 \rm C_1C
1
, 然后对 C 1 \rm C_1C
1
执行 数据集扫描函数 , 找到其中的 频繁 1 11 项集 L 1 \rm L_1L
1
,
根据 频繁 1 11 项集 L 1 \rm L_1L
1
, 创造 2 22 项集 C 2 \rm C_2C
2
, 然后对 C 2 \rm C_2C
2
执行 数据集扫描函数 , 找到其中的 频繁 2 22 项集 L 2 \rm L_2L
2
,
⋮ \vdots
⋮
根据 频繁 k − 1 \rm k-1k−1 项集 L k − 1 \rm L_{k-1}L
k−1
, 创造 k \rm kk 项集 C k \rm C_kC
k
, 然后对 C k \rm C_kC
k
执行 数据集扫描函数 , 找到其中的 频繁 k \rm kk 项集 L k \rm L_kL
k
,
参考博客 : 【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )