【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(二)

简介: 【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(二)

五、 K-Means 算法优缺点


K-Means 算法优点 :


① 处理大数据量有 可扩充性 和 高效率 ; 其算法复杂度是 O ( t k n ) \rm O(tkn)O(tkn) , n \rm nn 是样本个数 , k \rm kk 是聚类个数 , t \rm tt 是循环次数 ;


② 可以实现局部最优化 ;



K-Means 算法缺点 :


① 族个数 : 族的个数 K \rm KK 必须事先确定 ;


② 形状 : 无法找到 特殊形状 的族 , 如凹形的 ;


③ 异常值 : 对于 异常数据敏感 , 异常数据对中心点计算影响很大 ;


④ 必须给定 K \rm KK 个初始中心点 , 中心点选不好 , 影响聚类质量 ;


⑤ 求中心点时 , 需要计算算术平均值 , 针对分类属性的数据无法计算 , 如男女无法计算 ;






六、 DBSCAN 算法优缺点


DBSCAN 算法优点 :


① 族个数 : 不需要事先确定 族个数 ;


② 形状 : 能发现 任意形状的族 ;


③ 异常值 : 对异常数据不敏感 ;


④ 聚类速度快 ;



DBSCAN 算法缺点 :


① 输入参数 ε \varepsilonε 和 M i n P t s \rm MinPtsMinPts 的值比较难确定 ;


② 数据库中 数据对象密度分布不均匀 时 , 使用相同的参数值可能无法得到好的聚类结果 ;






七、 支持度 置信度


给定 X , Y \rm X , YX,Y 两个项集 , 并且有 X ≥ Y \rm X \geq YX≥Y ;


支持度 : X ⇒ Y \rm X \Rightarrow YX⇒Y 的支持度是 X , Y \rm X , YX,Y 两个项集在数据库 D \rm DD 中 同时出现的概率 , 即 P r ( X ∪ Y ) \rm Pr(X \cup Y)Pr(X∪Y)


置信度 : X ⇒ Y \rm X \Rightarrow YX⇒Y 的置信度度是 X \rm XX 出现的前提下 , Y \rm YY 项集在数据库 D \rm DD 中同时出现的概率 , 即 P r ( Y ∣ X ) = P r ( X ∪ Y ) P r ( X ) \rm Pr(Y|X) = \cfrac{Pr(X \cup Y)}{Pr(X)}Pr(Y∣X)=

Pr(X)

Pr(X∪Y)




一般情况下 置信度 大于 支持度 ;






八、 频繁项集


项集 X \rm XX 的 支持度 s u p p o r t ( X ) \rm support(X)support(X) , 大于等于 指定的 最小支持度阈值 m i n s u p \rm minsupminsup ,


则称该 项集 X \rm XX 为 频繁项集 ,


又称为 频繁项目集 ;






九、 非频繁项集


项集 X \rm XX 的 支持度 s u p p o r t ( X ) \rm support(X)support(X) , 小于 指定的 最小支持度阈值 m i n s u p \rm minsupminsup ,


则称该 项集 X \rm XX 为 非频繁项集 ,


又称为 非频繁项目集 ;






十、 Apriori 算法过程

image.png



原始数据集 D \rm DD ,


1 11 项集 C 1 \rm C_1C

1


 , 2 22 项集 C 2 \rm C_2C

2


 , ⋯ \cdots⋯ , k \rm kk 项集 C k \rm C_kC

k


 , 这些项集都是候选项集 ,



根据 原始数据集 D \rm DD , 创造 1 11 项集 C 1 \rm C_1C

1


 , 然后对 C 1 \rm C_1C

1


 执行 数据集扫描函数 , 找到其中的 频繁 1 11 项集 L 1 \rm L_1L

1


 ,


根据 频繁 1 11 项集 L 1 \rm L_1L

1


 , 创造 2 22 项集 C 2 \rm C_2C

2


 , 然后对 C 2 \rm C_2C

2


 执行 数据集扫描函数 , 找到其中的 频繁 2 22 项集 L 2 \rm L_2L

2


 ,


⋮ \vdots


根据 频繁 k − 1 \rm k-1k−1 项集 L k − 1 \rm L_{k-1}L

k−1


 , 创造 k \rm kk 项集 C k \rm C_kC

k


 , 然后对 C k \rm C_kC

k


 执行 数据集扫描函数 , 找到其中的 频繁 k \rm kk 项集 L k \rm L_kL

k


 ,



参考博客 : 【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )


目录
相关文章
|
7月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】神经网络与感知机基础概念讲解(图文解释 超详细)
【数据挖掘】神经网络与感知机基础概念讲解(图文解释 超详细)
143 0
【数据挖掘】神经网络与感知机基础概念讲解(图文解释 超详细)
|
7月前
|
运维 安全 数据挖掘
【数据挖掘】离群点概念、类型、检测的挑战概述(图文解释 超详细)
【数据挖掘】离群点概念、类型、检测的挑战概述(图文解释 超详细)
555 0
|
7月前
|
机器学习/深度学习 存储 编解码
【数据挖掘】网格聚类STING、概念聚类COBWEB和模糊聚类的讲解(图文解释)
【数据挖掘】网格聚类STING、概念聚类COBWEB和模糊聚类的讲解(图文解释)
390 0
|
7月前
|
机器学习/深度学习 数据挖掘 BI
【数据挖掘】回归分析定义、概念、分类、过程讲解(图文解释 超详细)
【数据挖掘】回归分析定义、概念、分类、过程讲解(图文解释 超详细)
343 0
|
机器学习/深度学习 数据采集 算法
【数据挖掘】分类任务简介 ( 分类概念 | 分类和预测 | 分类过程 | 训练集 | 测试集 | 数据预处理 | 有监督学习 )
【数据挖掘】分类任务简介 ( 分类概念 | 分类和预测 | 分类过程 | 训练集 | 测试集 | 数据预处理 | 有监督学习 )
865 0
|
编解码 算法 数据挖掘
【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )
【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )
577 0
【数据挖掘】基于方格的聚类方法 ( 概念 | STING 方法 | CLIQUE 方法 )
|
数据挖掘
【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(三)
【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(三)
334 0
【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(三)
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(二)
【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(二)
265 0
【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(二)
|
算法 数据挖掘
【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(一)
【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(一)
201 0
【数据挖掘】基于密度的聚类方法 - DBSCAN 方法 ( K-Means 方法缺陷 | 基于密度聚类原理及概念 | ε-邻域 | 核心对象 | 直接密度可达 | 密度可达 | 密度连接 )(一)
|
存储 机器学习/深度学习 SQL
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(一)
【数据挖掘】数据挖掘总结 ( 数据挖掘相关概念 ) ★★(一)
190 0

热门文章

最新文章