VI . 基于层次的聚类方法 切割点选取
1 . 算法终止条件 ( 切割点 ) : 用户可以指定聚类操作的算法终止条件 , 即上面图示中的切割点 , 如 :
① 聚类的最低个数 : 聚合层次聚类中 , n nn 个样本 , 开始有 n nn 个聚类 , 逐步合并 , 聚类个数逐渐减少 , 当聚类个数达到最低值 m i n minmin , 停止聚类算法 ;
② 聚类最高个数 : 划分层次聚类中 , n nn 个样本 , 开始有 1 11 个聚类 , 逐步划分 , 聚类个数逐渐增加 , 当聚类个数达到最大值 m a x maxmax , 停止聚类算法 ;
③ 聚类样本的最低半径 : 聚类的数据样本范围不能无限扩大 , 指定一个阈值 , 只有将该阈值内的样本放入一组 ; 半径指的是所有对象距离其平均点的距离 ;
2 . 切割点回退问题 : 切割点一旦确定 , 便无法回退 ; 这里以聚合层次聚类为例 :
① 处于切割点 4 44 : 如已经执行到了步骤三 , 此时处于切割点 4 44 , 聚类分组为 { a , b } \{a, b\}{a,b} , { c , d , e } \{c, d, e\}{c,d,e} ;
② 试图回退到 切割点 3 33 : 想要会回退到切割点 3 33 的状态 , 视图将聚类分组恢复成 { a , b } \{a, b\}{a,b} , { c } \{c\}{c}, { d , e } \{d, e\}{d,e} ;
③ 无法回退 : 该操作是无法实现的 , 聚类分组一旦 合并 或 分裂 , 此时就无法回退 ;
VII . 基于密度的方法
1 . 基于距离聚类的缺陷 : 很多的聚类方法 , 都是 基于样本对象之间的距离 ( 相似度 ) 进行的 , 这种方法对于任意形状的分组 , 就无法识别了 , 如下图左侧的聚类模式 ; 这种情况下可以使用基于密度的方法进行聚类操作 ;
基于距离的方法 , 是基于欧几里得距离函数得来 , 其基本的形状都是球状 , 或凸形状 , 如下图右侧的形状 ; 无法计算出凹形状 , 如下图左侧的形状 ;
2 . 基于密度的聚类方法 : 相邻的区域内 样本对象 的密度超过某个阈值 , 聚类算法就继续执行 , 如果周围区域密度都很小 , 那么停止聚类方法 ;
① 密度 : 某 单位大小 区域内的样本对象个数 ;
② 聚类分组要求 : 在聚类分组中 , 每个分组的数据样本密度都 必须达到密度要求的最低阈值 ;
3 . 基于密度的聚类方法 算法优点 :
① 排除干扰 : 过滤噪音数据 , 即密度很小 , 样本分布稀疏的数据 ;
② 增加聚类模式复杂度 : 聚类算法可以识别任意形状的分布模式 , 如上图左侧的聚类分组模式 ;
VIII . 基于方格的方法
1 . 基于方格的方法 : 将数据空间划分成 一个个方格 , 在这些方格数据结构上 , 将每个方格中的数据样本 , 当做一个数据处理 , 进行聚类操作 ;
2 . 基于方格的方法优点 : 处理速度很快 , 将每个方格都作为一个数据 , 如果分成 少数的几个方格进行聚类操作 , 聚类瞬间完成 ; 其速度与数据集样本个数无关 , 与划分的数据方格个数有关 ;
3 . 局限性 : 该方法的错误率很高 ;
IX . 基于模型的方法
基于模型的方法
① 基于统计的方法 : GMM 高斯混合模型 ;
② 神经网络方法 ;