1.聚类的基本思想
聚类分析将关系密切的研究对象聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的聚合完毕,并形成一个分群图(谱系图)描绘不同研究对象之间的类似程度差异。其中,对样品的分类称为Q型聚类分析,对变量的分类称为R型聚类分析。
聚类分析同回归分析、判别分析一起称为多元分析的三大方法。主要包括系统聚类法、模糊聚类法、K-均值法、有序样品的聚类、分解法和加入法。
2.相似性度量
对样品聚类时相似性通常用某种距离来表征,对于间隔尺度的变量,可以采用欧氏距离或者马氏距离(马氏距离不受指标量纲的影响,但某些情况下的值难以计算,故虽然欧氏距离表征效果没有马氏距离好,但在实际应用中仍多采用欧氏距离)。如果指标是有序尺度或者名义尺度,常用相似系数量化不同指标之间的相似程度,常用的相似系数包括夹角余弦(不重视长度)和相关系数(数据标准化后的夹角余弦)。
3.类和类的特征
类的定义有多种方法,此处主要介绍类的几个特征(类G的元素为x1,x2....xm,m为G内的样品数或指标数):
1.均值(或称为G的重心)
2.样本离差阵及协方差阵:
3.G的直径(有多种定义):
4.重心法:两个重心和间的距离
5.离差平方和法:采用直径的第一种定义方法,定义类和类之间距离平方为
4.系统聚类法
系统聚类法是最常用的聚类法,根据上面给出的五种距离的定义,也可以分别给出对应的几种系统聚类法。
最短距离法把类与类中最邻近的两个样品的距离作为类与类之间的距离,不断合并距离最近的两个类直到形成一个大类的聚类系统。这时给出合适的阈值,决定类的个数。
此方法具有链接聚合的趋势,大部分样品聚合在一个类中,形成延伸的链状结构,实际中不提倡使用。
最长距离法把类与类中最远的两个样品的距离作为新类与类之间的距离,不断合并距离最近的两个类直到形成一个大类的聚类系统。
重心法从物理的角度来看较为合理,可以证明将类和类合并为,与其他类距离递推公式为:
类平均法聚类效果较好,应用较为广泛,有组间联结法(距离计算只考虑两组之间)和组内联结法(距离计算将组内元素距离也考虑在内)两种形式,空间既不太浓缩也不太扩张。其递推公式为:
(更复杂的可变类平均法使用并不多,与的值的选择较为相关且一般取负值)
离差平方和法(ward方法):将n个样品分为k类有R(n,k)种可能的方法,在n和k较大时达到天文数字,即便高速计算机也难以完成计算。故ward方法是在求一个局部最优解,假设n个样品各自成一类,选择离差平方和增加最小的两类合并为一类,直到归为一类为止。需要指出的是,将类和类合并为,与其他类距离递推公式为:
上述五种系统聚类方法步骤相同,只是对于距离的定义有区别,因此可以将其统一为一个公式(系数不同),此处不再赘述。
除此之外,如何确定分类数也是聚类问题研究的重要方面。在系统聚类法中我们最终得到一个树状结构,一般取聚合系数—分类数变化曲线开始平缓的点作为合适的分类数。
5.模糊聚类分析
设x是全域,若A为x上取值为[0,1]的一个函数,则称A为模糊集。若一个矩阵元素取值为[0,1]范围内,则称该矩阵为模糊矩阵。
模糊聚类分析的实质是根据研究对象本身的性质构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系。首先对原始数据进行变换,然后计算模糊相似矩阵,建立模糊等价矩阵(有限次褶积运算后由此得到模糊聚类关系。此后给定不同的置信水平,求截阵找出R的表示,以此得到普通的分类关系。
6.K均值聚类和有序样品的聚类
K—均值法(快速聚类法)
基本思想是把每个样品聚集到其最近形心(均值)中。首先将样品粗略分为K个初始类,再进行修改逐个分派样品到其最近均值的类中,重新计算新样品的类和失去样品的类的均值,直到没有各类无元素进出。或者一开始指定K个最初的形心(种子点),再进行循环。
有序样品的聚类
有序样品的聚类问题要简单一些,因为将n个样品分为k类有R(n,k)种可能的组合。寻求最优分割法使用Fisher算法,与系统聚类法中的离差平方和法类似,但在有序样品中可以求得精确解。