聚类分析

简介: 聚类分析

1.聚类的基本思想

聚类分析将关系密切的研究对象聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的聚合完毕,并形成一个分群图(谱系图)描绘不同研究对象之间的类似程度差异。其中,对样品的分类称为Q型聚类分析,对变量的分类称为R型聚类分析。


聚类分析同回归分析、判别分析一起称为多元分析的三大方法。主要包括系统聚类法、模糊聚类法、K-均值法、有序样品的聚类、分解法和加入法。


2.相似性度量

对样品聚类时相似性通常用某种距离来表征,对于间隔尺度的变量,可以采用欧氏距离或者马氏距离(马氏距离不受指标量纲的影响,但某些情况下的值难以计算,故虽然欧氏距离表征效果没有马氏距离好,但在实际应用中仍多采用欧氏距离)。如果指标是有序尺度或者名义尺度,常用相似系数量化不同指标之间的相似程度,常用的相似系数包括夹角余弦(不重视长度)和相关系数(数据标准化后的夹角余弦)。


3.类和类的特征

类的定义有多种方法,此处主要介绍类的几个特征(类G的元素为x1,x2....xm,m为G内的样品数或指标数):


1.均值(或称为G的重心)微信图片_20220111204802.gif

2.样本离差阵及协方差阵:微信图片_20220111204821.gif


3.G的直径(有多种定义):微信图片_20220111204840.gif


4.重心法:两个重心微信图片_20220111204915.gif微信图片_20220111204940.gif间的距离

5.离差平方和法:采用直径的第一种定义方法,定义类微信图片_20220111205008.gif和类微信图片_20220111205016.gif之间距离平方为微信图片_20220111205037.gif


4.系统聚类法

系统聚类法是最常用的聚类法,根据上面给出的五种距离的定义,也可以分别给出对应的几种系统聚类法。


最短距离法把类与类中最邻近的两个样品的距离作为类与类之间的距离,不断合并距离最近的两个类直到形成一个大类的聚类系统。这时给出合适的阈值,决定类的个数。


此方法具有链接聚合的趋势,大部分样品聚合在一个类中,形成延伸的链状结构,实际中不提倡使用。


最长距离法把类与类中最远的两个样品的距离作为新类与类之间的距离,不断合并距离最近的两个类直到形成一个大类的聚类系统。


重心法从物理的角度来看较为合理,可以证明将类微信图片_20220111205054.gif和类微信图片_20220111205111.gif合并为微信图片_20220111205128.gif,与其他类微信图片_20220111205143.gif距离递推公式为:


微信图片_20220111205159.gif


类平均法聚类效果较好,应用较为广泛,有组间联结法(距离计算只考虑两组之间)和组内联结法(距离计算将组内元素距离也考虑在内)两种形式,空间既不太浓缩也不太扩张。其递推公式为:


微信图片_20220111205218.gif


(更复杂的可变类平均法使用并不多,与的值的选择较为相关且一般取负值)


离差平方和法(ward方法):将n个样品分为k类有R(n,k)种可能的方法,在n和k较大时达到天文数字,即便高速计算机也难以完成计算。故ward方法是在求一个局部最优解,假设n个样品各自成一类,选择离差平方和增加最小的两类合并为一类,直到归为一类为止。需要指出的是,将类和类合并为,与其他类距离递推公式为:


微信图片_20220111205240.gif


上述五种系统聚类方法步骤相同,只是对于距离的定义有区别,因此可以将其统一为一个公式(系数不同),此处不再赘述。


除此之外,如何确定分类数也是聚类问题研究的重要方面。在系统聚类法中我们最终得到一个树状结构,一般取聚合系数—分类数变化曲线开始平缓的点作为合适的分类数。


5.模糊聚类分析

设x是全域,若A为x上取值为[0,1]的一个函数,则称A为模糊集。若一个矩阵元素取值为[0,1]范围内,则称该矩阵为模糊矩阵。


模糊聚类分析的实质是根据研究对象本身的性质构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系。首先对原始数据进行变换,然后计算模糊相似矩阵,建立模糊等价矩阵(有限次褶积运算后微信图片_20220111205304.gif由此得到模糊聚类关系微信图片_20220111205322.gif。此后给定不同的置信水平微信图片_20220111205345.gif,求微信图片_20220111205401.gif截阵找出R的微信图片_20220111205416.gif表示,以此得到普通的分类关系微信图片_20220111205432.gif


6.K均值聚类和有序样品的聚类

K—均值法(快速聚类法)

基本思想是把每个样品聚集到其最近形心(均值)中。首先将样品粗略分为K个初始类,再进行修改逐个分派样品到其最近均值的类中,重新计算新样品的类和失去样品的类的均值,直到没有各类无元素进出。或者一开始指定K个最初的形心(种子点),再进行循环。


有序样品的聚类

有序样品的聚类问题要简单一些,因为将n个样品分为k类有R(n,k)种可能的组合。寻求最优分割法使用Fisher算法,与系统聚类法中的离差平方和法类似,但在有序样品中可以求得精确解。


相关文章
|
6月前
|
数据采集 机器学习/深度学习 算法
聚类算法
【6月更文挑战第6天】聚类算法是无监督学习方法,用于将数据集划分成相似样本的类别。常见的聚类算法有K均值、层次聚类和DBSCAN等。在分析时,涉及数据预处理、选择算法、确定聚类数目、执行聚类及评估结果。层次聚类分为自底向上和自顶向下两种,而K-Means是基于质心的聚类算法。评估指标如轮廓系数可衡量聚类效果。聚类过程包括初始化中心、计算样本与中心距离、分配类别和更新中心,直到收敛。
115 2
|
7月前
|
机器学习/深度学习 数据可视化 算法
数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
数据分享|R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
|
7月前
|
数据挖掘 网络可视化
R语言APRIORI关联规则、K-MEANS均值聚类分析中药专利复方治疗用药规律网络可视化
R语言APRIORI关联规则、K-MEANS均值聚类分析中药专利复方治疗用药规律网络可视化
|
7月前
|
机器学习/深度学习 数据可视化 算法
R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
R语言用主成分PCA、 逻辑回归、决策树、随机森林分析心脏病数据并高维可视化
|
7月前
|
机器学习/深度学习 算法 数据可视化
R语言谱聚类、K-MEANS聚类分析非线性环状数据比较
R语言谱聚类、K-MEANS聚类分析非线性环状数据比较
|
机器学习/深度学习 人工智能 算法
机器学习算法之聚类算法
机器学习算法之聚类算法
|
机器学习/深度学习 算法 数据挖掘
【机器学习算法】8、聚类算法之DBSCAN(一)
【机器学习算法】8、聚类算法之DBSCAN(一)
284 0
|
机器学习/深度学习 算法 数据挖掘
【机器学习算法】8、聚类算法之DBSCAN(二)
【机器学习算法】8、聚类算法之DBSCAN(二)
127 0
|
算法 数据可视化 数据挖掘
聚类算法(下):10个聚类算法的评价指标
上篇文章我们已经介绍了一些常见的聚类算法,下面我们将要介绍评估聚类算法的指标
421 0
聚类算法(下):10个聚类算法的评价指标
|
算法 数据可视化 数据挖掘
聚类算法(上):8个常见的无监督聚类方法介绍和比较
本文将全面概述Scikit-Learn库中用于的聚类技术以及各种评估方法。本文作为第一部分将介绍和比较各种聚类算法
645 0
下一篇
DataWorks