聚类分析评估 下|学习笔记

简介: 快速学习聚类分析评估 下

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践聚类分析评估 下】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15537


聚类分析评估 下

 

内容介绍

一、内部指标

二、聚类结构验证

 

一、内部指标

1、凝聚度与分离度

(1)以事例来计算凝聚度和分离度。

Bss和wss加在一起,往往是一个常量。

下图为数据实际的例子,数据有四条记录,再看绿颜色的点,代表有四个样本。

image.png现在考虑一下,k=1和k=2分别计算的情况。

k=1时,它的中心平均值是在3这个位置。所以wss计算结果为10。

Bss是簇之间的分离度,考虑簇和簇之间的误差,k=1,就是一个簇,从中心到中心,共有四个样本,就是乘以4,计算结果为0。它们的和为10。

如果k=2,要把样本分成两类,有两个中心,一个中心在M1位置,另一个中心在M2位置。

计算wss,是一个类里面的每个样本与中心的误差的平方,m1是1.5,m2是4.5,m1,m2分别算出误差的平方,得出结果1。

计算k=2时的bss,即类之间的分离度。其中注意m1是与整个样本的中心3相减求出差值,计算结果为9,加在一起和为10,所以wss和bss加在一起的值是固定的。

(2)聚类效果

最终的结果都是10,但聚类的定义要求一个类里的样本要高度相似,类之间的差别要较大。所以wss越小越好,k=1时wss=10,k=2时wss=1,而bss要求分离度高,因而值越大越好。

判断聚类哪种更好,内部指标分离度和凝聚度可以帮助进行评估。

2、轮廓系数,silhouette coefficient,这个指标用得更多,因为它综合了凝聚度和分离度。

(1)定义:对于一个独立的样本i,要计算i到本簇中所有对象的平均距离,相当于凝聚度。

再计算第二个指标B,求指标到其他簇或最近簇对象的平均距离,可以选择一个簇或多个。之后会得到一个公式,可以算平均轮廓宽度。最后s总是>=0的。

image.png公式可以计算单个簇的轮廓系数,或者整个簇集的平均轮廓宽度。

(2)直观理解

a是一个簇里的,b是到最近的簇或者其他簇之间的,a相当于凝聚度,b相当于分离度,综合放在一起就叫轮廓系数。

注意评估的时候,越接近1越好。

 

二、聚类结构的验证

最困难和令人痛苦的就是聚类的校验和评估。

因为聚类是无监督的,没有分类可靠的最大原因就是评估很难,总是要评估靠谱不靠谱,好或坏,不像分类直接可以知道做的对不对。

聚类的评估,需要找一些指标来帮助。

但是如果没有努力,聚类分析仍然是一个黑艺术,只有有经验和勇气的真正的信徒才能获得成功。

有监督和无监督没有好坏之分,有监督有i,无监督则判断评估很困难。

但是聚类的评估还是要不断地探索。

相关文章
|
8月前
|
机器学习/深度学习 算法 Python
LightGBM中的特征选择与重要性评估
LightGBM中的特征选择与重要性评估【2月更文挑战第1天】
1482 0
|
8月前
|
编解码 算法 数据挖掘
【数据挖掘】聚类趋势估计、簇数确定、质量测定等评估方法详解(图文解释 超详细)
【数据挖掘】聚类趋势估计、簇数确定、质量测定等评估方法详解(图文解释 超详细)
218 0
|
机器学习/深度学习 监控 算法
信用风险评估评分卡建模方法及原理| 学习笔记
快速学习信用风险评估评分卡建模方法及原理。
信用风险评估评分卡建模方法及原理| 学习笔记
|
7月前
|
机器学习/深度学习 算法 数据可视化
【机器学习】分类与预测算法的评价与优化
【机器学习】分类与预测算法的评价与优化
114 0
|
8月前
|
机器学习/深度学习 算法
【视频】R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险|数据分享
【视频】R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险|数据分享
|
8月前
|
数据可视化 算法 数据挖掘
R语言用关联规则和聚类模型挖掘处方数据探索药物配伍中的规律
R语言用关联规则和聚类模型挖掘处方数据探索药物配伍中的规律
|
8月前
|
机器学习/深度学习
R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
R语言逻辑回归(Logistic回归)模型分类预测病人冠心病风险
|
8月前
|
数据可视化
R语言信用风险回归模型中交互作用的分析及可视化
R语言信用风险回归模型中交互作用的分析及可视化
|
机器学习/深度学习 数据采集 运维
基于无监督学习-关联规则的风险评估模型:更精准的预测!
乳腺癌被认为是全球最常见的女性恶性肿瘤之一,对患者和公共健康造成了巨大的负担。准确评估乳腺癌风险是预防、诊断和治疗该疾病的关键。然而,乳腺癌风险估计面临着一些挑战,如数据的限制性、模型的复杂性和准确性等。因此,发展一种准确且高效的乳腺癌风险评估方法具有重要意义。
221 0
|
算法 数据挖掘 开发者
聚类分析评估 上|学习笔记
快速学习聚类分析评估 上
聚类分析评估 上|学习笔记