聚类分析评估下｜学习笔记-阿里云开发者社区

聚类分析评估下｜学习笔记

2022-11-21 602

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习聚类分析评估下

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践：聚类分析评估下】学习笔记，与课程紧密联系，让用户快速学习知识。

内容介绍

一、内部指标

二、聚类结构验证

1、凝聚度与分离度

（1）以事例来计算凝聚度和分离度。

Bss和wss加在一起，往往是一个常量。

下图为数据实际的例子，数据有四条记录，再看绿颜色的点，代表有四个样本。

现在考虑一下，k=1和k=2分别计算的情况。

k＝1时，它的中心平均值是在3这个位置。所以wss计算结果为10。

Bss是簇之间的分离度，考虑簇和簇之间的误差，k=1，就是一个簇，从中心到中心，共有四个样本，就是乘以4，计算结果为0。它们的和为10。

如果k=2，要把样本分成两类，有两个中心，一个中心在M1位置，另一个中心在M2位置。

计算wss，是一个类里面的每个样本与中心的误差的平方，m1是1.5，m2是4.5，m1，m2分别算出误差的平方，得出结果1。

计算k=2时的bss，即类之间的分离度。其中注意m1是与整个样本的中心3相减求出差值，计算结果为9，加在一起和为10，所以wss和bss加在一起的值是固定的。

（2）聚类效果

最终的结果都是10，但聚类的定义要求一个类里的样本要高度相似，类之间的差别要较大。所以wss越小越好，k＝1时wss＝10，k＝2时wss＝1，而bss要求分离度高，因而值越大越好。

判断聚类哪种更好，内部指标分离度和凝聚度可以帮助进行评估。

2、轮廓系数，silhouette coefficient，这个指标用得更多，因为它综合了凝聚度和分离度。

（1）定义：对于一个独立的样本i，要计算i到本簇中所有对象的平均距离，相当于凝聚度。

再计算第二个指标B，求指标到其他簇或最近簇对象的平均距离，可以选择一个簇或多个。之后会得到一个公式，可以算平均轮廓宽度。最后s总是>=0的。

公式可以计算单个簇的轮廓系数，或者整个簇集的平均轮廓宽度。

（2）直观理解

a是一个簇里的，b是到最近的簇或者其他簇之间的，a相当于凝聚度，b相当于分离度，综合放在一起就叫轮廓系数。

注意评估的时候，越接近1越好。

最困难和令人痛苦的就是聚类的校验和评估。

因为聚类是无监督的，没有分类可靠的最大原因就是评估很难，总是要评估靠谱不靠谱，好或坏，不像分类直接可以知道做的对不对。

聚类的评估，需要找一些指标来帮助。

但是如果没有努力，聚类分析仍然是一个黑艺术，只有有经验和勇气的真正的信徒才能获得成功。

有监督和无监督没有好坏之分，有监督有i，无监督则判断评估很困难。

但是聚类的评估还是要不断地探索。