聚类分析评估 下|学习笔记

简介: 快速学习聚类分析评估 下

开发者学堂课程【高校精品课-华东师范大学 - Python 数据科学基础与实践聚类分析评估 下】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/1067/detail/15537


聚类分析评估 下

 

内容介绍

一、内部指标

二、聚类结构验证

 

一、内部指标

1、凝聚度与分离度

(1)以事例来计算凝聚度和分离度。

Bss和wss加在一起,往往是一个常量。

下图为数据实际的例子,数据有四条记录,再看绿颜色的点,代表有四个样本。

image.png现在考虑一下,k=1和k=2分别计算的情况。

k=1时,它的中心平均值是在3这个位置。所以wss计算结果为10。

Bss是簇之间的分离度,考虑簇和簇之间的误差,k=1,就是一个簇,从中心到中心,共有四个样本,就是乘以4,计算结果为0。它们的和为10。

如果k=2,要把样本分成两类,有两个中心,一个中心在M1位置,另一个中心在M2位置。

计算wss,是一个类里面的每个样本与中心的误差的平方,m1是1.5,m2是4.5,m1,m2分别算出误差的平方,得出结果1。

计算k=2时的bss,即类之间的分离度。其中注意m1是与整个样本的中心3相减求出差值,计算结果为9,加在一起和为10,所以wss和bss加在一起的值是固定的。

(2)聚类效果

最终的结果都是10,但聚类的定义要求一个类里的样本要高度相似,类之间的差别要较大。所以wss越小越好,k=1时wss=10,k=2时wss=1,而bss要求分离度高,因而值越大越好。

判断聚类哪种更好,内部指标分离度和凝聚度可以帮助进行评估。

2、轮廓系数,silhouette coefficient,这个指标用得更多,因为它综合了凝聚度和分离度。

(1)定义:对于一个独立的样本i,要计算i到本簇中所有对象的平均距离,相当于凝聚度。

再计算第二个指标B,求指标到其他簇或最近簇对象的平均距离,可以选择一个簇或多个。之后会得到一个公式,可以算平均轮廓宽度。最后s总是>=0的。

image.png公式可以计算单个簇的轮廓系数,或者整个簇集的平均轮廓宽度。

(2)直观理解

a是一个簇里的,b是到最近的簇或者其他簇之间的,a相当于凝聚度,b相当于分离度,综合放在一起就叫轮廓系数。

注意评估的时候,越接近1越好。

 

二、聚类结构的验证

最困难和令人痛苦的就是聚类的校验和评估。

因为聚类是无监督的,没有分类可靠的最大原因就是评估很难,总是要评估靠谱不靠谱,好或坏,不像分类直接可以知道做的对不对。

聚类的评估,需要找一些指标来帮助。

但是如果没有努力,聚类分析仍然是一个黑艺术,只有有经验和勇气的真正的信徒才能获得成功。

有监督和无监督没有好坏之分,有监督有i,无监督则判断评估很困难。

但是聚类的评估还是要不断地探索。

相关文章
预期违背理论(expectancy violations theory)
预期违背理论(Expectancy Violations Theory)是由心理学家 John Bowlby 提出的,该理论认为人们在社交互动中会根据以往的经验和预期来判断他人的行为。当他人的行为与我们的预期相违背时,我们会产生一种心理上的不适感,这种不适感可能表现为惊讶、失望、愤怒等情绪。预期违背理论可以用来解释人们在社交互动中的情绪反应,以及为什么人们会对他人的行为产生不同的情感体验。
10110 4
|
存储 人工智能 算法
聚类的k值确定之轮廓系数
聚类的k值确定之轮廓系数
4284 0
|
8月前
|
前端开发 Java 关系型数据库
基于springboot的二手车交易系统
本系统基于B/S架构,采用VUE前端与SSM框架后端结合MySQL数据库,实现二手车交易管理。系统利用Java语言开发,具备良好的扩展性与稳定性,旨在提升二手交易管理效率,满足用户对信息查询与管理的需求。
|
12月前
|
算法 开发工具 计算机视觉
多通道肌电臂环精准手势识别,下一代交互系统
多通道肌电臂环精准手势识别,下一代交互系统
|
存储 SQL 运维
当「内容科技企业」遇上多模数据库:新榜采用Lindorm打造全域数据“超级底盘”
新榜业务以数据服务提升内容产业信息流通效率,其数据处理需求聚焦于跨平台实时数据融合处理、实时分析检索、批量更新效率三大维度。Lindorm通过多模超融合架构,提供检索分析一体化、多引擎数据共享,分布式弹性扩展等能力,成为支撑新榜内容服务的核心引擎,助力客户在内容生态竞争中持续领跑。
|
机器学习/深度学习 编解码 vr&ar
NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构
本文详细解读NeurIPS 2024最佳论文《视觉自回归建模:基于下一尺度预测的可扩展图像生成》。该研究提出VAR模型,通过多尺度token图和VAR Transformer结构,实现高效、高质量的图像生成,解决了传统自回归模型在二维结构信息、泛化能力和计算效率上的局限。实验表明,VAR在图像质量和速度上超越现有扩散模型,并展示出良好的扩展性和零样本泛化能力。未来研究将聚焦于文本引导生成和视频生成等方向。
1273 8
NeurIPS 2024最佳论文,扩散模型的创新替代:基于多尺度预测的视觉自回归架构
|
项目管理 vr&ar 图形学
怎么将两个模型合并成一个?
当你需要将多个3D模型组合为一个整体,简化管理、提高渲染性能或实现特定的效果时,合并模型是一个有用的工具和技术。
929 1
|
自然语言处理 知识图谱
|
敏捷开发 测试技术 持续交付
阿里云云效产品使用合集之如何进行本地化部署
云效作为一款全面覆盖研发全生命周期管理的云端效能平台,致力于帮助企业实现高效协同、敏捷研发和持续交付。本合集收集整理了用户在使用云效过程中遇到的常见问题,问题涉及项目创建与管理、需求规划与迭代、代码托管与版本控制、自动化测试、持续集成与发布等方面。