聚类 Cluster(上)

简介: 聚类 Cluster

正文


聚类算法评价指标


聚类性能度量可以分为两类:

  • 一类是将聚类结果与某个“参考模型”进行比较,称为“外部指标”(external index)
  • 一类是直接考察聚类结果而不利用任何参考模型,称为“内部指标”(internal index)

对于


外部指标


对数据集D = { x 1 , x 2 , . . . , x m },假定通过聚类算法将样本局为C = { C 1 , C 2 , . . . C k }将参考模型给出的簇划分为C ∗ = { C 1 ∗ , C 2 ∗ , . . . , C S ∗ }

相应的,另λ 与λ ∗分别表示与C 和 C^*对应的簇标记向量。将样本两两配对考虑,有如下定义:

6.png


集合S 1表示包含了在C 中属于相同的簇并且在C^*C  中也属于相同的簇的样本;

集合S 2 表示包含了在C中属于相同的簇但在C^* 中不属于相同的簇的样本;

……以此类推……

对每个样本对( x i , x j ) (i<j)仅能出现在一个集合中,因此有


7.png

基于以上定义,对无监督聚类算法的聚类结果有如下性能度量指标:


Jaccard系数(accard Coefficient,JCI)


8.png


所有属于同一类的样本对,同时在C ,C^∗ 中隶属于同一类的样本对的比例。

FM指数(Fowlkes and Mallows Index,FMI)


9.png


在C中属于同一类的样本对中,同时属于C 和C ∗ C^∗C的样本对的比例为p 1 在C^∗ 中属于同一类的样本对中,同时属于C和C^*C

的样本对的比例为p 2  ,FMI就是p 1  和p 2的几何平均。

Rand指数(Rand Index,RI)


10.png

很显然,上述性能度量指标的取值都在[ 0 , 1 ] 之间,并且取值越大越好。


内部指标


对于聚类结果C = { C 1 , C 2 , . . . , C k } ,作如下定义:

11.png

其中

12.png

基于上述定义,得到如下考量聚类性能的内部指标:

DB指数( Davies-Bouldin Index,DBI)


13.png

DBI的值越小越好

Dunn指数(Dunn Index,DI)

14.png


DI的值越大越好


距离度量


聚类算法的一个重要的度量目标是表示两个样本点之间的相似程度:距离越近,相似程度越高;距离越远,相似程度越低。


常用的距离度量方式:


闵可夫斯基距离;

欧氏距离;

曼哈顿距离;

切比雪夫距离;

余弦距离

其中最重要的是闵可夫斯基距离,闵可夫斯基距离是一类距离的定义。


对于n nn维空间中的两个点x ( x 1 , x 2 , . . . , x n )y ( y 1 , y 2 , . . . , y n ) ,x 、y 两点之间的闵可夫斯基距离表示为:

00000.png

其中p 是一个可变参数。


当p = 1 时,称为 曼哈顿距离


0000.png

当p = 2 时,称为 欧式距离


000.png

当p = ∞ 时,称为 切比雪夫距离




K-Means算法


对给定的样本集D = { x 1 , x 2 , . . . , x m }k均值算法根据聚类结果划分C = { C 1 , C 2 , . . . , C k }最小化平方误差:

00.png

其中0.pngx是类C i  的均值向量。


MSE刻画了簇类样本围绕簇均值向量的紧密程度,越小代表样本距簇均值中心越靠近。


但最优化上式的值是一个NP难的问题,因为要精确地找到它的最优解需要对样本集D DD的所有划分情况进行一一列举。


因此,K-Means算法最终采用的是贪心的策略,通过迭代优化的方式来近似求解最优MES值。





相关文章
|
机器学习/深度学习 算法 数据挖掘
【Python机器学习】聚类算法任务,评价指标SC、DBI、ZQ等系数详解和实战演示(附源码 图文解释)
【Python机器学习】聚类算法任务,评价指标SC、DBI、ZQ等系数详解和实战演示(附源码 图文解释)
1170 0
|
存储 中间件 开发工具
云计算的三个主要服务模型:IaaS、PaaS 和 SaaS
云计算的三个主要服务模型:IaaS、PaaS 和 SaaS
19684 0
|
存储 Serverless 数据库
科普文:云计算服务类型IaaS, PaaS, SaaS, BaaS, Faas说明
本文介绍了云计算服务的几种主要类型,包括IaaS(基础设施即服务)、PaaS(平台即服务)、SaaS(软件即服务)、BaaS(后端即服务)和FaaS(函数即服务)。每种服务模式提供了不同的服务层次和功能,从基础设施的提供到应用的开发和运行,再到软件的交付使用,满足了企业和个人用户在不同场景下的需求。文章详细阐述了每种服务模式的特点、优势和缺点,并列举了相应的示例。云计算服务的发展始于21世纪初,随着互联网技术的普及,这些服务模式不断演进,为企业和个人带来了高效、灵活的解决方案。然而,使用这些服务时也需要注意服务的稳定性、数据安全性和成本等问题。
10523 5
|
存储 机器学习/深度学习 算法
6个常用的聚类评价指标
评估聚类结果的有效性,即聚类评估或验证,对于聚类应用程序的成功至关重要。
816 1
|
机器学习/深度学习 算法 数据挖掘
【机器学习】聚类算法中的距离度量有哪些及公式表示?
聚类算法中常用的距离度量方法及其数学表达式,包括欧式距离、曼哈顿距离、切比雪夫距离、闵可夫斯基距离、余弦相似度等多种距离和相似度计算方式。
1241 1
|
存储 中间件 程序员
一文晓得SaaS、IaaS和 PaaS 是什么,三者的区别是?
一文晓得SaaS、IaaS和 PaaS 是什么,三者的区别是?
7808 0
|
网络协议 网络性能优化 UED
|
机器学习/深度学习 计算机视觉
sklearn 中 learning_curve 函数 的详细使用方法 (机器学习)
sklearn 中 learning_curve 函数 的详细使用方法 (机器学习)
641 0
sklearn 中 learning_curve 函数 的详细使用方法 (机器学习)
|
机器学习/深度学习 存储 测试技术
【YOLOv8改进】 YOLOv8 更换骨干网络之 GhostNet :通过低成本操作获得更多特征 (论文笔记+引入代码).md
YOLO目标检测专栏探讨了卷积神经网络的创新改进,如Ghost模块,它通过低成本运算生成更多特征图,降低资源消耗,适用于嵌入式设备。GhostNet利用Ghost模块实现轻量级架构,性能超越MobileNetV3。此外,文章还介绍了SegNeXt,一个高效卷积注意力网络,提升语义分割性能,参数少但效果优于EfficientNet-L2。专栏提供YOLO相关基础解析、改进方法和实战案例。