开发者社区> 白尔摩斯> 正文

08 聚类算法 - 聚类算法的衡量指标

简介:
+关注继续查看

07 聚类算法 - 代码案例三 - K-Means算法和Mini Batch K-Means算法效果评估

四、聚类算法的衡量指标

● 混淆矩阵
● 均一性
● 完整性
● V-measure
● 调整兰德系数(ARI)
● 调整互信息(AMI)
● 轮廓系数(Silhouette)

1、均一性

__均一性:__一个簇中只包含一个类别的样本,则满足均一性;其实也可以认为就是正确率(每个聚簇中正确分类的样本数占该聚簇总样本数的比例和);

均一性


2、完整性

__完整性:__同类别样本被归类到相同簇中,则满足完整性;每个聚簇中正确分类的样本数占类型的总样本数比例的和。

完整性

均一性和完整性分析


3、V-measure

__V-measure:__均一性和完整性的加权平均。

V-measure


4、调整兰德系数(ARI)

__Rand index(兰德指数)(RI)__,RI取值范围为[0,1],值越大意味着聚类结果与真实情况越吻合。

其中C表示实际类别信息,K表示聚类结果,a表示在C与K中都是同类别的元素对数,b表示在C与K中都是不同类别的元素对数,C2N samples 表示数据集中可以组成的对数。

Rand index(兰德指数)(RI)

RI分析

__调整兰德系数(ARI,Adjusted Rnd Index)__,ARI取值范围[-1,1],值越大,表示聚类结果和真实情况越吻合。从广义的角度来将,ARI是衡量两个数据分布的吻合程度的。

调整兰德系数(ARI)

ARI分析


5、调整互信息(AMI)

调整互信息(AMI,Adjusted Mutual Information) 类似ARI,内部使用信息熵。

AMI - 公式推导


6、轮廓系数

__簇内不相似度:__计算样本i到同簇其它样本的平均距离为ai;ai越小,表示样本i越应该被聚类到该簇,簇C中的所有样本的ai的均值被称为簇C的簇不相似度。

__簇间不相似度:__计算样本i到其它簇Cj的所有样本的平均距离bij,i=min{bi1,bi2,...,bik};bi越大,表示样本i越不属于其它簇。

轮廓系数: si值越接近1表示样本i聚类越合理,越接近-1,表示样本i应该分类到另外的簇中,近似为0,表示样本i应该在边界上;所有样本的si的均值被成为聚类结果的轮廓系数。

轮廓系数

09 聚类算法 - 层次聚类

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
有监督学习算法的评价指标——精确率、准确率和召回率
有监督学习算法的评价指标——精确率、准确率和召回率
9 0
聚类算法(下):10个聚类算法的评价指标
上篇文章我们已经介绍了一些常见的聚类算法,下面我们将要介绍评估聚类算法的指标
80 0
机器学习算法-聚类(一、性能度量和距离计算)
机器学习算法-聚类(一、性能度量和距离计算)
81 0
算法的评估指标
分类:精度(accuracy)、召回率、精确率、F值、ROC-AUC 、混淆矩阵、PRC 回归:RMSE(平方根误差)、MSE(平均平方误差)、MAE(平均绝对误差)、SSE(和方差, 误差平方和)、R-square(确定系数) 聚类:兰德指数、互信息、轮廓系数
59 0
推荐系统中的相似度度量
推荐系统中的相似度度量
53 0
聚类分析评估 上|学习笔记
快速学习聚类分析评估 上
208 0
聚类分析评估 下|学习笔记
快速学习聚类分析评估 下
137 0
Guidance,让扩散模型的指标更能打
Guidance,让扩散模型的指标更能打
307 0
sklearn中分类模型评估指标(二):Kappa系数、混淆矩阵、分类指标报告、汉明损失
混淆矩阵 confusion_matrix函数通过计算每一行对应于真实类别的混淆矩阵来评估分类准确率。 根据定义,混淆矩阵中的条目[i,j]是实际上在类 i 中,但预测在类 j 中的数量。
882 0
sklearn中分类模型评估指标(四):Jaccard相似系数、铰链损失、对数损失
Jaccard相似系数 jaccard_score函数计算标签集对之间的 Jaccard 相似系数的平均值,也称为 Jaccard 指数。 第 i 个样本的 Jaccard 相似系数,具有真实标签集yiy_iyi​和预测标签集y^i\hat{y}_iy^​i​,其公式定义为:
617 0
+关注
白尔摩斯
钻研技术的产品汪
文章
问答
视频
文章排行榜
最热
最新
相关电子书
更多
纯干货 | 机器学习中梯度下降法的分类及对比分析
立即下载
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载