简介
K-Means算法是一种基于样本间相似性度量的据类算法,即将数据点到原型的某种距离作为优化的目标函数。
K-Means算法聚类过程示意图
算法的流程
距离度量
1、欧式距离
2、曼哈顿距离
3、切比雪夫距离
4、余弦距离
5、Jaccard相关系数
6、相关系数
而K-Means算法选择的距离度量方法是误差平方和(SSE,Sum of the Square Error),也就是欧式距离,作为聚类的目标函数。该算法的最终目的式得到紧凑且独立的簇。因此两次运行K-Means算法产生两个不同的簇类中,SSE小的那个簇类更优:
其中K表示聚类中心的个数,Ci表示第几个聚类中心,dist表示欧式距离聚类,xi是划分到Ci中的样本。