1、 问题描述及实验要求
K-means算法对data中数据进行聚类分析
(1)算法原理描述
(2)算法结构
(3)写出K-means具体功能函数(不能直接调用sklearn.cluster(Means)功能函数)具体函数功能中返回值包括 数据类标签,累中心,输入包括:数据,类别数
(4)可视化画图,不同类数据采用不同颜色
(5)算法分析
类类方差,平均方差,不同初始点对聚类结果的影响?
如何解决?
2、 算法原理描述
K-means算法原理:
1、首先输入分组k 的值,即通过指定分组数目得到 k 个分组;
2、从数据集中随机选取 k 个数据点作为初始中心;
3、对集合中每一数据点,计算与每一个中心点的距离,离哪个中心点距离近,就加入中心点对应的组。
4、对k个组计算距离的平均值
5、如果两次求得的均值距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大,趋于稳定,或者说收敛),可以认为我们进行的聚类已经达到期望的结果,算法终止。
6、果两次求得的均值距离大于某一个设置的阈值,继续迭代,如果迭代次数大于设定的值,那么终止。
3、 算法结构
1) 首先定义了一个类:K_Means,该类中有5个属性以及2个方法。5个属性包括:k是分组数,tolerance最小误差,max_iter最大迭代次数,centers_存放中心点坐标,clf_存放分组坐标;2个方法是:_init_构造函数,fit执行迭代。
2) 对于fit函数。首先从数据集data中取出k个点作为中心点,然后遍历数据集中的每个点,计算这个点与k个中心点坐标的距离,把最小的距离添加到对应的分组中去。然后根据k个分组的内容,更新出k个新的中心点坐标,与上一次中心点坐标比对,如果误差值都小于设定值,那么结束,如果不小于,那么继续迭代,如果迭代超过了指定次数,那么也停止。
4、 K-means算法代码
总代码在文末
class K_Means(object): def __init__(self, k=2, tolerance=0.0001, max_iter=300): self.k_ = k self.tolerance_ = tolerance self.max_iter_ = max_iter def fit(self, data): self.centers_ = {} for i in range(self.k_): self.centers_[i] = data[i] for i in range(self.max_iter_): self.clf_ = {} for i in range(self.k_): self.clf_[i] = [] for feature in data: distances = [] for center in self.centers_: distances.append(np.linalg.norm(feature - self.centers_[center])) classification = distances.index(min(distances)) self.clf_[classification].append(feature) prev_centers = dict(self.centers_) for c in self.clf_: self.centers_[c] = np.average(self.clf_[c], axis=0) optimized = True for center in self.centers_: org_centers = prev_centers[center] cur_centers = self.centers_[center] if np.sum((cur_centers - org_centers) / org_centers * 100.0) > self.tolerance_: optimized = False if optimized: break
5、 实验结果
实验结果截图:
图1-散点图观察特征
图2-聚类分析图
6、 算法分析
如果想看初始点、方差等对结果的影响,可以采用初中最常用的控制变量法:
①算法相同,初始点对结果的影响:
结论1:可以看出,初始点选取的不同,中心点的坐标会有略微变化(不应该一一对应)
②初始点相同,类间方差与平均方差对结果的影响:
**结论2:**可以看出,算法的不同,中心点的坐标会有略微变化(不应该一一对应)
总结论:(如果没有发生偶然性)**对于中心点的不同选择、算法不同的选择,都会导致结果产生一些改变。**由于结果是由各个分组算出来的均值,所以也意味着:对于中心点的不同选择、算法不同的选择,都会导致分组划分不一样。
7、 所有代码
import numpy as np from matplotlib import pyplot as plt plt.rcParams['font.family'] = ['Microsoft YaHei'] class K_Means(object): def __init__(self, k=2, tolerance=0.0001, max_iter=300): self.k_ = k self.tolerance_ = tolerance self.max_iter_ = max_iter def fit(self, data): self.centers_ = {} for i in range(self.k_): self.centers_[i] = data[i+19] for i in range(self.max_iter_): self.clf_ = {} for i in range(self.k_): self.clf_[i] = [] for feature in data: distances = [] for center in self.centers_: distances.append(np.linalg.norm(feature - self.centers_[center])) classification = distances.index(min(distances)) self.clf_[classification].append(feature) prev_centers = dict(self.centers_) for c in self.clf_: self.centers_[c] = np.average(self.clf_[c], axis=0) optimized = True for center in self.centers_: org_centers = prev_centers[center] cur_centers = self.centers_[center] if np.sum((cur_centers - org_centers) / org_centers * 100.0) > self.tolerance_: optimized = False if optimized: break # 读取data.txt里面的值 data = np.loadtxt('data.txt', dtype=float, delimiter=" ") X = data[..., 0] Y = data[..., 1] plt.title("散点图观察特诊") plt.xlabel("X轴") plt.ylabel("Y轴") plt.plot(X, Y, 'ob') plt.show() if __name__ == '__main__': k_means = K_Means(k=4) k_means.fit(data) print(k_means.centers_) rgb = ['r', 'g', 'b', 'y'] for center in k_means.centers_: plt.scatter(k_means.centers_[center][0], k_means.centers_[center][1], marker='*', s=150) for cat in k_means.clf_: for point in k_means.clf_[cat]: plt.scatter(point[0], point[1], c=rgb[cat]) plt.show()