【python机器学习】K-Means算法详解及给坐标点聚类实战(附源码和数据集 超详细)

简介: 【python机器学习】K-Means算法详解及给坐标点聚类实战(附源码和数据集 超详细)

需要源码和数据集请点赞关注收藏后评论区留言私信~~~

人们在面对大量未知事物时,往往会采取分而治之的策略,即先将事物按照相似性分成多个组,然后按组对事物进行处理。机器学习里的聚类就是用来完成对事物进行分组的任务

一、样本处理

聚类算法是对样本集按相似性进行分簇,因此,聚类算法能够运行的前提是要有样本集以及能对样本之间的相似性进行比较的方法。

样本的相似性差异也称为样本距离,相似性比较称为距离度量。

设样本特征维数为n,第i个样本表示为x_i={x_i^(1),x_i^(2),…,x_i^(n)}。因此,样本也可以看成n维空间中的点。当n=2时,样本可以看成是二维平面上的点。

二维平面上两点x_i和x_j之间的欧氏距离:

K均值聚类算法常采用欧氏距离作为样本距离度量准则。

二维平面上两点间欧氏距离的计算公式推广到n维空间中两点x_i和x_j的欧氏距离计算公式:

二、基本思想

设样本总数为m,样本集为S={x_1,x_2,…,x_m}。K均值聚类算法对样本集分簇的个数是事先指定的,即k。设分簇后的集合表示为C={C_1,C_2,…,C_k},其中每个簇都是样本的集合。

K均值聚类算法的基本思想是让簇内的样本点更“紧密”一些,也就是说,让每个样本点到本簇中心的距离更近一些。

常采用该距离的平方之和作为“紧密”程度的度量标准,因此,使每个样本点到本簇中心的距离的平方和尽量小是k-means算法的优化目标。每个样本点到本簇中心的距离的平方和也称为误差平方和(Sum of Squared Error, SSE)。

从机器学习算法的实施过程来说,这类优化目标一般统称为损失函数(loss function)或代价函数(cost function)。

三、簇中心的计算

当采用欧氏距离,并以误差平方和SSE作为损失函数时,一个簇的簇中心按如下方法计算:

对于第i个簇C_i,簇中心u_i=(u_i^(1),u_i^(2),…,u_i^(n))为簇C_i内所有点的均值,簇中心u_i第j个特征为

SSE的计算方法为:

四、算法流程

 

五、对坐标点聚类实战

坐标点存在txt文件中 需要源码和数据集请点赞关注收藏后评论区留言私信~~~

K均值聚类算法以计算簇中心并重新分簇为一个周期进行迭代,直到簇稳定,分配结果不再变化为止,下面来看一个对二维平面上的点进行聚类的例子

效果展示如下

经过不断的迭代SSE误差在不断的减小,图像中的聚类也变得更为清晰,直到最后一个图变为三个较为稳定的簇

 

部分代码如下

def L2(vecXi, vecXj):
    return np.sqrt(np.sum(np.power(vecXi - vecXj, 2)))
from sklearn.metrics import silhouette_score, davies_bouldin_score
def kMeans(S, k, distMeas=L2):
    m = np.shape(S)[0] # 样本总数
    sampleTag = np.zeros(m)
    n = np.shape(S)[1] # 样本向量的特征数
    clusterCents = np.mat([[-1.93964824,2.33260803],[7.79822795,6.72621783],[10.64183154,0.20088133]])
    #clusterCents = np.mat(np.zeros((k,n)))
    #for j in range(n):
    #    minJ = min(S[:,j]) 
    #    rangeJ = float(max(S[:,j]) - minJ)
    #    clusterCents[:,j] = np.mat(minJ + rangeJ * np.random.rand(k,1))
plt.scatter(clusterCents[:,0].tolist(),clusterCents[:,1].tolist(),c='r',marker='^',linewidths=7)
        plt.scatter(S[:,0],S[:,1],c=sampleTag,linewidths=np.power(sampleTag+0.5, 2)) # 用不同大小的点来表示不同簇的点
        plt.show()
        print("SSE:"+str(SSE))
        print("SC:"+str(silhouette_score(S, sampleTag, metric='euclidean')))
        print("DBI:"+str(davies_bouldin_score(S, sampleTag)))
        print("- - - - - - - - - - - - - - - - - - - - - - - -")
        # 重新计算簇中心
        for i in range(k):
            ClustI = S[np.nonzero(sampleTag[:]==i)[0]]
            clusterCents[i,:] = np.mean(ClustI, axis=0) 
    return clusterCents, sampleTag, SSE

创作不易 觉得有帮助请点赞关注收藏~~~

相关文章
|
12天前
|
机器学习/深度学习 人工智能 算法
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
垃圾识别分类系统。本系统采用Python作为主要编程语言,通过收集了5种常见的垃圾数据集('塑料', '玻璃', '纸张', '纸板', '金属'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对图像数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。然后使用Django搭建Web网页端可视化操作界面,实现用户在网页端上传一张垃圾图片识别其名称。
43 0
基于Python深度学习的【垃圾识别系统】实现~TensorFlow+人工智能+算法网络
|
12天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
43 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
12天前
|
机器学习/深度学习 人工智能 算法
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
蔬菜识别系统,本系统使用Python作为主要编程语言,通过收集了8种常见的蔬菜图像数据集('土豆', '大白菜', '大葱', '莲藕', '菠菜', '西红柿', '韭菜', '黄瓜'),然后基于TensorFlow搭建卷积神经网络算法模型,通过多轮迭代训练最后得到一个识别精度较高的模型文件。在使用Django开发web网页端操作界面,实现用户上传一张蔬菜图片识别其名称。
52 0
基于深度学习的【蔬菜识别】系统实现~Python+人工智能+TensorFlow+算法模型
|
16天前
|
算法 Python
在Python编程中,分治法、贪心算法和动态规划是三种重要的算法。分治法通过将大问题分解为小问题,递归解决后合并结果
在Python编程中,分治法、贪心算法和动态规划是三种重要的算法。分治法通过将大问题分解为小问题,递归解决后合并结果;贪心算法在每一步选择局部最优解,追求全局最优;动态规划通过保存子问题的解,避免重复计算,确保全局最优。这三种算法各具特色,适用于不同类型的问题,合理选择能显著提升编程效率。
32 2
|
16天前
|
机器学习/深度学习 算法 PyTorch
用Python实现简单机器学习模型:以鸢尾花数据集为例
用Python实现简单机器学习模型:以鸢尾花数据集为例
40 1
|
25天前
|
算法 测试技术 开发者
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗
在Python开发中,性能优化和代码审查至关重要。性能优化通过改进代码结构和算法提高程序运行速度,减少资源消耗;代码审查通过检查源代码发现潜在问题,提高代码质量和团队协作效率。本文介绍了一些实用的技巧和工具,帮助开发者提升开发效率。
29 3
|
28天前
|
机器学习/深度学习 人工智能 算法
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
车辆车型识别,使用Python作为主要编程语言,通过收集多种车辆车型图像数据集,然后基于TensorFlow搭建卷积网络算法模型,并对数据集进行训练,最后得到一个识别精度较高的模型文件。再基于Django搭建web网页端操作界面,实现用户上传一张车辆图片识别其类型。
72 0
【车辆车型识别】Python+卷积神经网络算法+深度学习+人工智能+TensorFlow+算法模型
|
1月前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
|
1月前
|
机器学习/深度学习 人工智能 算法
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
玉米病害识别系统,本系统使用Python作为主要开发语言,通过收集了8种常见的玉米叶部病害图片数据集('矮花叶病', '健康', '灰斑病一般', '灰斑病严重', '锈病一般', '锈病严重', '叶斑病一般', '叶斑病严重'),然后基于TensorFlow搭建卷积神经网络算法模型,通过对数据集进行多轮迭代训练,最后得到一个识别精度较高的模型文件。再使用Django搭建Web网页操作平台,实现用户上传一张玉米病害图片识别其名称。
59 0
【玉米病害识别】Python+卷积神经网络算法+人工智能+深度学习+计算机课设项目+TensorFlow+模型训练
|
21天前
|
机器学习/深度学习 人工智能 算法
探索机器学习中的决策树算法
【10月更文挑战第29天】本文将深入浅出地介绍决策树算法,一种在机器学习中广泛使用的分类和回归方法。我们将从基础概念出发,逐步深入到算法的实际应用,最后通过一个代码示例来直观展示如何利用决策树解决实际问题。无论你是机器学习的初学者还是希望深化理解的开发者,这篇文章都将为你提供有价值的见解和指导。

热门文章

最新文章

下一篇
无影云桌面