ML之Kmeans:利用自定义Kmeans函数实现对多个坐标点(自定义四个点)进行自动(最多迭代10次)分类

简介: ML之Kmeans:利用自定义Kmeans函数实现对多个坐标点(自定义四个点)进行自动(最多迭代10次)分类

输出结果

image.png

核心代码


#!/usr/bin/python

# -*- coding:utf-8 -*-

import numpy as np

#ML之Kmeans:利用自定义Kmeans函数实现对多个坐标点(自定义四个点)进行自动(最多迭代10次)分类

def kmeans(X, k, maxIt):  

 

   numPoints, numDim = X.shape

 

   dataSet = np.zeros((numPoints, numDim + 1))

   dataSet[:, :-1] = X  

 

   centroids = dataSet[np.random.randint(numPoints, size = k), :]  

   #centroids = dataSet[0:2, :]        

   #Randomly assign labels to initial centorid给初始中心随机分配标签

   centroids[:, -1] = range(1, k +1)  

 

   iterations = 0      

   oldCentroids = None  

 

   # Run the main k-means algorithm

   while not shouldStop(oldCentroids, centroids, iterations, maxIt):  

       print ("iteration: \n", iterations)

       print ("dataSet: \n", dataSet)      

       print ("centroids: \n", centroids)  

       # Save old centroids for convergence test. Book keeping.

       oldCentroids = np.copy(centroids)  

       iterations += 1                    

     

       # Assign labels to each datapoint based on centroids

       updateLabels(dataSet, centroids)    

     

       # Assign centroids based on datapoint labels

       centroids = getCentroids(dataSet, k)

     

   # We can get the labels too by calling getLabels(dataSet, centroids)

   return dataSet

# Function: Should Stop

# -------------

# Returns True or False if k-means is done. K-means terminates either

# because it has run a maximum number of iterations OR the centroids

# stop changing.

def shouldStop(oldCentroids, centroids, iterations, maxIt):  

   if iterations > maxIt:  

       return True

   return np.array_equal(oldCentroids, centroids)  

# Function: Get Labels

# -------------

# Update a label for each piece of data in the dataset.

def updateLabels(dataSet, centroids):  

   # For each element in the dataset, chose the closest centroid.

   # Make that centroid the element's label.

   numPoints, numDim = dataSet.shape  

   for i in range(0, numPoints):      

       dataSet[i, -1] = getLabelFromClosestCentroid(dataSet[i, :-1], centroids)  

 

 

def getLabelFromClosestCentroid(dataSetRow, centroids):

   label = centroids[0, -1];                                  

   minDist = np.linalg.norm(dataSetRow - centroids[0, :-1])  

   for i in range(1 , centroids.shape[0]):  

       dist = np.linalg.norm(dataSetRow - centroids[i, :-1])

       if dist < minDist:

           minDist = dist  

           label = centroids[i, -1]

   print ("minDist:", minDist)

   return label

 

     

 

# Function: Get Centroids

# -------------

# Returns k random centroids, each of dimension n.

def getCentroids(dataSet, k):    

   # Each centroid is the geometric mean of the points that

   # have that centroid's label. Important: If a centroid is empty (no points have

   # that centroid's label) you should randomly re-initialize it.

   result = np.zeros((k, dataSet.shape[1]))

   for i in range(1, k + 1):

       oneCluster = dataSet[dataSet[:, -1] == i, :-1]  

       result[i - 1, :-1] = np.mean(oneCluster, axis = 0)

       result[i - 1, -1] = i

 

x1 = np.array([1, 1])

x2 = np.array([2, 1])

x3 = np.array([4, 3])

x4 = np.array([5, 4])

testX = np.vstack((x1, x2, x3, x4))  

result = kmeans(testX, 2, 10)  

print ("final result:")

print (result)


相关文章
|
移动开发 文字识别 算法
论文推荐|[PR 2019]SegLink++:基于实例感知与组件组合的任意形状密集场景文本检测方法
本文简要介绍Pattern Recognition 2019论文“SegLink++: Detecting Dense and Arbitrary-shaped Scene Text by Instance-aware Component Grouping”的主要工作。该论文提出一种对文字实例敏感的自下而上的文字检测方法,解决了自然场景中密集文本和不规则文本的检测问题。
1928 0
论文推荐|[PR 2019]SegLink++:基于实例感知与组件组合的任意形状密集场景文本检测方法
|
16天前
|
Python
python 随机划分图片数据集以及移动标注
这篇文章提供了一个Python脚本,用于随机划分图片数据集为训练集和测试集,并将对应的标注文件移动到相应的子文件夹中,以减少训练使用的数据量。
|
2月前
|
算法
创建一个训练函数
【7月更文挑战第22天】创建一个训练函数。
21 4
|
2月前
|
机器学习/深度学习 计算机视觉 Python
`GridSearchCV` 是一种穷举搜索方法,它会对指定的参数网格中的每一个参数组合进行交叉验证,并返回最优的参数组合。
`GridSearchCV` 是一种穷举搜索方法,它会对指定的参数网格中的每一个参数组合进行交叉验证,并返回最优的参数组合。
|
4月前
|
机器学习/深度学习 算法 Python
【Python机器学习】Sklearn库中Kmeans类、超参数K值确定、特征归一化的讲解(图文解释)
【Python机器学习】Sklearn库中Kmeans类、超参数K值确定、特征归一化的讲解(图文解释)
255 0
|
10月前
|
机器学习/深度学习 PyTorch 算法框架/工具
base model初始化large model,造成的参数矩阵对不上权重不匹配问题+修改预训练权重形状和上采样
base model初始化large model,造成的参数矩阵对不上权重不匹配问题+修改预训练权重形状和上采样
172 0
|
11月前
|
数据格式
重写transformers.Trainer的compute_metrics方法计算评价指标时,形参如何包含自定义的数据
  这个问题苦恼我几个月,之前一直用替代方案。这次实在没替代方案了,transformers源码和文档看了一整天,终于在晚上12点找到了。。。
436 0
|
机器学习/深度学习 算法 数据挖掘
书写自动智慧文本分类器的开发与应用:支持多分类、多标签分类、多层级分类和Kmeans聚类
书写自动智慧文本分类器的开发与应用:支持多分类、多标签分类、多层级分类和Kmeans聚类
书写自动智慧文本分类器的开发与应用:支持多分类、多标签分类、多层级分类和Kmeans聚类
|
机器学习/深度学习 数据可视化 数据挖掘
8种交叉验证类型的深入解释和可视化介绍
8种交叉验证类型的深入解释和可视化介绍
278 3
8种交叉验证类型的深入解释和可视化介绍
|
机器学习/深度学习 资源调度 PyTorch
PyTorch实现随机傅里叶特征映射的示例代码
这里我们定义了一个名为RFFeatureMap的类,它继承自PyTorch的nn.Module类。该类接受输入维度input_dim、输出维度output_dim和高斯核参数sigma作为参数。在初始化函数中,我们生成了随机正弦和余弦函数的系数omega和随机偏移量b,并将它们保存在该类的实例变量中。 在前向函数中,我们首先将输入x转换为形状为(batch_size, input_dim)的张量。然后我们通过点乘x和omega的转置,加上偏移量b,并应用余弦函数,计算出特征映射z。最后我们返回特征映射z。
305 0