AI K-means算法对数据进行聚类分析-实验报告

简介: AI K-means算法对数据进行聚类分析-实验报告

1、 问题描述及实验要求


K-means算法对data中数据进行聚类分析

(1)算法原理描述

(2)算法结构

(3)写出K-means具体功能函数(不能直接调用sklearn.cluster(Means)功能函数)具体函数功能中返回值包括 数据类标签,累中心,输入包括:数据,类别数

(4)可视化画图,不同类数据采用不同颜色

(5)算法分析

类类方差,平均方差,不同初始点对聚类结果的影响?

如何解决?

2、 算法原理描述


K-means算法原理:

1、首先输入分组k 的值,即通过指定分组数目得到 k 个分组;

2、从数据集中随机选取 k 个数据点作为初始中心;

3、对集合中每一数据点,计算与每一个中心点的距离,离哪个中心点距离近,就加入中心点对应的组。

4、对k个组计算距离的平均值

5、如果两次求得的均值距离小于某一个设置的阈值(表示重新计算的质心的位置变化不大,趋于稳定,或者说收敛),可以认为我们进行的聚类已经达到期望的结果,算法终止。

6、果两次求得的均值距离大于某一个设置的阈值,继续迭代,如果迭代次数大于设定的值,那么终止。

3、 算法结构


1) 首先定义了一个类:K_Means,该类中有5个属性以及2个方法。5个属性包括:k是分组数,tolerance最小误差,max_iter最大迭代次数,centers_存放中心点坐标,clf_存放分组坐标;2个方法是:_init_构造函数,fit执行迭代。

2) 对于fit函数。首先从数据集data中取出k个点作为中心点,然后遍历数据集中的每个点,计算这个点与k个中心点坐标的距离,把最小的距离添加到对应的分组中去。然后根据k个分组的内容,更新出k个新的中心点坐标,与上一次中心点坐标比对,如果误差值都小于设定值,那么结束,如果不小于,那么继续迭代,如果迭代超过了指定次数,那么也停止。

4、 K-means算法代码


总代码在文末

class K_Means(object):
    def __init__(self, k=2, tolerance=0.0001, max_iter=300):
        self.k_ = k
        self.tolerance_ = tolerance
        self.max_iter_ = max_iter
    def fit(self, data):
        self.centers_ = {}
        for i in range(self.k_):
            self.centers_[i] = data[i]
        for i in range(self.max_iter_):
            self.clf_ = {}
            for i in range(self.k_):
                self.clf_[i] = []
            for feature in data:
                distances = []
                for center in self.centers_:
                    distances.append(np.linalg.norm(feature - self.centers_[center]))
                classification = distances.index(min(distances))
                self.clf_[classification].append(feature)
            prev_centers = dict(self.centers_)
            for c in self.clf_:
                self.centers_[c] = np.average(self.clf_[c], axis=0)
            optimized = True
            for center in self.centers_:
                org_centers = prev_centers[center]
                cur_centers = self.centers_[center]
                if np.sum((cur_centers - org_centers) / org_centers * 100.0) > self.tolerance_:
                    optimized = False
            if optimized:
                break

5、 实验结果


实验结果截图:

image.png

图1-散点图观察特征

image.png

图2-聚类分析图

6、 算法分析


如果想看初始点、方差等对结果的影响,可以采用初中最常用的控制变量法:

①算法相同,初始点对结果的影响:

image.png

结论1:可以看出,初始点选取的不同,中心点的坐标会有略微变化(不应该一一对应)

②初始点相同,类间方差与平均方差对结果的影响:

image.png

**结论2:**可以看出,算法的不同,中心点的坐标会有略微变化(不应该一一对应)

总结论:(如果没有发生偶然性)**对于中心点的不同选择、算法不同的选择,都会导致结果产生一些改变。**由于结果是由各个分组算出来的均值,所以也意味着:对于中心点的不同选择、算法不同的选择,都会导致分组划分不一样。

7、 所有代码


import numpy as np
from matplotlib import pyplot as plt
plt.rcParams['font.family'] = ['Microsoft YaHei']
class K_Means(object):
    def __init__(self, k=2, tolerance=0.0001, max_iter=300):
        self.k_ = k
        self.tolerance_ = tolerance
        self.max_iter_ = max_iter
    def fit(self, data):
        self.centers_ = {}
        for i in range(self.k_):
            self.centers_[i] = data[i+19]
        for i in range(self.max_iter_):
            self.clf_ = {}
            for i in range(self.k_):
                self.clf_[i] = []
            for feature in data:
                distances = []
                for center in self.centers_:
                    distances.append(np.linalg.norm(feature - self.centers_[center]))
                classification = distances.index(min(distances))
                self.clf_[classification].append(feature)
            prev_centers = dict(self.centers_)
            for c in self.clf_:
                self.centers_[c] = np.average(self.clf_[c], axis=0)
            optimized = True
            for center in self.centers_:
                org_centers = prev_centers[center]
                cur_centers = self.centers_[center]
                if np.sum((cur_centers - org_centers) / org_centers * 100.0) > self.tolerance_:
                    optimized = False
            if optimized:
                break
# 读取data.txt里面的值
data = np.loadtxt('data.txt', dtype=float, delimiter=" ")
X = data[..., 0]
Y = data[..., 1]
plt.title("散点图观察特诊")
plt.xlabel("X轴")
plt.ylabel("Y轴")
plt.plot(X, Y, 'ob')
plt.show()
if __name__ == '__main__':
    k_means = K_Means(k=4)
    k_means.fit(data)
    print(k_means.centers_)
    rgb = ['r', 'g', 'b', 'y']
    for center in k_means.centers_:
        plt.scatter(k_means.centers_[center][0], k_means.centers_[center][1], marker='*', s=150)
    for cat in k_means.clf_:
        for point in k_means.clf_[cat]:
            plt.scatter(point[0], point[1], c=rgb[cat])
    plt.show()


相关文章
|
6月前
|
机器学习/深度学习 算法 前端开发
别再用均值填充了!MICE算法教你正确处理缺失数据
MICE是一种基于迭代链式方程的缺失值插补方法,通过构建后验分布并生成多个完整数据集,有效量化不确定性。相比简单填补,MICE利用变量间复杂关系,提升插补准确性,适用于多变量关联、缺失率高的场景。本文结合PMM与线性回归,详解其机制并对比效果,验证其在统计推断中的优势。
1575 11
别再用均值填充了!MICE算法教你正确处理缺失数据
|
8月前
|
机器学习/深度学习 Dragonfly 人工智能
基于蜻蜓算法优化支持向量机(DA-SVM)的数据多特征分类预测研究(Matlab代码实现)
基于蜻蜓算法优化支持向量机(DA-SVM)的数据多特征分类预测研究(Matlab代码实现)
180 1
|
7月前
|
传感器 机器学习/深度学习 算法
【使用 DSP 滤波器加速速度和位移】使用信号处理算法过滤加速度数据并将其转换为速度和位移研究(Matlab代码实现)
【使用 DSP 滤波器加速速度和位移】使用信号处理算法过滤加速度数据并将其转换为速度和位移研究(Matlab代码实现)
460 1
|
7月前
|
机器学习/深度学习 算法 调度
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
565 0
|
7月前
|
存储 监控 算法
企业电脑监控系统中基于 Go 语言的跳表结构设备数据索引算法研究
本文介绍基于Go语言的跳表算法在企业电脑监控系统中的应用,通过多层索引结构将数据查询、插入、删除操作优化至O(log n),显著提升海量设备数据管理效率,解决传统链表查询延迟问题,实现高效设备状态定位与异常筛选。
193 3
|
6月前
|
机器学习/深度学习 人工智能 算法
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
274 0
|
7月前
|
机器学习/深度学习 人工智能 算法
当AI提示词遇见精密算法:TimeGuessr如何用数学魔法打造文化游戏新体验
TimeGuessr融合AI与历史文化,首创时间与空间双维度评分体系,结合分段惩罚、Haversine距离计算与加权算法,辅以连击、速度与完美奖励机制,实现公平且富挑战性的游戏体验。
|
7月前
|
算法 数据挖掘 定位技术
基于密度的聚类算法能够在含有噪声的数据集中识别出任意形状和大小的簇(Matlab代码实现)
基于密度的聚类算法能够在含有噪声的数据集中识别出任意形状和大小的簇(Matlab代码实现)
177 1
|
7月前
|
机器学习/深度学习 数据采集 运维
改进的遗传算法优化的BP神经网络用于电厂数据的异常检测和故障诊断
改进的遗传算法优化的BP神经网络用于电厂数据的异常检测和故障诊断

热门文章

最新文章

下一篇
开通oss服务