C# | KMeans聚类算法的实现,轻松将数据点分组成具有相似特征的簇

简介: 聚类是将数据点根据其相似性分组的过程,它有很多的应用场景,比如:图像分割、文本分类、推荐系统等等。在这些应用场景里面我们需要将数据点分成多个簇,每个簇内的数据点具有相似的特征,以便于我们能够更简单的处理数据。KMeans算法是一种常用的聚类算法,它可以将数据点分组成具有相似特征的簇。

image.png

C# KMeans聚类算法的实现

@[toc]

前言

本章分享一下如何使用C#实现KMeans算法。在讲解代码前先清晰两个小问题:

  1. 什么是聚类?
    聚类是将数据点根据其相似性分组的过程,它有很多的应用场景,比如:图像分割、文本分类、推荐系统等等。在这些应用场景里面我们需要将数据点分成多个簇,每个簇内的数据点具有相似的特征,以便于我们能够更简单的处理数据。

  2. 什么是KMeans?
    KMeans算法是一种常用的聚类算法,它可以将数据点分组成具有相似特征的簇。

示例代码

话不多说,我们直接上代码:

    /// <summary>
    /// KMeans算法类
    /// </summary>
    public static class KMeans
    {
   
        /// <summary>
        /// 使用 KMeans 算法对 Point 数组进行聚类
        /// </summary>
        /// <param name="points">待聚类的 Point 数组</param>
        /// <param name="k">聚类的个数</param>
        /// <returns>聚类的结果</returns>
        public static List<List<PointD>> Cluster(PointD[] points, int k)
        {
   
            // 初始化簇心的位置
            Random random = new Random();
            PointD[] centroids = new PointD[k];
            for (int i = 0; i < k; i++)
            {
   
                centroids[i] = points[random.Next(points.Length)];
            }

            // 分配每个点到最近的簇心
            List<PointD>[] clusters = new List<PointD>[k];
            for (int i = 0; i < k; i++)
            {
   
                clusters[i] = new List<PointD>();
            }

            foreach (PointD point in points)
            {
   
                int closest = 0;
                var closestDistance = Distance(point, centroids[0]);
                for (int i = 1; i < k; i++)
                {
   
                    var distance = Distance(point, centroids[i]);
                    if (distance < closestDistance)
                    {
   
                        closest = i;
                        closestDistance = distance;
                    }
                }
                clusters[closest].Add(point);
            }

            // 重新计算簇心位置
            bool moved = true;
            while (moved)
            {
   
                moved = false;
                for (int i = 0; i < k; i++)
                {
   
                    PointD newCentroid = Centroid(clusters[i]);
                    if (!newCentroid.Equals(centroids[i]))
                    {
   
                        centroids[i] = newCentroid;
                        moved = true;
                    }
                }
                if (moved)
                {
   
                    // 重新分配每个点到最近的簇心
                    for (int i = 0; i < k; i++)
                    {
   
                        clusters[i].Clear();
                    }
                    foreach (PointD point in points)
                    {
   
                        int closest = 0;
                        var closestDistance = Distance(point, centroids[0]);
                        for (int i = 1; i < k; i++)
                        {
   
                            var distance = Distance(point, centroids[i]);
                            if (distance < closestDistance)
                            {
   
                                closest = i;
                                closestDistance = distance;
                            }
                        }
                        clusters[closest].Add(point);
                    }
                }
            }

            // 返回每个簇的点集合
            List<List<PointD>> result = new List<List<PointD>>();
            for (int i = 0; i < k; i++)
            {
   
                result.Add(clusters[i]);
            }
            return result;
        }

        private static double Distance(PointD a, PointD b)
        {
   
            var dx = a.X - b.X;
            var dy = a.Y - b.Y;
            return Math.Sqrt(dx * dx + dy * dy);
        }

        private static PointD Centroid(List<PointD> points)
        {
   
            double totalX = 0;
            double totalY = 0;
            foreach (PointD point in points)
            {
   
                totalX += point.X;
                totalY += point.Y;
            }
            var centerX = totalX / points.Count;
            var centerY = totalY / points.Count;
            return new PointD(centerX, centerY);
        }
    }

我们这里定义了一个双进度点的结构体PointD:

    public struct PointD 
    {
   
        public PointD(double x, double y) 
        {
   
            X = x;
            Y = y;
        }

        public double X {
    get; set; }
        public double Y {
    get; set; }

        public override bool Equals(object obj)
        {
   
            if (obj == null || GetType() != obj.GetType())
            {
   
                return false;
            }

            PointD other = (PointD)obj;
            return X.Equals(other.X) && Y.Equals(other.Y);
        }
    }

实现思路

接下来详细讲解一下KMeans算法的思路。

KMeans类中包含名为Cluster的静态方法。该方法接收两个参数,【待聚类的Point数组】和【聚类的个数】。

第一步是要随机初始化簇心的位置(使用Random)。

第二步要将每个数据点分配到距离其最近的簇心中。思路是:对于每个数据点都计算其与所有簇心的距离(使用名为Distance的私有静态方法),找到最近的簇心,并将该数据点分配到该簇中。

第三步要重新计算每个簇心的位置(使用静态方法Centroid)。每个簇都计算其所有数据点的中心点作为该簇的新簇心。如果新簇心和旧簇心不同,则说明簇心已经发生了移动,我们需要重新分配每个数据点到距离其最近的簇心中。

第四步返回聚类结果,也就是每个簇内的数据点集合。

由于我们在第一步的时候就是用的Random来随机选择初始簇心,因此多次聚类的结果可能不一样。

测试结果

测试代码如下:

    [TestClass]
    public class KMeansTest
    {
   
        [TestMethod]
        public void TestCluster()
        {
   
            PointD[] points = new PointD[]
            {
   
                new PointD(1, 2),
                new PointD(2, 1),
                new PointD(3, 2),
                new PointD(2, 3),
                new PointD(5, 6),
                new PointD(6, 5),
                new PointD(7, 6),
                new PointD(6, 7),
            };
            int k = 3;
            List<List<PointD>> clusters = KMeans.Cluster(points, k);
            foreach (List<PointD> cluster in clusters)
            {
   
                Console.WriteLine("Cluster:");
                foreach (PointD point in cluster)
                {
   
                    Console.WriteLine("  ({0}, {1})", point.X, point.Y);
                }
            }
        }
    }

连续三次执行的结果如下:
image.png
image.png
image.png

结束语

通过本章的代码可以轻松实现KMeans算法对数据聚类。如果您觉得本文对您有所帮助,请不要吝啬您的点赞和评论,提供宝贵的反馈和建议,让更多的读者受益。

相关文章
|
1月前
|
机器学习/深度学习 算法 前端开发
别再用均值填充了!MICE算法教你正确处理缺失数据
MICE是一种基于迭代链式方程的缺失值插补方法,通过构建后验分布并生成多个完整数据集,有效量化不确定性。相比简单填补,MICE利用变量间复杂关系,提升插补准确性,适用于多变量关联、缺失率高的场景。本文结合PMM与线性回归,详解其机制并对比效果,验证其在统计推断中的优势。
748 11
别再用均值填充了!MICE算法教你正确处理缺失数据
|
2月前
|
传感器 机器学习/深度学习 算法
【使用 DSP 滤波器加速速度和位移】使用信号处理算法过滤加速度数据并将其转换为速度和位移研究(Matlab代码实现)
【使用 DSP 滤波器加速速度和位移】使用信号处理算法过滤加速度数据并将其转换为速度和位移研究(Matlab代码实现)
203 1
|
2月前
|
机器学习/深度学习 算法 调度
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
14种智能算法优化BP神经网络(14种方法)实现数据预测分类研究(Matlab代码实现)
304 0
|
1月前
|
机器学习/深度学习 算法 数据可视化
基于MVO多元宇宙优化的DBSCAN聚类算法matlab仿真
本程序基于MATLAB实现MVO优化的DBSCAN聚类算法,通过多元宇宙优化自动搜索最优参数Eps与MinPts,提升聚类精度。对比传统DBSCAN,MVO-DBSCAN有效克服参数依赖问题,适应复杂数据分布,增强鲁棒性,适用于非均匀密度数据集的高效聚类分析。
|
28天前
|
机器学习/深度学习 人工智能 算法
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
【基于TTNRBO优化DBN回归预测】基于瞬态三角牛顿-拉夫逊优化算法(TTNRBO)优化深度信念网络(DBN)数据回归预测研究(Matlab代码实现)
105 0
|
2月前
|
存储 监控 算法
企业电脑监控系统中基于 Go 语言的跳表结构设备数据索引算法研究
本文介绍基于Go语言的跳表算法在企业电脑监控系统中的应用,通过多层索引结构将数据查询、插入、删除操作优化至O(log n),显著提升海量设备数据管理效率,解决传统链表查询延迟问题,实现高效设备状态定位与异常筛选。
114 3
|
2月前
|
算法 数据挖掘 定位技术
基于密度的聚类算法能够在含有噪声的数据集中识别出任意形状和大小的簇(Matlab代码实现)
基于密度的聚类算法能够在含有噪声的数据集中识别出任意形状和大小的簇(Matlab代码实现)
|
2月前
|
机器学习/深度学习 分布式计算 算法
【风场景生成与削减】【m-ISODATA、kmean、HAC】无监督聚类算法,用于捕获电力系统中风场景生成与削减研究(Matlab代码实现)
【风场景生成与削减】【m-ISODATA、kmean、HAC】无监督聚类算法,用于捕获电力系统中风场景生成与削减研究(Matlab代码实现)
172 0
|
2月前
|
机器学习/深度学习 数据采集 算法
【风光场景生成】基于改进ISODATA的负荷曲线聚类算法(Matlab代码实现)
【风光场景生成】基于改进ISODATA的负荷曲线聚类算法(Matlab代码实现)
|
28天前
|
机器学习/深度学习 算法 机器人
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
170 0