100天搞定机器学习|day43 几张GIF理解K-均值聚类原理

简介: 100天搞定机器学习|day43 几张GIF理解K-均值聚类原理

前文推荐


如何正确使用「K均值聚类」?


无监督学习是指从无标注数据中学习模型的机器学习问题。无标注数据是自然得到的数据,模型表示数据的类别、转换或概率无监督学习的本质是学习数据中的统计规律或潜在结构,主要包括聚类、降维、概率估计。


KMeans算法是典型的基于距离的聚类算法,采用距离作为相似性的评价指标,即认为两个对象的距离越近,其相似度就越大。该算法认为簇是由距离靠近的对象组成的,因此把得到紧凑且独立的簇作为最终目标。


K个初始聚类中心点的选取对聚类结果具有较大的影响,因为在该算法第一步中是随机地选取任意k个对象作为初始聚类中心,初始地代表一个簇。该算法在每次迭代中对数据集中剩余的每个对象,根据其与各个簇中心的距离赋给最近的簇。当考查完所有数据对象后,一次迭代运算完成,新的聚类中心被计算出来。算法过程如下:


(1)从N个数据文档(样本)随机选取K个数据文档作为质心(聚类中心)。

本文在聚类中心初始化实现过程中采取在样本空间范围内随机生成K个聚类中心。


(2)对每个数据文档测量其到每个质心的距离,并把它归到最近的质心的类。


(3)重新计算已经得到的各个类的质心。


(4)迭代(2)~(3步直至新的质心与原质心相等或小于指定阈值,算法结束。


640.jpg



下图为avikjain博客上的几张GIF,形象说明k均值聚类的过程。

The data points.

640.jpg


Starting with 4 left-most points

640.gif


Starting with 4 right-most points

640.gif


Starting with 4 top points

640.gif


Starting with 4 bottom points


640.gif


Starting with 4 random points in one cluster

640.gif

相关文章
|
18天前
|
机器学习/深度学习 数据可视化 计算机视觉
【视频】机器学习交叉验证CV原理及R语言主成分PCA回归分析犯罪率|数据共享
【视频】机器学习交叉验证CV原理及R语言主成分PCA回归分析犯罪率|数据共享
|
18天前
|
机器学习/深度学习 数据可视化 算法
机器学习第12天:聚类
机器学习第12天:聚类
|
18天前
|
机器学习/深度学习 人工智能 并行计算
人工智能平台PAI产品使用合集之机器学习PAI中特征重要性的原理不知道如何解决
阿里云人工智能平台PAI是一个功能强大、易于使用的AI开发平台,旨在降低AI开发门槛,加速创新,助力企业和开发者高效构建、部署和管理人工智能应用。其中包含了一系列相互协同的产品与服务,共同构成一个完整的人工智能开发与应用生态系统。以下是对PAI产品使用合集的概述,涵盖数据处理、模型开发、训练加速、模型部署及管理等多个环节。
|
18天前
|
机器学习/深度学习 自然语言处理 算法
|
18天前
|
机器学习/深度学习 算法 数据挖掘
【机器学习】聚类算法中,如何判断数据是否被“充分”地聚类,以便算法产生有意义的结果?
【5月更文挑战第14天】【机器学习】聚类算法中,如何判断数据是否被“充分”地聚类,以便算法产生有意义的结果?
|
18天前
|
机器学习/深度学习 传感器 算法
【机器学习】在聚类算法中,使用曼哈顿距离和使用欧式距离有什么区别?
【5月更文挑战第12天】【机器学习】在聚类算法中,使用曼哈顿距离和使用欧式距离有什么区别?
|
18天前
|
机器学习/深度学习 算法 数据可视化
【机器学习】比较分层聚类(Hierarchical Clustering)和K-means聚类算法
【5月更文挑战第12天】【机器学习】比较分层聚类(Hierarchical Clustering)和K-means聚类算法
|
18天前
|
机器学习/深度学习 算法 数据挖掘
【机器学习】在使用K-means聚类算法时,如何选择K的值?
【5月更文挑战第11天】【机器学习】在使用K-means聚类算法时,如何选择K的值?
|
18天前
|
机器学习/深度学习 算法 数据挖掘
【机器学习】K-means聚类的停止标准是什么?
【5月更文挑战第11天】【机器学习】K-means聚类的停止标准是什么?
|
18天前
|
机器学习/深度学习 算法 数据挖掘
【机器学习】解释什么是K-means聚类?
【5月更文挑战第11天】【机器学习】解释什么是K-means聚类?