【机器学习】K-Means聚类的执行过程？优缺点？有哪些改进的模型？-阿里云开发者社区

【机器学习】K-Means聚类的执行过程？优缺点？有哪些改进的模型？

2024-08-06 302

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： K-Means聚类的执行过程、优缺点，以及改进模型，包括K-Means++和ISODATA算法，旨在解决传统K-Means算法在确定初始K值、收敛到局部最优和对噪声敏感等问题上的局限性。

面试题：K-Means聚类的执行过程？优缺点？有哪些改进的模型？

（1）简述K-means聚类的执行过程

数据预处理，如归一化、离散点处理即可。
随机选取K个簇中心
定义代价函数（可以将簇内平方和函数作为代价函数）
定义迭代次数t，重复下面过程直到代价函数收敛（或簇心不发生变化、或达到迭代次数）
- 对于每一个样本x，将其分配到距离最近的簇
- 对于每一个簇，计算簇内均值，作为该类簇新的中心。

（3） K-means算法有哪些优缺点？

优点

对于大数据，计算复杂度是O(NKt)，接近与线性，其中N是数据的样本数，K是簇心数，t是迭代的轮次数。
局部最优也能满足大部分的聚类需求

缺点

需要人工预先确定初始K值，且该值和真实的数据分布未必吻合
K-means只能收敛到局部最优，效果收到初始值的影响很大
容易收到噪点的影响
样本点只能被划分到单一的类中

（4）有哪些改进的模型？

针对K-means的缺点，目前也有很多改进模型，主要包括如下两种：

K-means ++

k-means++主要是在初始选取K个簇心上做出了改进。假设已经选取了n个初始聚类中心，则在选择n+1个聚类中心时，距离当前n个聚类中心越远的点会有更好的概率被选择为第n+1类聚类的中心。聚类中心当然是互相隔离的越远越好，之后的算法步骤同于k-means。

ISODATA

ISODATA算法也是在K值上面改进，它在k-means算法的基础上增加了两个操作，第一是分裂操作，增加聚类中心数，即当属于某个类别的样本数过多时、分散程度较大时，把该类别分为两个子类别。第二是合并操作，对应着减少聚类中心数，即当属于某个类别的样本数过少时，把该类别去除。

【机器学习】K-Means聚类的执行过程？优缺点？有哪些改进的模型？

面试题：K-Means聚类的执行过程？优缺点？有哪些改进的模型？

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【机器学习】K-Means聚类的执行过程？优缺点？有哪些改进的模型？

面试题：K-Means聚类的执行过程？优缺点？有哪些改进的模型？

热门文章

最新文章

相关课程

相关电子书

相关实验场景