【机器学习算法】6、K-Means流程结束要不要多问几个为什么呢?(二)

简介: 【机器学习算法】6、K-Means流程结束要不要多问几个为什么呢?(二)

算法具体步骤的推导


       将N个样本{x1,x2,...,xN}划分到K个类{C1,C2,...,CK}中,最小化目标函数:

   其中K表示聚类中心的个数,Ci表示第几个聚类中心,dist表示欧式距离聚类,xi是划分到Ci中的样本。


(1) 、从N个数据对象选择K个对象作为初始的聚类中心,记作:

(2)、对待分类的模式特征向量集{xi}中的模式逐个按照最小距离原则划分给K类的某一类,即:

(3)、重新计算每个聚类簇得均值

(4)、循环(2)、(3),直到每个聚类不再发生变化为止,即:


K-Means的灵魂之问


1、为什么要求取簇中各点的均值呢?

   对于K个质心求解,最小化目标函数,即对SSE求导并令其等于0,然后求解Cj,即:

   在这里令SSE的导数为0,可以得到极值或者最小值(因为欧式距离是凸函数,这也是为什么选择欧式距离的部分原因):

于是可以得到如下的最优解结果:

因此簇最小化SSE的最佳质心在簇中各点的均值位置。


2、初始聚类中心该如何选择呢?

(1)凭经验;

(2)将数据随机分成K类,计算每类中心作为初始聚类中心;

(3)求每个特征点的球心,某一正数r的半径的球形区域中的特征点个数(即该特征的密度),选取密度最大的特征点为第一个初始聚类中心,然后再该中心大于距离d的那些特征点中选取另一个具有最大密度得特征点作为第二个聚类中心,直到选取K个初始聚类中心;

(4)用相距最远的特征点作为聚类中心;

(5)当n较大时,先随机地从n个模式中取出一部分模式用层次聚类的方法聚类成K个类,然后每类的中心作为初始聚类中心。


3、初始聚类中心的个数K该如何抉择呢?

(1)按先验知识进行抉择;

(2)手肘法:让K 从小到大逐步增加,每个K 都会用K-Means算法分类。目标函数随着K的增加而单调减少,但速度在一定的程度上会减少,曲率变化最大的那个点对应最优的聚类数K。


K-Means算法的实践


K-Means算法实践

执行结果:

相关文章
|
2月前
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
164 4
|
18天前
|
机器学习/深度学习 人工智能 算法
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
126 13
机器学习算法的优化与改进:提升模型性能的策略与方法
|
4天前
|
人工智能 算法 搜索推荐
算法备案全流程攻略:保姆级教程
在AI热潮下,算法成为互联网服务的核心驱动力,但也带来了大数据杀熟、算法歧视等问题。为规范行业发展,算法备案制度应运而生。该制度涵盖网站、APP等多种产品形式,要求企业在2个月内完成备案,依据《互联网信息服务算法推荐管理规定》等法规。未备案企业可能面临无法上线、罚款甚至刑罚的后果。备案流程包括注册、主体备案、信息填报及审核,确保算法合规运营。通过悬挂备案号、标识AI生成内容和定期自查,企业需持续维护算法安全与合规。
|
8天前
|
机器学习/深度学习 算法 网络安全
CCS 2024:如何严格衡量机器学习算法的隐私泄露? ETH有了新发现
在2024年CCS会议上,苏黎世联邦理工学院的研究人员提出,当前对机器学习隐私保护措施的评估可能存在严重误导。研究通过LiRA攻击评估了五种经验性隐私保护措施(HAMP、RelaxLoss、SELENA、DFKD和SSL),发现现有方法忽视最脆弱数据点、使用较弱攻击且未与实际差分隐私基线比较。结果表明这些措施在更强攻击下表现不佳,而强大的差分隐私基线则提供了更好的隐私-效用权衡。
41 14
|
1月前
|
算法
PAI下面的gbdt、xgboost、ps-smart 算法如何优化?
设置gbdt 、xgboost等算法的样本和特征的采样率
61 2
|
2月前
|
机器学习/深度学习 算法 数据挖掘
C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出
本文探讨了C语言在机器学习中的应用及其重要性。C语言以其高效性、灵活性和可移植性,适合开发高性能的机器学习算法,尤其在底层算法实现、嵌入式系统和高性能计算中表现突出。文章还介绍了C语言在知名机器学习库中的作用,以及与Python等语言结合使用的案例,展望了其未来发展的挑战与机遇。
63 1
|
2月前
|
机器学习/深度学习 自然语言处理 算法
深入理解机器学习算法:从线性回归到神经网络
深入理解机器学习算法:从线性回归到神经网络
|
8月前
|
机器学习/深度学习 存储 搜索推荐
利用机器学习算法改善电商推荐系统的效率
电商行业日益竞争激烈,提升用户体验成为关键。本文将探讨如何利用机器学习算法优化电商推荐系统,通过分析用户行为数据和商品信息,实现个性化推荐,从而提高推荐效率和准确性。
265 14
|
8月前
|
机器学习/深度学习 算法 数据可视化
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
实现机器学习算法时,特征选择是非常重要的一步,你有哪些推荐的方法?
156 1
|
8月前
|
机器学习/深度学习 算法 搜索推荐
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)
Machine Learning机器学习之决策树算法 Decision Tree(附Python代码)