1聚类
原理
1.首先随机选择k个随机点,成为聚类中心点,计算其他点到中心点之间距离,离那个中心点越近,就和那个中心点关联起来,
衡量距离,计算距离方法:
杰卡德,余弦相似度,persron
2.根据关联后的每一组,求平均值,计算出该组新的中心点作为聚类中心点
3.依次重复步骤,直至中心点不再变化
优化目标
k均值最小化问题,即最小化所有数据点与其关联的聚类中心之间的距离之和要最小
随机初始化算法,随机选择聚类中心点
问题:k-均值存在一个问题在于,它可能停留在一个局部最小值处,而这取决于初始化情况
解决办法:多次运行k-均值算法,每一次重新进行随机初始化,最后根据多次运行的均值结果,选择代价函数最小的结果
选择聚簇个数
根据观察代价函数与聚类簇数之间的曲线,找到曲线下降变缓和的地方
衡量聚类算法指标
ARI
2降维。
主成分分析算法
方法:
第一步,计算所有特征的均值
第二步,计算协方差矩阵
第三部,计算协方差矩阵的特征向量
第四部,利用奇异值分解