KNN 算法的改进与优化
KNN 算法由于提出时间较早, 随着其他技术的不断更新和完善, KNN 算法的诸多不足之处也逐渐显露出来,
因此许多针对 KNN 算法的改进算法也应运而生。
(1) 引入邻居权重
为了优化 KNN 分类器的效果,可以在其中引入权重机制作为对样本距离机制的补充;基本思想就是:为与测试样本距离更小的邻居设置更大的权重,衡量权重累积以及训练样本集中各种分类的样本数目,来对算法中的K值进行调整,进而达到更合理或平滑的分类效果。
(2) 特征降维与模式融合
KNN 算法的主要缺点是,当训练样本的数量非常大时, 即数据特征的维度很高时将导致很高的计算开销,为了对 KNN 的分类效率进行优化,可以在数据预处理阶段利用一些降维算法或者特征融合的方法对 KNN 的训练样本集进行简化,排除对样本结果影响较小的属性;通过优化样本集的分类,提高得出待分类样本类别的效率。该改进适用于样本集很多大的时候,数据集不大时没必要用此方法。
KNN 的优缺点
KNN用于分类
执行结果:
KNN用于回归
执行结果: