需要源码请点赞关注收藏后评论区留言私信~~~
K近邻(k-Nearest Neighbor Classification,KNN)算法是机器学习算法中最基础、最简单的算法之一,属于惰性学习法.惰性学习法和其他学习方法的不同之处在于它并不急于获得测试对象之前构造的分类模型,当接收一个训练集时,惰性学习法只是简单的存储或者稍微处理每个训练样本,直到测试对象出现才开始构造分类器,惰性学习法的一个重要优点是它们不在整个对象空间上一次性的估计目标函数,而是针对每个待分类对象做出不同的估计,KNN算法通过测量不同特征值之间的距离进行发呢类,既能用于分类也能用于回归
算法原理
KNN算法基于类比学习,即通过将给定的检验元组与和它相似的元组进行比较来学习。训练元组用n个属性描述,每个元组代表n维空间的一个点。所有的训练元组都存放在n维模式空间中
当给定一个未知元组时,KNN搜索模式空间,根据距离函数计算待分类样本X和每个训练样本的距离(作为相似度),选择与待分类样本距离最小的K个样本作为X的K个最近邻,最后以X的K个最近邻中的大多数样本所属的类别作为X的类别
如图7-4所示,有方块和三角形两类数据,它们分布在二维特征空间中。假设有一个新数据(圆点)需要预测其所属的类别,根据“物以类聚”,可以找到离圆点最近的几个点,以它们中的大多数点的类别决定新数据所属的类别。如果k = 3,由于圆点近邻的3个样本中,三角形占比2/3,则认为新数据属于三角形类别。同理,k = 5,则新数据属于正方形类别
如何度量样本之间的距离(或相似度)是KNN算法的关键步骤之一
常见的数值属性的相似度度量方法包括:
闵可夫斯基距离(当参数p = 2时为欧几里得距离,参数p = 1时为曼哈顿距离)
余弦相似度、皮尔逊相似系数、汉明距离、杰卡德相似系数等
在计算距离之前,需要把每个属性的值规范化
对于算法中的K值,一般通过实验确定
K-最近邻算法是一种非参数模型
KNN算法描述如下
KNN分类iris实战
结果如下图所示
部分代码如下
import numpy as np import matplotlib.pyplot as plt from matplotlib.colors import ListedColormap from sklearn.neighbors import KNeighborsClassifier from sklearn.datasets import load_iris iris = load_iris() X = iris.data[:,:2] Y = iris.target print(iris.feature_names) cmap_light = ListedColormap(['#FFAAAA','#AAFFAA','#AAAAFF']) cmap_bold = ListedColormap(['#FF0000','#00FF00','#0000FF']) clf = KNeighborsClassifier(n_neighbors = 10,weights = 'uniform') clf.fit(X,Y) #画出决策边界 x_min,x_max = X[:,0].min()-1,X[:,0].max()+1 y_min,y_max = X[:,1].min()-1,X[:,1].max()+1 xx,yy = np.meshgrid(np.arange(x_min,x_max,0.02), np.arange(y_min,y_max,0.02)) Z 测结果图 plt.scatter(X[:,0],X[:,1],c = Y,cmap = cmap_bold) plt.xlim(xx.min(),xx.max()) plt.ylim(yy.min(),yy.max()) plt.title('3_Class(k = 10,weights = uniform)') plt.show()
下图是对KNN算法的特点总结
KNN算法优点如下
1.算法思路较为简单,易于实现;
2.当有新样本要加入训练集中时,无需重新训练(即重新训练的代价低);
3.计算时间和空间线性于训练集的规模,对某些问题而言这是可行的
缺点如下
缺点:
1.分类速度慢。
2.各属性的权重相同,影响准确率。
3.样本库容量依赖性较强.
4.K值不好确定
创作不易 觉得有帮助请点赞关注收藏~~~