【数据挖掘】KNN算法详解及对iris数据集分类实战（超详细附源码）-阿里云开发者社区

【数据挖掘】KNN算法详解及对iris数据集分类实战（超详细附源码）

2023-12-20 360

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【数据挖掘】KNN算法详解及对iris数据集分类实战（超详细附源码）

需要源码请点赞关注收藏后评论区留言私信~~~

K近邻（k-Nearest Neighbor Classification，KNN）算法是机器学习算法中最基础、最简单的算法之一，属于惰性学习法.惰性学习法和其他学习方法的不同之处在于它并不急于获得测试对象之前构造的分类模型，当接收一个训练集时，惰性学习法只是简单的存储或者稍微处理每个训练样本，直到测试对象出现才开始构造分类器，惰性学习法的一个重要优点是它们不在整个对象空间上一次性的估计目标函数，而是针对每个待分类对象做出不同的估计，KNN算法通过测量不同特征值之间的距离进行发呢类，既能用于分类也能用于回归

算法原理

KNN算法基于类比学习，即通过将给定的检验元组与和它相似的元组进行比较来学习。训练元组用n个属性描述，每个元组代表n维空间的一个点。所有的训练元组都存放在n维模式空间中

当给定一个未知元组时，KNN搜索模式空间，根据距离函数计算待分类样本X和每个训练样本的距离（作为相似度），选择与待分类样本距离最小的K个样本作为X的K个最近邻，最后以X的K个最近邻中的大多数样本所属的类别作为X的类别

如图7-4所示，有方块和三角形两类数据，它们分布在二维特征空间中。假设有一个新数据（圆点）需要预测其所属的类别，根据“物以类聚”，可以找到离圆点最近的几个点，以它们中的大多数点的类别决定新数据所属的类别。如果k = 3，由于圆点近邻的3个样本中，三角形占比2/3，则认为新数据属于三角形类别。同理，k = 5，则新数据属于正方形类别

如何度量样本之间的距离（或相似度）是KNN算法的关键步骤之一

常见的数值属性的相似度度量方法包括：

闵可夫斯基距离（当参数p = 2时为欧几里得距离，参数p = 1时为曼哈顿距离）

余弦相似度、皮尔逊相似系数、汉明距离、杰卡德相似系数等

在计算距离之前，需要把每个属性的值规范化

对于算法中的K值，一般通过实验确定

K-最近邻算法是一种非参数模型

KNN算法描述如下

KNN分类iris实战

结果如下图所示

部分代码如下

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn.neighbors import KNeighborsClassifier
from sklearn.datasets import load_iris
iris = load_iris()
X = iris.data[:,:2]
Y = iris.target
print(iris.feature_names)
cmap_light = ListedColormap(['#FFAAAA','#AAFFAA','#AAAAFF'])
cmap_bold = ListedColormap(['#FF0000','#00FF00','#0000FF'])
clf = KNeighborsClassifier(n_neighbors = 10,weights = 'uniform')
clf.fit(X,Y)
#画出决策边界
x_min,x_max = X[:,0].min()-1,X[:,0].max()+1
y_min,y_max = X[:,1].min()-1,X[:,1].max()+1
xx,yy = np.meshgrid(np.arange(x_min,x_max,0.02),
np.arange(y_min,y_max,0.02))
Z 测结果图
plt.scatter(X[:,0],X[:,1],c = Y,cmap = cmap_bold)
plt.xlim(xx.min(),xx.max())
plt.ylim(yy.min(),yy.max())
plt.title('3_Class(k = 10,weights = uniform)')
plt.show()

下图是对KNN算法的特点总结

KNN算法优点如下

1.算法思路较为简单，易于实现；

2.当有新样本要加入训练集中时，无需重新训练（即重新训练的代价低）；

3.计算时间和空间线性于训练集的规模，对某些问题而言这是可行的

缺点如下

缺点：

1.分类速度慢。

2.各属性的权重相同，影响准确率。

3.样本库容量依赖性较强.

4.K值不好确定

创作不易觉得有帮助请点赞关注收藏~~~

【数据挖掘】KNN算法详解及对iris数据集分类实战（超详细附源码）

算法原理

KNN分类iris实战

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【数据挖掘】KNN算法详解及对iris数据集分类实战（超详细 附源码）

算法原理

KNN分类iris实战

热门文章

最新文章

相关课程

相关电子书

相关实验场景

【数据挖掘】KNN算法详解及对iris数据集分类实战（超详细附源码）