KNN算法原理及应用（一）-阿里云开发者社区

KNN算法原理及应用（一）

2024-06-21 27

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： **KNN算法**是一种监督学习的分类算法，适用于解决分类问题。它基于实例学习，无需训练过程，当新样本到来时，通过计算新样本与已有训练样本之间的距离，找到最近的K个邻居，然后根据邻居的类别进行多数表决（或加权表决）来预测新样本的类别。K值的选择、距离度量方式和分类决策规则是KNN的关键要素。KNN简单易懂，但计算复杂度随样本量增加而增加，适用于小规模数据集。在鸢尾花数据集等经典问题上表现良好，同时能处理多分类任务，并可应用于回归和数据预处理中的缺失值填充。

理解KNN 算法原理

KNN是监督学习分类算法，主要解决现实生活中分类问题。

根据目标的不同将监督学习任务分为了分类学习及回归预测问题。

监督学习任务的基本流程和架构：

（1）首先准备数据，可以是视频、音频、文本、图片等等

（2）抽取所需要的一些列特征，形成特征向量（Feature Vectors）。

（3）将这些特征向量连同标记一并送入机器学习算法中，训练出一个预测模型。

（4）然后，采用同样的特征提取方法作用于新数据，得到用于测试的特征向量。

（5）最后，使用预测模型对这些待测的特征向量进行预测并得到结果（Expected Model）。

KNN（K-Nearest Neihbor，KNN）K近邻是机器学习算法中理论最简单，最好理解的算法，是一个非常适合入门的算法，拥有如下特性：

思想极度简单，应用数学知识少(近乎为零)，对于很多不擅长数学的小伙伴十分友好
虽然算法简单，但效果也不错

如果要了解一个人的经济水平，只需要知道他最好的5个朋友的经济能力，对他的这五个人的经济水平求平均就是这个人的经济水平。这句话里面就包含着kNN的算法思想。

如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。

类别的判定

①投票决定，少数服从多数。取类别最多的为测试样本类别。

②加权投票法，依据计算得出距离的远近，对近邻的投票进行加权，距离越近则权重越大，设定权重为距离平方的倒数。

KNN 算法原理简单，不需要训练，属于监督学习算法，常用来解决分类问题

KNN原理：先确定K值，再计算距离，最后挑选K个最近的邻居进行投票

KNN的应用

KNN即能做分类又能做回归，还能用来做数据预处理的缺失值填充。由于KNN模型具有很好的解释性，对于每一个预测结果，我们可以很好的进行解释。文章推荐系统中，对于一个用户A，我们可以把和A最相近的k个用户，浏览过的文章推送给A。

算法的思想：通过K个最近的已知分类的样本来判断未知样本的类别。

KNN三要素：

距离度量
K值选择
分类决策准则

鸢尾花数据集

鸢尾花Iris Dataset数据集是机器学习领域经典数据集，鸢尾花数据集包含了150条鸢尾花信息，每50条取自三个鸢尾花中之一：Versicolour、Setosa和Virginica

from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
 
iris = load_iris() #通过iris.data 获取数据集中的特征值  iris.target获取目标值
# 数据标准化
transformer = StandardScaler()
x_ = transformer.fit_transform(iris.data) # iris.data 数据的特征值
 
#  模型训练
estimator = KNeighborsClassifier(n_neighbors=3) # n_neighbors 邻居的数量，也就是Knn中的K值
estimator.fit(x_, iris.target) # 调用fit方法 传入特征和目标进行模型训练
# 利用模型预测
result = estimator.predict(x_)
print(result)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 2 1
 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 1 2 2 2 2
 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]

sklearn中自带了几个学习数据集，都封装在sklearn.datasets 这个包中，加载数据后，通过data属性可以获取特征值，通过target属性可以获取目标值。

Demo数据集--kNN分类

1: 库函数导入

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn.neighbors import KNeighborsClassifier
from sklearn import datasets

2: 数据导入

iris = datasets.load_iris()
X = iris.data[:, :2]
y = iris.target

3: 模型训练

k_list = [1, 3, 5, 8, 10, 15]
h = .02
# 创建不同颜色画布
cmap_light = ListedColormap(['orange', 'cyan', 'cornflowerblue'])
cmap_bold = ListedColormap(['darkorange', 'c', 'darkblue'])
 
plt.figure(figsize=(15,14))
# 根据不同的k值进行可视化
for ind,k in enumerate(k_list):
    clf = KNeighborsClassifier(k)
    clf.fit(X, y)
    
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    
    Z = Z.reshape(xx.shape)
 
    plt.subplot(321+ind)  
    plt.pcolormesh(xx, yy, Z, cmap=cmap_light)
    
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap=cmap_bold,
                edgecolor='k', s=20)
    plt.xlim(xx.min(), xx.max())
    plt.ylim(yy.min(), yy.max())
    plt.title("3-Class classification (k = %i)"% k)
 
plt.show()

当k=1的时候，在分界点位置的数据很容易受到局部的影响，图中蓝色的部分中还有部分绿色块，主要是数据太局部敏感。当k=15的时候，不同的数据基本根据颜色分开，当时进行预测的时候，会直接落到对应的区域。

KNN算法原理及应用（二）+https://developer.aliyun.com/article/1544041?spm=a2c6h.13148508.setting.21.1fa24f0eRBJGs5

KNN算法原理及应用（一）

理解KNN 算法原理

KNN的应用

热门文章

最新文章

相关课程

相关电子书

相关实验场景