KNN算法原理及应用（一）-阿里云开发者社区

KNN算法原理及应用（一）

2024-06-21 122

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： **KNN算法**是一种监督学习的分类算法，适用于解决分类问题。它基于实例学习，无需训练过程，当新样本到来时，通过计算新样本与已有训练样本之间的距离，找到最近的K个邻居，然后根据邻居的类别进行多数表决（或加权表决）来预测新样本的类别。K值的选择、距离度量方式和分类决策规则是KNN的关键要素。KNN简单易懂，但计算复杂度随样本量增加而增加，适用于小规模数据集。在鸢尾花数据集等经典问题上表现良好，同时能处理多分类任务，并可应用于回归和数据预处理中的缺失值填充。

理解KNN 算法原理

KNN是监督学习分类算法，主要解决现实生活中分类问题。

根据目标的不同将监督学习任务分为了分类学习及回归预测问题。

监督学习任务的基本流程和架构：

（1）首先准备数据，可以是视频、音频、文本、图片等等

（2）抽取所需要的一些列特征，形成特征向量（Feature Vectors）。

（3）将这些特征向量连同标记一并送入机器学习算法中，训练出一个预测模型。

（4）然后，采用同样的特征提取方法作用于新数据，得到用于测试的特征向量。

（5）最后，使用预测模型对这些待测的特征向量进行预测并得到结果（Expected Model）。

KNN（K-Nearest Neihbor，KNN）K近邻是机器学习算法中理论最简单，最好理解的算法，是一个非常适合入门的算法，拥有如下特性：

思想极度简单，应用数学知识少(近乎为零)，对于很多不擅长数学的小伙伴十分友好
虽然算法简单，但效果也不错

如果要了解一个人的经济水平，只需要知道他最好的5个朋友的经济能力，对他的这五个人的经济水平求平均就是这个人的经济水平。这句话里面就包含着kNN的算法思想。

如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。

类别的判定

①投票决定，少数服从多数。取类别最多的为测试样本类别。

②加权投票法，依据计算得出距离的远近，对近邻的投票进行加权，距离越近则权重越大，设定权重为距离平方的倒数。

KNN 算法原理简单，不需要训练，属于监督学习算法，常用来解决分类问题

KNN原理：先确定K值，再计算距离，最后挑选K个最近的邻居进行投票

KNN的应用

KNN即能做分类又能做回归，还能用来做数据预处理的缺失值填充。由于KNN模型具有很好的解释性，对于每一个预测结果，我们可以很好的进行解释。文章推荐系统中，对于一个用户A，我们可以把和A最相近的k个用户，浏览过的文章推送给A。

算法的思想：通过K个最近的已知分类的样本来判断未知样本的类别。

KNN三要素：

距离度量
K值选择
分类决策准则

鸢尾花数据集

鸢尾花Iris Dataset数据集是机器学习领域经典数据集，鸢尾花数据集包含了150条鸢尾花信息，每50条取自三个鸢尾花中之一：Versicolour、Setosa和Virginica

from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
 
iris = load_iris() #通过iris.data 获取数据集中的特征值  iris.target获取目标值
# 数据标准化
transformer = StandardScaler()
x_ = transformer.fit_transform(iris.data) # iris.data 数据的特征值
 
#  模型训练
estimator = KNeighborsClassifier(n_neighbors=3) # n_neighbors 邻居的数量，也就是Knn中的K值
estimator.fit(x_, iris.target) # 调用fit方法 传入特征和目标进行模型训练
# 利用模型预测
result = estimator.predict(x_)
print(result)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 2 1
 1 1 1 1 1 1 1 1 1 2 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 1 2 2 2 2
 2 2 2 2 2 2 2 2 1 2 2 2 2 2 2 2 2 2 2 2 2 2 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]

sklearn中自带了几个学习数据集，都封装在sklearn.datasets 这个包中，加载数据后，通过data属性可以获取特征值，通过target属性可以获取目标值。

Demo数据集--kNN分类

1: 库函数导入

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap
from sklearn.neighbors import KNeighborsClassifier
from sklearn import datasets

2: 数据导入

iris = datasets.load_iris()
X = iris.data[:, :2]
y = iris.target

3: 模型训练

k_list = [1, 3, 5, 8, 10, 15]
h = .02
# 创建不同颜色画布
cmap_light = ListedColormap(['orange', 'cyan', 'cornflowerblue'])
cmap_bold = ListedColormap(['darkorange', 'c', 'darkblue'])
 
plt.figure(figsize=(15,14))
# 根据不同的k值进行可视化
for ind,k in enumerate(k_list):
    clf = KNeighborsClassifier(k)
    clf.fit(X, y)
    
    x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
    y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
    xx, yy = np.meshgrid(np.arange(x_min, x_max, h),
                         np.arange(y_min, y_max, h))
    Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
    
    Z = Z.reshape(xx.shape)
 
    plt.subplot(321+ind)  
    plt.pcolormesh(xx, yy, Z, cmap=cmap_light)
    
    plt.scatter(X[:, 0], X[:, 1], c=y, cmap=cmap_bold,
                edgecolor='k', s=20)
    plt.xlim(xx.min(), xx.max())
    plt.ylim(yy.min(), yy.max())
    plt.title("3-Class classification (k = %i)"% k)
 
plt.show()

当k=1的时候，在分界点位置的数据很容易受到局部的影响，图中蓝色的部分中还有部分绿色块，主要是数据太局部敏感。当k=15的时候，不同的数据基本根据颜色分开，当时进行预测的时候，会直接落到对应的区域。

KNN算法原理及应用（二）+https://developer.aliyun.com/article/1544041?spm=a2c6h.13148508.setting.21.1fa24f0eRBJGs5

KNN算法原理及应用（一）

理解KNN 算法原理

KNN的应用

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

KNN算法原理及应用（一）

理解KNN 算法原理

KNN的应用

热门文章

最新文章

相关课程

相关电子书

相关实验场景