k-近邻算法(kNN)

简介: k-近邻算法(kNN)

k-近邻算法概述

优点:精度高、对异常值不敏感、无数据输入假定

缺点:计算复杂度高、空间复杂度

适用数据范围:数值型和标称型


k-近邻算法的一般流程

(1)收集数据

(2)准备数据

(3)分析数据

(4)训练算法(不需要)

(5)测试算法

(6)使用算法

from numpy import *
import operator
def createDataSet():
  group = array([[1.0, 1.1], [1.0, 1.0], [0, 0], [0, 0.1]])
  labels = ['A', 'A', 'B', 'B']
  return group, labels
group, labels = createDataSet()
group
array([[1. , 1.1],
       [1. , 1. ],
       [0. , 0. ],
       [0. , 0.1]])
labels
import matplotlib.pyplot as plt
x = group[:, 0]
y = group[:, 1]
plt.scatter(x, y)
plt.xlim(-0.2, 1.2)
plt.ylim(-0.2, 1.2)
for i, pos in enumerate(zip(x, y)):
    plt.text(pos[0]-0.01, pos[1], f'{labels[i]}', ha='right')
plt.show()

kNN算法伪代码

对未知类别属性的数据集中的每个点依次执行以下操作:

(1)计算已知类别数据集中的点与当前点之间的距离

(2)按照距离递增的次序排列

(3)选取与当前点距离最小的k个点

(4)确定前k个点所在类别的出现频率

(5)返回前k个点出现频率最高的类别作为当前点的预测分类

def classify0(inX, dataSet, labels, k):
  dataSetSize = dataSet.shape[0]
  diffMat = tile(inX, (dataSetSize, 1)) - dataSet
  sqDiffMat = diffMat ** 2
  sqDistances = sqDiffMat.sum(axis=1)
  distances = sqDistances**0.5
  sortedDistIndicies = distances.argsort()
  classCount = {}
  for i in range(k):
    voteIlabel = labels[sortedDistIndicies[i]]
    classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1
  sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True)
  return sortedClassCount[0][0]
classify0([0, 0], group, labels, 3)

'B'


这段代码实现了k近邻算法中的分类函数,用于根据输入的数据点inX,在数据集dataSet中找到距离最近的k个邻居,并统计它们的类别标签,最终返回频率最高的类别。

现在让我们逐步分析这段代码:

  1. dataSetSize = dataSet.shape[0]: 获取数据集的行数,即数据点的数量。
  2. diffMat = tile(inX, (dataSetSize, 1)) - dataSet: 将输入数据点inX复制成与数据集相同大小的矩阵,然后计算与数据集中每个点的差值。
  3. sqDiffMat = diffMat ** 2: 对差值矩阵的每个元素进行平方操作。
  4. sqDistances = sqDiffMat.sum(axis=1): 沿着列的方向对平方差值矩阵进行求和,得到每个数据点与输入点的平方距离。
  5. distances = sqDistances**0.5: 对平方距离进行开方,得到真实距离。
  6. sortedDistIndicies = distances.argsort(): 对距离进行排序,返回排序后的索引值。
  7. classCount = {}: 初始化一个空字典,用于存储每个类别的投票数。
  8. for i in range(k):: 遍历前k个最小距离的索引。
  9. voteIlabel = labels[sortedDistIndicies[i]]: 获取对应索引的类别标签。
  10. classCount[voteIlabel] = classCount.get(voteIlabel, 0) + 1: 统计每个类别的投票数,使用get方法获取字典中的值,如果键不存在则返回默认值0。
  11. sortedClassCount = sorted(classCount.items(), key=operator.itemgetter(1), reverse=True): 对字典按照值进行排序,items()方法返回字典的键值对,key=operator.itemgetter(1)表示按照值排序,reverse=True表示降序排列。
  12. return sortedClassCount[0][0]: 返回排序后的字典中频率最高的类别标签,即k个邻居中出现最多的类别。


这个函数的核心思想是通过计算输入点与数据集中每个点的距离,找到距离最近的k个邻居,然后通过投票机制确定输入点的类别。


目录
相关文章
|
4天前
|
算法 Python
使用k-近邻算法改进约会网站的配对效果(kNN)
使用k-近邻算法改进约会网站的配对效果(kNN)
18 6
|
4天前
|
算法
使用k-近邻算法构建手写识别系统(kNN)
使用k-近邻算法构建手写识别系统(kNN)
17 9
|
10天前
|
文字识别 算法 Go
kNN算法
【6月更文挑战第6天】kNN算法。
8 1
|
15天前
|
机器学习/深度学习 数据采集 存储
【机器学习】K-近邻算法(KNN)全面解析
K-近邻算法(K-Nearest Neighbors, KNN)是一种基于实例的学习方法,属于监督学习范畴。它的工作原理简单直观:给定一个训练数据集,对新的输入实例,KNN算法通过计算其与训练集中每个实例的距离,找出距离最近的K个邻居,然后根据这些邻居的类别(对于分类任务)或值(对于回归任务)来预测新实例的类别或值。KNN因其简单高效和无需训练过程的特点,在众多领域中得到广泛应用,如模式识别、推荐系统、图像分类等。
173 0
|
24天前
|
机器学习/深度学习 算法
机器学习—KNN算法
机器学习—KNN算法
|
1天前
|
算法 JavaScript 决策智能
基于禁忌搜索算法的TSP路径规划matlab仿真
**摘要:** 使用禁忌搜索算法解决旅行商问题(TSP),在MATLAB2022a中实现路径规划,显示优化曲线与路线图。TSP寻找最短城市访问路径,算法通过避免局部最优,利用禁忌列表不断调整顺序。关键步骤包括初始路径选择、邻域搜索、解评估、选择及禁忌列表更新。过程示意图展示搜索效果。
|
1天前
|
机器学习/深度学习 算法
基于BP神经网络和小波变换特征提取的烟草香型分类算法matlab仿真,分为浓香型,清香型和中间香型
```markdown 探索烟草香型分类:使用Matlab2022a中的BP神经网络结合小波变换。小波分析揭示香气成分的局部特征,降低维度,PCA等用于特征选择。BP网络随后处理这些特征,以区分浓香、清香和中间香型。 ```
|
2天前
|
机器学习/深度学习 算法
m基于PSO-GRU粒子群优化长门控循环单元网络的电力负荷数据预测算法matlab仿真
摘要: 在MATLAB 2022a中,对比了电力负荷预测算法优化前后的效果。优化前为"Ttttttt111222",优化后为"Tttttttt333444",明显改进体现为"Tttttttttt5555"。该算法结合了粒子群优化(PSO)和长门控循环单元(GRU)网络,利用PSO优化GRU的超参数,提升预测准确性和稳定性。PSO模仿鸟群行为寻找最优解,而GRU通过更新门和重置门处理长期依赖问题。核心MATLAB程序展示了训练和预测过程,包括使用'adam'优化器和超参数调整,最终评估并保存预测结果。
6 0
|
3天前
|
算法 安全
基于龙格库塔算法的SIR病毒扩散预测matlab仿真
该程序使用龙格库塔算法实现SIR模型预测病毒扩散,输出易感、感染和康复人群曲线。在MATLAB2022a中运行显示预测结果。核心代码设置时间区间、参数,并定义微分方程组,通过Runge-Kutta方法求解。SIR模型描述三类人群动态变化,常微分方程组刻画相互转化。模型用于预测疫情趋势,支持公共卫生决策,但也存在局限性,如忽略空间结构和人口异质性。
|
3天前
|
机器学习/深度学习 监控 算法
基于yolov2深度学习网络的昆虫检测算法matlab仿真,并输出昆虫数量和大小判决
YOLOv2算法应用于昆虫检测,提供实时高效的方法识别和定位图像中的昆虫,提升检测精度。核心是统一检测网络,预测边界框和类别概率。通过预测框尺寸估算昆虫大小,适用于农业监控、生态研究等领域。在matlab2022A上运行,经过关键升级,如采用更优网络结构和损失函数,保证速度与精度。持续优化可增强对不同昆虫的检测能力。![image.png](https://ucc.alicdn.com/pic/developer-ecology/3tnl7rfrqv6tw_e760ff6682a3420cb4e24d1e48b10a2e.png)