机器学习—KNN算法

简介: 机器学习—KNN算法

一、K近邻算法概述

KNN算法属于我们监督学习里面一种分类算法,避开那些文邹邹的话语,用幼稚园的话来说,就是依据已知的,来对未知的事物进行分类。

我们要求求小X的评定,我们会怎么来做?

按照我们的经验是不是看他和那一段的分数最接近,如果你是这样想的,恭喜你,KNN算法的基本思维,我们已经掌握了。

没错,就是通过比较样本之间的距离,取得出我们的结论,我们先将小X同学和所有同学的欧式距离求出。

当然还有其他什么曼哈顿距离,切比夫斯距离呀等等等,欧拉距离相当简单,本文以欧拉距离为例

就是每一列数据差值的平方开根号,然后按照大小顺序对其进行排序,我们再圈定一个范围K值(就是选多少个数据)来对我们的选取的例子进行投票,因为选取的这些数据的评定都是确定的,所以我们直接统计标签个数即可。

我们先定义k=3(求出欧式距离后,排序后前三的取值)

这里很明显由于,小X所求的欧式距离,很明显,入选的有小唐,小黄,小斌

统计票数
优秀 2票 良好1票

所以小X同学是优秀!

细心的同学已经发现,就是在我们两者之间的差值比较大的时候,会对我们的权重造成影响,举个极端一点的列子

这样子得出的小X同学和小唐同学的欧式距离是不是特别大,(1000-800)^2是不是远大于其他科目的值,所以我们的数据需要规格化

二、K近邻三要素

距离度量

就是我们刚刚的欧式距离啦!不过我们这这里给他做一个规格化,让他的每一个取值范围,在0~1。就是求出我们每一列的最大值和最小值,把他们的和作为分母列当前的值减去最小值作为分子

k值选择

k值(就是距离排序后,取前k个)的选择也是一门学问

图a取值过小时,会造成我们样本过小

图b取值刚好

图c取值过大,会造成误差过大

分类决策规程

最常用的就是投票,谁多,谁就是!

代码

'''
Created on 3/9,2020
@author: ywz
'''
"""
1、距离计算
2、k值
3、决策机制
"""
import numpy as np  # import 导入包/模块  as:取别名
from numpy import *  # *  表示numpy 所有的函数方法
def classify_knn(inx, data_set, labels, k):
    """
    :param inx: vec need to predict classify
    :param data_set: samples
    :param labels: classes
    :param k: the k of knn
    :return: the class of predict
    """
    data_set_size = data_set.shape[0]
    # numpy中的tile函数:复制(被复制对象,(行数,列数))
    diff_mat = tile(inx, (data_set_size, 1)) - data_set
    sqrt_diff_mat = diff_mat**2
    # axis表示求和的方向,axis=0表示同一列相加,axis=1表示同一行相加
    sqrt_distance = sqrt_diff_mat.sum(axis=1)
    distances = sqrt_distance**0.5
    # print('type of distances:', type(distances))  # numpy.ndarray
    # print(distances)
    # distances.argsort()得到的是从小到大排序的索引值
    sorted_distances = distances.argsort()
    class_count = {}
    for i in range(k):
        vote_label = labels[sorted_distances[i]]
        if vote_label not in class_count:
            class_count[vote_label] = 0
        class_count[vote_label] += 1
    # print("class_count:", class_count)
    class_predict = max(class_count.items(), key=lambda x: x[1])[0]
    return class_predict
def file2matrix(filename):
    """
    :读取文件,返回文件中的特征矩阵和标签值
    :param filename:
    :return: features_matrix, label_vec
    """
    fr = open(filename) # open-->文件句柄 
    lines = fr.readlines()  # read,
    print("lines:")
    print(lines)
    num_samples = len(lines) 
    mat = zeros((num_samples, 3))  
    class_label_vec = []
    index = 0
    for line in lines:
        line = line.strip() 
        list_line = line.split('\t')  
        mat[index, :] = list_line[0:3]  
        class_label_vec.append(int(list_line[-1]))
        index += 1
    return mat, class_label_vec
mat, class_label_vec = file2matrix("datingTestSet2.txt")
# print(mat.shape)
# print(class_label_vec.shape) # ???
def auto_norm(data_set):
    """
    :param data_set:
    :return:
    """
    min_val = data_set.min(0)
    max_val = data_set.max(0)
    ranges = max_val - min_val
    norm_data_set = zeros(shape(data_set))
    num_samples = data_set.shape[0]
    # 归一化:newValue = (oldValue - minValue) / (maxValue - minValue)
    norm_data_set = data_set - tile(min_val, (num_samples, 1))
    norm_data_set = norm_data_set/tile(ranges, (num_samples, 1))
    return norm_data_set, ranges, min_val
def test_knn(file_name):
    """
    :return:
    """
    ratio = 0.1
    data_matrix, labels = file2matrix(file_name)
    nor_matrix, ranges, minval = auto_norm(data_matrix)
    num_samples = data_matrix.shape[0]
    num_test = int(ratio*num_samples)
    k_error = {}
    k = 3
    error_count = 0
    predict_class = []
    
    
    # 数据集中的前num_test个用户假设未知标签,作为预测对象
    for i in range(num_test):
        classifier_result = classify_knn(nor_matrix[i, :], nor_matrix[num_test:, :],
                                          labels[num_test:], k)
        predict_class.append(classifier_result)
        if classifier_result != labels[i]:
            error_count += 1
    print("k={},error_count={}".format(k, error_count))
    k_error[k] = error_count
    print("误差情况:", k_error)
    print("预测情况:", predict_class[:10])
    print("真实情况:", labels[:10])
    return k_error
    
    # for k in range(1, 31):
    #     error_count = 0
    #     for i in range(num_test):
    #         classifier_result = classify_knn(nor_matrix[i, :], nor_matrix[num_test:, :],
    #                                           labels[num_test:], k)
    #         if classifier_result != labels[i]:
    #             error_count += 1
    #     print("k={},error_count={}".format(k,error_count))
    #     k_error[k] = error_count
    # print(k_error)
    
    best = min(k_error.items(), key=lambda x: x[1])
    return best
if __name__ == '__main__':
    samples_file = "datingTestSet2.txt"
    best = test_knn(samples_file)
    print(best)
相关文章
|
1天前
|
机器学习/深度学习 人工智能 Dart
AI - 机器学习GBDT算法
梯度提升决策树(Gradient Boosting Decision Tree),是一种集成学习的算法,它通过构建多个决策树来逐步修正之前模型的错误,从而提升模型整体的预测性能。
|
1天前
|
机器学习/深度学习 数据采集 算法
KNN算法原理及应用(一)
**KNN算法**是一种监督学习的分类算法,适用于解决分类问题。它基于实例学习,无需训练过程,当新样本到来时,通过计算新样本与已有训练样本之间的距离,找到最近的K个邻居,然后根据邻居的类别进行多数表决(或加权表决)来预测新样本的类别。K值的选择、距离度量方式和分类决策规则是KNN的关键要素。KNN简单易懂,但计算复杂度随样本量增加而增加,适用于小规模数据集。在鸢尾花数据集等经典问题上表现良好,同时能处理多分类任务,并可应用于回归和数据预处理中的缺失值填充。
KNN算法原理及应用(一)
|
1天前
|
机器学习/深度学习 算法 搜索推荐
机器学习聚类算法
聚类算法是无监督学习技术,用于发现数据集中的自然群体,如用户画像、广告推荐等。常见的聚类算法包括K-Means,它基于距离分配样本至簇,适合球形分布;层次聚类则通过合并或分裂形成簇,能发现任意形状的簇;DBSCAN依据密度来聚类,对噪声鲁棒。KMeans API中`sklearn.cluster.KMeans(n_clusters=8)`用于指定簇的数量。评估聚类效果可使用轮廓系数、SSE等指标,Elbow方法帮助选择合适的K值。
|
1天前
|
机器学习/深度学习 算法
机器学习算法决策树(二)
**ID3决策树算法**是1975年由J. Ross Quinlan提出的,它基于信息增益来选择最佳划分特征。信息增益是衡量数据集纯度变化的指标,熵则是评估数据不确定性的度量。算法通过比较每个特征的信息增益来选择分裂属性,目标是构建一个能最大化信息增益的决策树。然而,ID3容易偏向于选择具有更多特征值的属性,C4.5算法为解决这一问题引入了信息增益率,降低了这种偏好。CART决策树则不仅用于分类,也用于回归,并使用基尼指数或信息熵来选择分割点。剪枝是防止过拟合的重要手段,包括预剪枝和后剪枝策略。
|
1天前
|
机器学习/深度学习 算法 数据可视化
机器学习算法决策树(一)
**决策树模型**是一种直观的分类模型,常用于金融风控和医疗诊断等领域。它通过树形结构对数据进行划分,易于理解和解释,能揭示特征重要性且计算复杂度低。然而,模型可能过拟合,需剪枝处理;不擅长处理连续特征;预测能力有限,且对数据变化敏感。在集成学习如XGBoost中,决策树作为基模型广泛应用。示例代码展示了使用Python的`sklearn`库构建和可视化决策树的过程。
|
1天前
|
算法
KNN算法原理及应用(二)
不能将所有数据集全部用于训练,为了能够评估模型的泛化能力,可以通过实验测试对学习器的泛化能力进行评估,进而做出选择。因此需要使用一个测试集来测试学习器对新样本的判别能力。
|
3天前
|
机器学习/深度学习 算法 数据可视化
m基于PSO-LSTM粒子群优化长短记忆网络的电力负荷数据预测算法matlab仿真
在MATLAB 2022a中,应用PSO优化的LSTM模型提升了电力负荷预测效果。优化前预测波动大,优化后预测更稳定。PSO借鉴群体智能,寻找LSTM超参数(如学习率、隐藏层大小)的最优组合,以最小化误差。LSTM通过门控机制处理序列数据。代码显示了模型训练、预测及误差可视化过程。经过优化,模型性能得到改善。
18 6
|
1天前
|
缓存 算法
基于机会网络编码(COPE)的卫星网络路由算法matlab仿真
**摘要:** 该程序实现了一个基于机会网络编码(COPE)的卫星网络路由算法,旨在提升无线网络的传输效率和吞吐量。在MATLAB2022a中测试,结果显示了不同数据流个数下的网络吞吐量。算法通过Dijkstra函数寻找路径,计算编码机会(Nab和Nx),并根据编码机会减少传输次数。当有编码机会时,中间节点执行编码和解码操作,优化传输路径。结果以图表形式展示,显示数据流与吞吐量的关系,并保存为`R0.mat`。COPE算法预测和利用编码机会,适应卫星网络的动态特性,提高数据传输的可靠性和效率。
|
3天前
|
算法 调度
基于变异混合蛙跳算法的车间调度最优化matlab仿真,可以任意调整工件数和机器数,输出甘特图
**摘要:** 实现变异混合蛙跳算法的MATLAB2022a版车间调度优化程序,支持动态调整工件和机器数,输出甘特图。核心算法结合SFLA与变异策略,解决Job-Shop Scheduling Problem,最小化总完成时间。SFLA模拟蛙群行为,分组进行局部搜索和全局信息交换。变异策略增强全局探索,避免局部最优。程序初始化随机解,按规则更新,经多次迭代和信息交换后终止。
|
8天前
|
算法 JavaScript 决策智能
基于禁忌搜索算法的TSP路径规划matlab仿真
**摘要:** 使用禁忌搜索算法解决旅行商问题(TSP),在MATLAB2022a中实现路径规划,显示优化曲线与路线图。TSP寻找最短城市访问路径,算法通过避免局部最优,利用禁忌列表不断调整顺序。关键步骤包括初始路径选择、邻域搜索、解评估、选择及禁忌列表更新。过程示意图展示搜索效果。