100天搞定机器学习|Day11 实现KNN

简介: 100天搞定机器学习|Day11 实现KNN

Day7,我们学习了K最近邻算法(k-NN了解了其定义,如何工作,介绍了集中常用的距离和k值选择。Day11,通过一个案例实现该算法。


第一步:导入相关库

import numpy as np

import matplotlib.pyplot as plt

import pandas as pd


第二步:导入数据集


dataset = pd.read_csv('../datasets/Social_Network_Ads.csv')


为了方便理解,这里我们只取Age年龄和EstimatedSalary估计工资作为特征


X = dataset.iloc[:, [2, 3]].values
y = dataset.iloc[:, 4].values


第三步:将数据划分成训练集和测试集


fromsklearn.model_selectionimport train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size =0.25, random_state =0)


第四步:特征缩放


from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)


第五步:使用K-NN对训练集数据进行训练


从sklearn的neighbors类中导入KNeighborsClassifier学习器
from sklearn.neighbors import KNeighborsClassifier


设置好相关的参数 n_neighbors =5(K值的选择,默认选择5)、 metric ='minkowski'(距离度量的选择,这里选择的是闵氏距离(默认参数))、 p = 2 (距离度量metric的附属参数,只用于闵氏距离和带权重闵氏距离中p值的选择,p=1为曼哈顿距离, p=2为欧式距离。默认为2)


classifier = KNeighborsClassifier(n_neighbors=5, metric ='minkowski', p =2)
classifier.fit(X_train,y_train)
KNeighborsClassifier(algorithm='auto',leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=1,n_neighbors=5, p=2,
           weights='uniform')


第六步:对测试集进行预测


y_pred = classifier.predict(X_test)

640.png



第七步:生成混淆矩阵


混淆矩阵可以对一个分类器性能进行分析,由此可以计算出许多指标,例如:ROC曲线、正确率等


fromsklearn.metricsimport confusion_matrix
cm = confusion_matrix(y_test, y_pred)
print(cm)
[[64  4]
 [ 3 29]]
print(classification_report(y_test, y_pred))

640.png


预测集中的0总共有68个,1总共有32个。 在这个混淆矩阵中,实际有68个0,但K-NN预测出有67(64+3)个0,其中有3个实际上是1。 同时K-NN预测出有33(4+29)个1,其中4个实际上是0。

相关文章
|
7月前
|
机器学习/深度学习 算法
机器学习第14天:KNN近邻算法
机器学习第14天:KNN近邻算法
|
7月前
|
机器学习/深度学习 数据采集 算法
Machine Learning机器学习之K近邻算法(K-Nearest Neighbors,KNN)
Machine Learning机器学习之K近邻算法(K-Nearest Neighbors,KNN)
|
7月前
|
机器学习/深度学习 算法 数据挖掘
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-2
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
|
7月前
|
机器学习/深度学习 Python
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-4
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
|
6月前
|
机器学习/深度学习 算法
【阿旭机器学习实战】【30】二手车价格预估--KNN回归案例
【阿旭机器学习实战】【30】二手车价格预估--KNN回归案例
|
2月前
|
机器学习/深度学习 算法
机器学习入门(三):K近邻算法原理 | KNN算法原理
机器学习入门(三):K近邻算法原理 | KNN算法原理
|
2月前
|
机器学习/深度学习 算法 API
机器学习入门(五):KNN概述 | K 近邻算法 API,K值选择问题
机器学习入门(五):KNN概述 | K 近邻算法 API,K值选择问题
|
7月前
|
机器学习/深度学习 算法 Python
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-1
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-1
|
7月前
|
机器学习/深度学习 人工智能 算法
【机器学习】K-means和KNN算法有什么区别?
【5月更文挑战第11天】【机器学习】K-means和KNN算法有什么区别?
|
6月前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】近邻类模型:KNN算法在数据科学中的实践与探索
【机器学习】近邻类模型:KNN算法在数据科学中的实践与探索
106 0