阿旭机器学习实战【3】KNN算法进行年收入预测

简介: 阿旭机器学习实战【3】KNN算法进行年收入预测

问题描述


使用KNN算法训练模型,然后使用模型预测一个人的年收入是否大于50。


读取数据集并查看数据


# 导入相应库
import pandas as pd
from pandas import Series,DataFrame
import numpy as np
df = pd.read_csv("./adults.txt")
df.head()


image.png


该数据集包含14个特征:分别为age ;workclass ;final_weight ;education ;education_num ;marital_status ;occupation ;relationship ;race ;sex ;capital_gain ;capital_loss ;hours_per_week ;native_country


其中数据集最后一列:salary表示这个人的年收入


特征工程


分割特征与标签


# 特征数据
data = df.iloc[:,:-1].copy()
data.head()


image.png


# 标签数据
target = df[["salary"]].copy()
target.head()

image.png


对非数值特征进行量化


由于KNN算法只能对数值类型的值进行计算,因此需要对非数值特征进行量化处理


把字符串类型的特征属性进行量化


对workclass职业这一特征进行量化


# 查看总共有多少个职业
ws = data.workclass.unique()
ws
array(['State-gov', 'Self-emp-not-inc', 'Private', 'Federal-gov',
       'Local-gov', '?', 'Self-emp-inc', 'Without-pay', 'Never-worked'],
      dtype=object)


可以看出总共有9类职业:包括未知的“?”。下面我们使用0-8这9个数字,分别对9种职业进行编码


# 定义转化函数
def convert_ws(item):
    # np.argwhere函数会返回,相应职业对应的索引
    return np.argwhere(ws==item)[0,0]
# 将职业转化为职业列表中索引值
data.workclass = data.workclass.map(convert_ws)
# 查看职业转化后的数据
data.head()


image.png


np.argwhere函数会返回相应职业对应的索引, np.argwhere(ws==“?”)[0,0],返回值为5


对其他字符串特征属性进行量化


与上述职业量化过程相同


# 需要进行量化的属性
cols = ['education',"marital_status","occupation","relationship","race","sex","native_country"]
# 使用遍历的方式对各列属性进行量化
def convert_item(item):
    return np.argwhere(uni == item)[0,0]
for col in cols:
    uni = data[col].unique()
    data[col] = data[col].map(convert_item)
# 查看对所有列进行量化后的数据
data.head()


image.png


建模与评估


好了,以上我们已经将所有特征进行了量化处理,下面就可以使用KNN算法进行建模了


from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
# 创建模型
knn = KNeighborsClassifier(n_neighbors=8)
# 划分训练集与测试集
x_train,x_test,y_train,y_test = train_test_split(data,target,test_size=0.01)
# 对模型进行训练
knn.fit(x_train,y_train)
# 使用测试集查看模型的准确度
knn.score(x_test,y_test)


0.7822085889570553
• 1


模型优化


我们可以看到,如果不对上述所有的特征数值进行处理,直接使用KNN模型进行训练的话,模型的准确率仅为78%


下面我们对特征数据进行归一化处理,然后再使用KNN模型进行建模与测试,看看结果如何。

# 把所有的数据归一化
# 创建归一化函数
def func(x):
    return (x-min(x))/(max(x)-min(x))
# 对特征数据进行归一化处理
data[data.columns] = data[data.columns].transform(func)
data.head()

image.png


# 划分训练集与测试集
x_train,x_test,y_train,y_test = train_test_split(data,target,test_size=0.01)
# 创建模型
knn = KNeighborsClassifier(n_neighbors=8)
# 训练模型
knn.fit(x_train,y_train)
# 使用测试集查看模型的准确度
knn.score(x_test,y_test)


0.8374233128834356
• 1


我们可以发现,将所有数据进行归一化处理后,准确率从78%提升到了84%,还是比较不错的。


当然还有一些其他的处理方式对模型进行优化,后续博文会持续更新,欢迎关注。


总结


这篇文章主要介绍了以下几点内容:


  1. 如何对字符串类型的数据进行量化处理
  2. 使用KNN模型对人的年收入进行预测
  3. 模型优化:对数据进行归一化处理之后,有利于提高模型准确度。


相关文章
|
8天前
|
机器学习/深度学习 人工智能 算法
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
手写数字识别系统,使用Python作为主要开发语言,基于深度学习TensorFlow框架,搭建卷积神经网络算法。并通过对数据集进行训练,最后得到一个识别精度较高的模型。并基于Flask框架,开发网页端操作平台,实现用户上传一张图片识别其名称。
28 0
【手写数字识别】Python+深度学习+机器学习+人工智能+TensorFlow+算法模型
|
25天前
|
存储 缓存 算法
前端算法:优化与实战技巧的深度探索
【10月更文挑战第21天】前端算法:优化与实战技巧的深度探索
20 1
|
29天前
|
机器学习/深度学习 算法 Java
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
机器学习、基础算法、python常见面试题必知必答系列大全:(面试问题持续更新)
|
1月前
|
机器学习/深度学习 算法 决策智能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
【机器学习】揭秘深度学习优化算法:加速训练与提升性能
|
1月前
|
机器学习/深度学习 算法 Python
探索机器学习中的决策树算法:从理论到实践
【10月更文挑战第5天】本文旨在通过浅显易懂的语言,带领读者了解并实现一个基础的决策树模型。我们将从决策树的基本概念出发,逐步深入其构建过程,包括特征选择、树的生成与剪枝等关键技术点,并以一个简单的例子演示如何用Python代码实现一个决策树分类器。文章不仅注重理论阐述,更侧重于实际操作,以期帮助初学者快速入门并在真实数据上应用这一算法。
|
17天前
|
机器学习/深度学习 人工智能 算法
探索机器学习中的决策树算法
【10月更文挑战第29天】本文将深入浅出地介绍决策树算法,一种在机器学习中广泛使用的分类和回归方法。我们将从基础概念出发,逐步深入到算法的实际应用,最后通过一个代码示例来直观展示如何利用决策树解决实际问题。无论你是机器学习的初学者还是希望深化理解的开发者,这篇文章都将为你提供有价值的见解和指导。
|
1月前
|
机器学习/深度学习 算法 大数据
机器学习入门:梯度下降算法(下)
机器学习入门:梯度下降算法(下)
|
1月前
|
机器学习/深度学习 算法 API
机器学习入门(五):KNN概述 | K 近邻算法 API,K值选择问题
机器学习入门(五):KNN概述 | K 近邻算法 API,K值选择问题
|
1月前
|
机器学习/深度学习 算法 数据处理
EM算法对人脸数据降维(机器学习作业06)
本文介绍了使用EM算法对人脸数据进行降维的机器学习作业。首先通过加载ORL人脸数据库,然后分别应用SVD_PCA、MLE_PCA及EM_PCA三种方法实现数据降维,并输出降维后的数据形状。此作业展示了不同PCA变种在人脸数据处理中的应用效果。
34 0
|
1月前
|
机器学习/深度学习 算法
机器学习入门:梯度下降算法(上)
机器学习入门:梯度下降算法(上)