阿旭机器学习实战【3】KNN算法进行年收入预测

简介: 阿旭机器学习实战【3】KNN算法进行年收入预测

问题描述


使用KNN算法训练模型,然后使用模型预测一个人的年收入是否大于50。


读取数据集并查看数据


# 导入相应库
import pandas as pd
from pandas import Series,DataFrame
import numpy as np
df = pd.read_csv("./adults.txt")
df.head()


image.png


该数据集包含14个特征:分别为age ;workclass ;final_weight ;education ;education_num ;marital_status ;occupation ;relationship ;race ;sex ;capital_gain ;capital_loss ;hours_per_week ;native_country


其中数据集最后一列:salary表示这个人的年收入


特征工程


分割特征与标签


# 特征数据
data = df.iloc[:,:-1].copy()
data.head()


image.png


# 标签数据
target = df[["salary"]].copy()
target.head()

image.png


对非数值特征进行量化


由于KNN算法只能对数值类型的值进行计算,因此需要对非数值特征进行量化处理


把字符串类型的特征属性进行量化


对workclass职业这一特征进行量化


# 查看总共有多少个职业
ws = data.workclass.unique()
ws
array(['State-gov', 'Self-emp-not-inc', 'Private', 'Federal-gov',
       'Local-gov', '?', 'Self-emp-inc', 'Without-pay', 'Never-worked'],
      dtype=object)


可以看出总共有9类职业:包括未知的“?”。下面我们使用0-8这9个数字,分别对9种职业进行编码


# 定义转化函数
def convert_ws(item):
    # np.argwhere函数会返回,相应职业对应的索引
    return np.argwhere(ws==item)[0,0]
# 将职业转化为职业列表中索引值
data.workclass = data.workclass.map(convert_ws)
# 查看职业转化后的数据
data.head()


image.png


np.argwhere函数会返回相应职业对应的索引, np.argwhere(ws==“?”)[0,0],返回值为5


对其他字符串特征属性进行量化


与上述职业量化过程相同


# 需要进行量化的属性
cols = ['education',"marital_status","occupation","relationship","race","sex","native_country"]
# 使用遍历的方式对各列属性进行量化
def convert_item(item):
    return np.argwhere(uni == item)[0,0]
for col in cols:
    uni = data[col].unique()
    data[col] = data[col].map(convert_item)
# 查看对所有列进行量化后的数据
data.head()


image.png


建模与评估


好了,以上我们已经将所有特征进行了量化处理,下面就可以使用KNN算法进行建模了


from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
# 创建模型
knn = KNeighborsClassifier(n_neighbors=8)
# 划分训练集与测试集
x_train,x_test,y_train,y_test = train_test_split(data,target,test_size=0.01)
# 对模型进行训练
knn.fit(x_train,y_train)
# 使用测试集查看模型的准确度
knn.score(x_test,y_test)


0.7822085889570553
• 1


模型优化


我们可以看到,如果不对上述所有的特征数值进行处理,直接使用KNN模型进行训练的话,模型的准确率仅为78%


下面我们对特征数据进行归一化处理,然后再使用KNN模型进行建模与测试,看看结果如何。

# 把所有的数据归一化
# 创建归一化函数
def func(x):
    return (x-min(x))/(max(x)-min(x))
# 对特征数据进行归一化处理
data[data.columns] = data[data.columns].transform(func)
data.head()

image.png


# 划分训练集与测试集
x_train,x_test,y_train,y_test = train_test_split(data,target,test_size=0.01)
# 创建模型
knn = KNeighborsClassifier(n_neighbors=8)
# 训练模型
knn.fit(x_train,y_train)
# 使用测试集查看模型的准确度
knn.score(x_test,y_test)


0.8374233128834356
• 1


我们可以发现,将所有数据进行归一化处理后,准确率从78%提升到了84%,还是比较不错的。


当然还有一些其他的处理方式对模型进行优化,后续博文会持续更新,欢迎关注。


总结


这篇文章主要介绍了以下几点内容:


  1. 如何对字符串类型的数据进行量化处理
  2. 使用KNN模型对人的年收入进行预测
  3. 模型优化:对数据进行归一化处理之后,有利于提高模型准确度。


相关文章
|
负载均衡 算法 关系型数据库
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
本文聚焦 MySQL 集群架构中的负载均衡算法,阐述其重要性。详细介绍轮询、加权轮询、最少连接、加权最少连接、随机、源地址哈希等常用算法,分析各自优缺点及适用场景。并提供 Java 语言代码实现示例,助力直观理解。文章结构清晰,语言通俗易懂,对理解和应用负载均衡算法具有实用价值和参考价值。
大数据大厂之MySQL数据库课程设计:揭秘MySQL集群架构负载均衡核心算法:从理论到Java代码实战,让你的数据库性能飙升!
|
7月前
|
算法 数据可视化 测试技术
HNSW算法实战:用分层图索引替换k-NN暴力搜索
HNSW是一种高效向量检索算法,通过分层图结构实现近似最近邻的对数时间搜索,显著降低查询延迟。相比暴力搜索,它在保持高召回率的同时,将性能提升数十倍,广泛应用于大规模RAG系统。
617 10
HNSW算法实战:用分层图索引替换k-NN暴力搜索
|
7月前
|
机器学习/深度学习 缓存 算法
微店关键词搜索接口核心突破:动态权重算法与语义引擎的实战落地
本文详解微店搜索接口从基础匹配到智能推荐的技术进阶路径,涵盖动态权重、语义理解与行为闭环三大创新,助力商家提升搜索转化率、商品曝光与用户留存,实现技术驱动的业绩增长。
|
8月前
|
机器学习/深度学习 资源调度 算法
遗传算法模型深度解析与实战应用
摘要 遗传算法(GA)作为一种受生物进化启发的优化算法,在复杂问题求解中展现出独特优势。本文系统介绍了GA的核心理论、实现细节和应用经验。算法通过模拟自然选择机制,利用选择、交叉、变异三大操作在解空间中进行全局搜索。与梯度下降等传统方法相比,GA不依赖目标函数的连续性或可微性,特别适合处理离散优化、多目标优化等复杂问题。文中详细阐述了染色体编码、适应度函数设计、遗传操作实现等关键技术,并提供了Python代码实现示例。实践表明,GA的成功应用关键在于平衡探索与开发,通过精心调参维持种群多样性同时确保收敛效率
|
7月前
|
存储 人工智能 算法
从零掌握贪心算法Java版:LeetCode 10题实战解析(上)
在算法世界里,有一种思想如同生活中的"见好就收"——每次做出当前看来最优的选择,寄希望于通过局部最优达成全局最优。这种思想就是贪心算法,它以其简洁高效的特点,成为解决最优问题的利器。今天我们就来系统学习贪心算法的核心思想,并通过10道LeetCode经典题目实战演练,带你掌握这种"步步为营"的解题思维。
|
8月前
|
机器学习/深度学习 边缘计算 人工智能
粒子群算法模型深度解析与实战应用
蒋星熠Jaxonic是一位深耕智能优化算法领域多年的技术探索者,专注于粒子群优化(PSO)算法的研究与应用。他深入剖析了PSO的数学模型、核心公式及实现方法,并通过大量实践验证了其在神经网络优化、工程设计等复杂问题上的卓越性能。本文全面展示了PSO的理论基础、改进策略与前沿发展方向,为读者提供了一份详尽的技术指南。
粒子群算法模型深度解析与实战应用
|
11月前
|
机器学习/深度学习 存储 运维
机器学习异常检测实战:用Isolation Forest快速构建无标签异常检测系统
本研究通过实验演示了异常标记如何逐步完善异常检测方案和主要分类模型在欺诈检测中的应用。实验结果表明,Isolation Forest作为一个强大的异常检测模型,无需显式建模正常模式即可有效工作,在处理未见风险事件方面具有显著优势。
877 46
|
机器学习/深度学习 数据可视化 TensorFlow
Python 高级编程与实战:深入理解数据科学与机器学习
本文深入探讨了Python在数据科学与机器学习中的应用,介绍了pandas、numpy、matplotlib等数据科学工具,以及scikit-learn、tensorflow、keras等机器学习库。通过实战项目,如数据可视化和鸢尾花数据集分类,帮助读者掌握这些技术。最后提供了进一步学习资源,助力提升Python编程技能。
|
机器学习/深度学习 人工智能 Java
Java机器学习实战:基于DJL框架的手写数字识别全解析
在人工智能蓬勃发展的今天,Python凭借丰富的生态库(如TensorFlow、PyTorch)成为AI开发的首选语言。但Java作为企业级应用的基石,其在生产环境部署、性能优化和工程化方面的优势不容忽视。DJL(Deep Java Library)的出现完美填补了Java在深度学习领域的空白,它提供了一套统一的API,允许开发者无缝对接主流深度学习框架,将AI模型高效部署到Java生态中。本文将通过手写数字识别的完整流程,深入解析DJL框架的核心机制与应用实践。
871 3

热门文章

最新文章