在python中使用KNN算法处理缺失的数据

简介: 在python中使用KNN算法处理缺失的数据

处理缺失的数据并不是一件容易的事。 方法的范围从简单的均值插补和观察值的完全删除到像MICE这样的更高级的技术。 解决问题的挑战性是选择使用哪种方法。 今天,我们将探索一种简单但高效的填补缺失数据的方法-KNN算法。

640.png

KNN代表“ K最近邻居”,这是一种简单算法,可根据定义的最接近邻居数进行预测。它计算从您要分类的实例到训练集中其他所有实例的距离。

正如标题所示,我们不会将算法用于分类目的,而是填充缺失值。本文将使用房屋价格数据集,这是一个简单而著名的数据集,仅包含500多个条目。

这篇文章的结构如下:

  1. 数据集加载和探索
  2. KNN归因
  3. 归因优化
  4. 结论

数据集加载和探索

如前所述,首先下载房屋数据集。另外,请确保同时导入了Numpy和Pandas。这是前几行的外观:

640.png

默认情况下,数据集缺失值非常低-单个属性中只有五个:

640.png

让我们改变一下。您通常不会这样做,但是我们需要更多缺少的值。首先,我们创建两个随机数数组,其范围从1到数据集的长度。第一个数组包含35个元素,第二个数组包含20个(任意选择):

i1=np.random.choice(a=df.index, size=35)
i2=np.random.choice(a=df.index, size=20)

这是第一个数组的样子:

640.png

您的数组将有所不同,因为随机化过程是随机的。接下来,我们将用NAN替换特定索引处的现有值。这是如何做:

df.loc[i1, 'INDUS'] =np.nandf.loc[i2, 'TAX'] =np.nan

现在,让我们再次检查缺失值-这次,计数有所不同:

640.png

这就是我们从归因开始的全部前置工作。让我们在下一部分中进行操作。

KNN归因

整个插补可归结为4行代码-其中之一是库导入。我们需要sklearn.impute中的KNNImputer,然后以一种著名的Scikit-Learn方式创建它的实例。该类需要一个强制性参数– n_neighbors。它告诉冒充参数K的大小是多少。

首先,让我们选择3的任意数字。稍后我们将优化此参数,但是3足以启动。接下来,我们可以在计算机上调用fit_transform方法以估算缺失的数据。

最后,我们将结果数组转换为pandas.DataFrame对象,以便于解释。这是代码:

fromsklearn.imputeimportKNNImputerimputer=KNNImputer(n_neighbors=3)
imputed=imputer.fit_transform(df)
df_imputed=pd.DataFrame(imputed, columns=df.columns)

非常简单。让我们现在检查缺失值:

640.png

尽管如此,仍然存在一个问题-我们如何为K选择正确的值?

归因优化

该住房数据集旨在通过回归算法进行预测建模,因为目标变量是连续的(MEDV)。这意味着我们可以训练许多预测模型,其中使用不同的K值估算缺失值,并查看哪个模型表现最佳。

但首先是导入。我们需要Scikit-Learn提供的一些功能-将数据集分为训练和测试子集,训练模型并进行验证。我们选择了“随机森林”算法进行训练。RMSE用于验证:

fromsklearn.model_selectionimporttrain_test_splitfromsklearn.ensembleimportRandomForestRegressorfromsklearn.metricsimportmean_squared_errorrmse=lambday, yhat: np.sqrt(mean_squared_error(y, yhat))

以下是执行优化的必要步骤:

迭代K的可能范围-1到20之间的所有奇数都可以

  1. 使用当前的K值执行插补
  2. 将数据集分为训练和测试子集
  3. 拟合随机森林模型
  4. 预测测试集
  5. 使用RMSE进行评估

听起来很多,但可以归结为大约15行代码。这是代码段:

defoptimize_k(data, target):
errors= []
forkinrange(1, 20, 2):
imputer=KNNImputer(n_neighbors=k)
imputed=imputer.fit_transform(data)
df_imputed=pd.DataFrame(imputed, columns=df.columns)
X=df_imputed.drop(target, axis=1)
y=df_imputed[target]
X_train, X_test, y_train, y_test=train_test_split(X, y, test_size=0.2, random_state=42)
model=RandomForestRegressor()
model.fit(X_train, y_train)
preds=model.predict(X_test)
error=rmse(y_test, preds)
errors.append({'K': k, 'RMSE': error})
returnerrors

现在,我们可以使用修改后的数据集(在3列中缺少值)调用optimize_k函数,并传入目标变量(MEDV):

k_errors=optimize_k(data=df, target='MEDV')

就是这样!k_errors数组如下所示:

640.png

以可视化方式表示:

640.png

看起来K = 15是给定范围内的最佳值,因为它导致最小的误差。我们不会涵盖该错误的解释,因为它超出了本文的范围。让我们在下一节中总结一下。

总结

编写处理缺少数据归因的代码很容易,因为有很多现有的算法可以让我们直接使用。但是我们很难理解里面原因-了解应该推定哪些属性,不应该推算哪些属性。例如,可能由于客户未使用该类型的服务而缺失了某些值,因此没有必要执行估算。

最终确定是否需要进行缺失数据的处理,还需要有领域的专业知识,与领域专家进行咨询并研究领域是一种很好的方法。


目录
相关文章
|
2月前
|
算法 搜索推荐 JavaScript
基于python智能推荐算法的全屋定制系统
本研究聚焦基于智能推荐算法的全屋定制平台网站设计,旨在解决消费者在个性化定制中面临的选择难题。通过整合Django、Vue、Python与MySQL等技术,构建集家装设计、材料推荐、家具搭配于一体的一站式智能服务平台,提升用户体验与行业数字化水平。
|
2月前
|
存储 监控 算法
监控电脑屏幕的帧数据检索 Python 语言算法
针对监控电脑屏幕场景,本文提出基于哈希表的帧数据高效检索方案。利用时间戳作键,实现O(1)级查询与去重,结合链式地址法支持多条件检索,并通过Python实现插入、查询、删除操作。测试表明,相较传统列表,检索速度提升80%以上,存储减少15%,具备高实时性与可扩展性,适用于大规模屏幕监控系统。
142 5
|
2月前
|
数据采集 Web App开发 数据可视化
Python零基础爬取东方财富网股票行情数据指南
东方财富网数据稳定、反爬宽松,适合爬虫入门。本文详解使用Python抓取股票行情数据,涵盖请求发送、HTML解析、动态加载处理、代理IP切换及数据可视化,助你快速掌握金融数据爬取技能。
1501 1
|
2月前
|
Java 数据挖掘 数据处理
(Pandas)Python做数据处理必选框架之一!(一):介绍Pandas中的两个数据结构;刨析Series:如何访问数据;数据去重、取众数、总和、标准差、方差、平均值等;判断缺失值、获取索引...
Pandas 是一个开源的数据分析和数据处理库,它是基于 Python 编程语言的。 Pandas 提供了易于使用的数据结构和数据分析工具,特别适用于处理结构化数据,如表格型数据(类似于Excel表格)。 Pandas 是数据科学和分析领域中常用的工具之一,它使得用户能够轻松地从各种数据源中导入数据,并对数据进行高效的操作和分析。 Pandas 主要引入了两种新的数据结构:Series 和 DataFrame。
458 0
|
2月前
|
JSON 算法 API
Python采集淘宝商品评论API接口及JSON数据返回全程指南
Python采集淘宝商品评论API接口及JSON数据返回全程指南
|
2月前
|
JSON API 数据安全/隐私保护
Python采集淘宝拍立淘按图搜索API接口及JSON数据返回全流程指南
通过以上流程,可实现淘宝拍立淘按图搜索的完整调用链路,并获取结构化的JSON商品数据,支撑电商比价、智能推荐等业务场景。
|
3月前
|
数据采集 关系型数据库 MySQL
python爬取数据存入数据库
Python爬虫结合Scrapy与SQLAlchemy,实现高效数据采集并存入MySQL/PostgreSQL/SQLite。通过ORM映射、连接池优化与批量提交,支持百万级数据高速写入,具备良好的可扩展性与稳定性。
|
2月前
|
机器学习/深度学习 算法 机器人
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
【水下图像增强融合算法】基于融合的水下图像与视频增强研究(Matlab代码实现)
283 0
|
2月前
|
数据采集 分布式计算 并行计算
mRMR算法实现特征选择-MATLAB
mRMR算法实现特征选择-MATLAB
215 2
|
3月前
|
传感器 机器学习/深度学习 编解码
MATLAB|主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性
MATLAB|主动噪声和振动控制算法——对较大的次级路径变化具有鲁棒性
227 3

热门文章

最新文章

推荐镜像

更多