数据分析面试手册《缺失处理篇》-阿里云开发者社区

数据分析面试手册《缺失处理篇》

2023-02-08 495

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 7大缺失值处理方法集合。

对于从事数据相关工作的小伙伴，面试的时候经常会被问到如何进行缺失值/异常值的处理，本文来梳理一下填补缺失值的7种方法。

示例数据
本文所使用的示例数据创建如下：

import pandas as pd
import numpy as np

data = pd.DataFrame({
    'name': ['Bob', 'Mary', 'Peter', np.nan, 'Lucy'],
    'score': [99, 100, np.nan, 91, 95],
    'class': ['class1', 'class2', 'class1', 'class2', np.nan],
    'sex': ['male', 'fmale', 'male', 'male', 'fmale'],
    'age': [23, 25, 20, 19, 24]
})

在这里插入图片描述

一、均值填充

适用数据类型：数值类型
适用场景：数据整体极值差异不大时
举例：对成年男性身高的缺失值进行填充
代码示例：对data数据中的score进行均值填充

data['score'].fillna(data['score'].mean())

# 结果如下
0     99.00
1    100.00
2     96.25
3     91.00
4     95.00

二、中位数填充

适用数据类型：数值类型
适用场景：数据整体极值差异较大时
举例：对人均收入进行填充（数据中含有高收入人群：如马总）
代码示例：对data数据中的score进行中位数填充

data['score'].fillna(data['score'].median())

三、众数填充

适用数据类型：字符类型｜没有大小关系的数值类型数据
适用场景：大多数情况下
举例：对城市信息的缺失进行填充/对工人车间编号进行填充
代码示例：对data数据中的class进行众数填充（注意：众数填充时要通过索引0进行取值，一组数据的众数可能有多个，索引为0的数据一定会存在）

data['class'].fillna(data['class'].mode()[0])

# 结果如下
0    class1
1    class2
2    class1
3    class2
4    class1

四、前后数据填充

适用数据类型：数值类型｜字符类型
适用场景：数据行与行之间具有前后关系时
举例：学年成绩排行中的某同学某科目成绩丢失
代码示例：对data数据中的score进行前后数据填充

# 前文填充
data['score'].fillna(method='pad')
# 后文填充
data['score'].fillna(method='bfill')

五、自定义数据填充

适用数据类型：数值类型｜字符类型
适用场景：业务规定外的数据
举例：某调查问卷对婚后幸福程度进行调查，到那时很多人是未婚，可以自定义内容表示未婚人群
代码示例：对data数据中的name进行自定义数据填充

data['name'].fillna('no_name')

# 结果如下
0        Bob
1       Mary
2      Peter
3    no_name
4       Lucy

六、Pandas插值填充

适用数据类型：数值类型
适用场景：数据列的含义较为复杂，需要更精确的填充方法时
举例：对所有带有nan的数值列dataframe进行填充
说明：pandas中进行空值填充的方法为interpolate()，该方法的本质是使用各种数学（统计学）中的插值方法进行填充，其中包含最近邻插值法、阶梯插值、线性插值、B样条曲线插值等多种方法。
参数说明：interpolate()参数介绍
代码示例：

data['score'].interpolate()

七、机器学习算法填充

适用数据类型：数值类型｜字符类型
适用场景：具有多种数据维度的场景
说明：可以选择不同的回归｜分类模型对数据进行填充
注意：下面的例子中不考虑具体场景，只是用于举例
数值类型数据填充代码示例（线性回归）：

from sklearn.linear_model import LinearRegression

# 获取数据
data_train = data.iloc[[0, 1, 3]]

data_train_x = data_train[['age']]
data_train_y = data_train['score']
# 使用线性回归进行拟合
clf = LinearRegression()
clf.fit(data_train_x, data_train_y)
# 使用预测结果进行填充
data['score'].iloc[2] = clf.predict(pd.DataFrame(data[['age']].iloc[2]))

在这里插入图片描述

字符类型数据填充代码示例（决策树）：

from sklearn.tree import DecisionTreeClassifier

# 获取数据
data_train = data.iloc[[0, 1, 3]]

data_train_x = data_train[['age']]
data_train_y = data_train['class']
# 使用决策树进行拟合
clf = DecisionTreeClassifier()
clf.fit(data_train_x, data_train_y)
# 使用分类结果进行填充
data['class'].iloc[4] = clf.predict(pd.DataFrame(data[['age']].iloc[4]))[0]

在这里插入图片描述

数据分析面试手册《缺失处理篇》

一、均值填充

二、中位数填充

三、众数填充

四、前后数据填充

五、自定义数据填充

六、Pandas插值填充

七、机器学习算法填充

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

数据分析面试手册《缺失处理篇》

一、均值填充

二、中位数填充

三、众数填充

四、前后数据填充

五、自定义数据填充

六、Pandas插值填充

七、机器学习算法填充

热门文章

最新文章

相关课程

相关电子书

相关实验场景