DataFrame缺失值处理的案例解析如下:
首先,我们需要导入pandas库,并创建一个包含缺失值的DataFrame。
import pandas as pd
data = {
'姓名': ['张三', '李四', '王五', '赵六'],
'年龄': [25, 30, None, 40],
'城市': ['北京', None, '深圳', '广州']
}
df = pd.DataFrame(data)
print(df)
输出结果:
姓名 年龄 城市
0 张三 25.0 北京
1 李四 30.0 NaN
2 王五 NaN 深圳
3 赵六 40.0 广州
接下来,我们可以使用pandas的fillna()方法来填充缺失值。例如,我们可以将年龄列中的缺失值替换为平均值。
mean_age = df['年龄'].mean()
df['年龄'].fillna(mean_age, inplace=True)
print(df)
输出结果:
姓名 年龄 城市
0 张三 25.0 北京
1 李四 30.0 NaN
2 王五 32.5 深圳
3 赵六 40.0 广州
我们还可以使用dropna()方法删除包含缺失值的行或列。例如,我们可以删除年龄列中包含缺失值的行。
df.dropna(subset=['年龄'], inplace=True)
print(df)
输出结果:
姓名 年龄 城市
0 张三 25.0 北京
2 王五 32.5 深圳
3 赵六 40.0 广州
最后,我们可以使用interpolate()方法对缺失值进行插值处理。例如,我们可以对年龄列中的缺失值进行线性插值。
df['年龄'].interpolate(method='linear', inplace=True)
print(df)
输出结果:
姓名 年龄 城市
0 张三 25.0 北京
2 王五 32.5 深圳
3 赵六 40.0 广州
这样,我们就完成了DataFrame缺失值的处理。