在Python中,fillna()函数是Pandas库中的一个非常有用的方法,用于填充DataFrame或Series中的缺失值(NaN)。它允许你指定不同的策略来处理缺失数据,例如用特定的值、前一个非缺失值、后一个非缺失值或其他统计计算得出的值进行填充。
以下是fillna()函数的基本使用方法和参数:
import pandas as pd
# 创建一个包含缺失值的示例DataFrame
df = pd.DataFrame({
'A': [1, 2, np.nan, 4],
'B': [5, np.nan, np.nan, 8],
'C': [9, 10, 11, 12]
})
# 不指定参数,直接用某个值填充
df_filled_with_value = df.fillna(0) # 所有缺失值被替换为0
# 使用字典按列指定不同的填充值
df_filled_with_dict = df.fillna({
'A': 0, 'B': -1}) # 'A'列的缺失值被替换为0,'B'列被替换为-1
# 使用前一个非缺失值填充(向前填充)
df_filled_forward = df.fillna(method='ffill') # 或者使用pad,效果相同
# 使用下一个非缺失值填充(向后填充)
df_filled_backward = df.fillna(method='bfill')
# 直接修改原DataFrame(inplace=True)
df.fillna(value=0, inplace=True) # 此操作会改变原始df的内容
# 对于时间序列数据,limit参数可以限制连续填充的最大数量
df_filled_limit = df.fillna(method='ffill', limit=1)
# axis参数通常不用指定,因为对于DataFrame,默认是axis=0(行方向填充)
# 如果需要按列(axis=1)填充,也可以指定
# df.fillna(value, axis=1)
# downcast参数用于在填充后将数据类型向下转换以节省内存,如从float64到int32
df_filled_downcast = df.fillna(0, downcast='infer')
请根据实际需求选择合适的填充方式。需要注意的是,如果数据具有特定的结构或者顺序关系,比如时间序列数据,那么选择适当的填充方法(向前或向后填充)可能会更有意义。而对于没有明显前后依赖关系的数据,一般会选择用某个常数或统计量(如平均值、中位数等)来填充。