pandas处理缺失数据

简介:
NA处理方法
方法
说明
dropna
根据各标签的值中是否存在缺失数据对轴标签进行过滤,可通过阈值调节对缺失值得容忍度
fillna
用指定值或插值方法(如ffill和bfill)填充缺失数据
isnull
返回一个含有布尔值的对象,这些布尔值表示哪些值是缺失值NA,该对象的类型与源类型一样
notnull
isnull的否定式

滤除缺失数据(dropna)
Series
In [ 1 ]: import pandas as pd In [ 2 ]: from pandas import DataFrame, Series In [ 3 ]: import numpy as np In [ 4 ]: from numpy import nan as NA In [ 5 ]: data = Series([ 1 , NA, 3.5 , NA, 7 ]) In [ 6 ]: data.dropna() Out[ 6 ]: 0 1.0 2 3.5 4 7.0 dtype: float64 In [ 7 ]: data[data.notnull()] Out[ 7 ]: 0 1.0 2 3.5 4 7.0 dtype: float64

DataFrame
  • DataFrame中dropna默认丢弃任何含有缺失值的行。
  • 传入how=’all’将只丢弃全为NA的行
  • 如果想丢弃列,只需传入axis=1
填充缺失数据(fillna)!!
  • 常数调用df.fillna(0)
  • 字典调用,对不同的列填充不同的值df.fillna({1:0.5, 3:-1})
  • fillna默认会返回新对象!!,就地修改: _ = df.fillna(0, inplace=True)
  • reindex有效的插值方法也可用于fillna
替换值
利用 fillna 方法填充缺失数据可以看做值替换的一种特殊情况。而 replace 则提供了一种实现该功能的更简单、更灵活的方式。
In [ 11 ]: data = Series([ 1. ,- 999. , 2. ,- 999. ,- 1000. , 3. ]) In [ 12 ]: data Out [ 12 ]: 0 1.0 1 - 999.0 2 2.0 3 - 999.0 4 - 1000.0 5 3.0 dtype: float64 In [ 13 ]: data .replace (- 999 , np .nan ) Out [ 13 ]: 0 1.0 1 NaN 2 2.0 3 NaN 4 - 1000.0 5 3.0 dtype: float64 In [ 14 ]: data .replace ([- 999 ,- 1000 ], np .nan ) Out [ 14 ]: 0 1.0 1 NaN 2 2.0 3 NaN 4 NaN 5 3.0 dtype: float64 In [ 15 ]: data .replace ([- 999 ,- 1000 ], [np .nan , 0 ]) Out [ 15 ]: 0 1.0 1 NaN 2 2.0 3 NaN 4 0.0 5 3.0 dtype: float64 In [ 16 ]: data .replace ({- 999 : np .nan , - 1000 : 0 }) Out [ 16 ]: 0 1.0 1 NaN 2 2.0 3 NaN 4 0.0 5 3.0 dtype: float64
目录
相关文章
|
21天前
|
Python
|
21天前
|
Python
|
20天前
|
Python
Pandas 常用函数-数据合并
Pandas 常用函数-数据合并
33 1
|
21天前
|
索引 Python
Pandas 常用函数-数据排序
10月更文挑战第28天
9 1
|
21天前
|
Python
Pandas 常用函数-查看数据
Pandas 常用函数-查看数据
14 2
|
21天前
|
SQL JSON 数据库
Pandas 常用函数-读取数据
Pandas 常用函数-读取数据
13 2
|
25天前
|
Python
通过Pandas库处理股票收盘价数据,识别最近一次死叉后未出现金叉的具体位置的方法
在金融分析领域,"死叉"指的是短期移动平均线(如MA5)下穿长期移动平均线(如MA10),而"金叉"则相反。本文介绍了一种利用Python编程语言,通过Pandas库处理股票收盘价数据,识别最近一次死叉后未出现金叉的具体位置的方法。该方法首先计算两种移动平均线,接着确定它们的交叉点,最后检查并输出最近一次死叉及其后是否形成了金叉。此技术广泛应用于股市趋势分析。
40 2
|
20天前
|
Python
Pandas 常用函数-数据选择和过滤
Pandas 常用函数-数据选择和过滤
11 0
|
2月前
|
数据可视化 数据挖掘 数据处理
模型预测笔记(四):pandas_profiling生成数据报告
本文介绍了pandas_profiling库,它是一个Python工具,用于自动生成包含多种统计指标和可视化的详细HTML数据报告,支持大型数据集并允许自定义配置。安装命令为`pip install pandas_profiling`,使用示例代码`pfr = pandas_profiling.ProfileReport(data_train); pfr.to_file("./example.html")`。
50 1
|
3月前
|
索引 Python
使用 pandas 对数据进行移动计算
使用 pandas 对数据进行移动计算
23 0