Pandas如何快速定位数据集中的缺失值?

简介: Pandas如何快速定位数据集中的缺失值?

isnull() & sum() 统计法


isnull()sum() 方法搭配使用能够定位行列间的缺失值。看几个例子。

先创建一个示例 DataFrame

>>> import pandas as pd
>>> df = pd.DataFrame(
        {'a': [1, 2, 3, None],
         'b': [3, 4, None, None],
         'c': [None, 6, 7, 8]})
>>> df
     a    b    c
0  1.0  3.0  NaN
1  2.0  NaN  6.0
2  3.0  NaN  7.0
3  NaN  6.0  8.0
复制代码


1.输出 DataFrame所有缺失值数量。

>>> df.isnull().sum().sum()
4
复制代码


2.分别输出每一列的缺失值数量。

>>> df.isnull().sum()
a    1
b    2
c    1
dtype: int64
复制代码


3.分别输出每一行的缺失值数量。

>>> df.isnull().sum(axis=1)
0    1
1    0
2    1
3    2
dtype: int64
复制代码


4.输出指定列缺失值数量

>>> df['b'].isnull().sum()
2
复制代码


5.输出指定行缺失值数量

>>> df.iloc[3].isnull().sum()
2
复制代码


shape + count() 统计法


  • shape:DataFrame 的形状。(行数, 列数)。
  • count():对非缺失值进行计数。


1.输出 DataFrame所有缺失值数量。

>>> (df.shape[0] - df.count()).sum()
4
复制代码


2.分别输出每一列的缺失值数量。

>>> df.shape[0] - df.count()
a    1
b    2
c    1
dtype: int64
复制代码


3.分别输出每一行的缺失值数量。

>>> df.shape[1] - df.count(axis=1)
0    1
1    0
2    1
3    2
dtype: int64
复制代码


4.输出指定列缺失值数量

>>> df.shape[0] - df['b'].count()
2
复制代码


5.输出指定行缺失值数量

>>> df.shape[1] - df.iloc[3].count()
2
复制代码


定位缺失值位置


通过下面的方式可以快速定位缺失值的行列信息。

for col in df.columns:
    if df[col].count() != len(df):
        row = df[df[col].isnull().values==True].index[0]
        print(f'第{row}行,第{col}列为缺失值')
'''
第3行,第a列为缺失值
第2行,第b列为缺失值
第0行,第c列为缺失值
复制代码


这就是今天要分享的内容,建议不要死记硬背,一步步的测试验证才能够真正的融会贯通。



相关文章
|
7天前
|
Serverless 数据处理 索引
Pandas中的shift函数:轻松实现数据的前后移动
Pandas中的shift函数:轻松实现数据的前后移动
38 0
|
7天前
|
数据挖掘 数据处理 Python
​掌握Pandas中的rolling窗口,轻松处理时间序列数据
​掌握Pandas中的rolling窗口,轻松处理时间序列数据
20 1
|
7天前
|
SQL 数据挖掘 索引
Pandas数据筛选的5种技巧
Pandas数据筛选的5种技巧
14 1
|
5天前
|
索引 Python
使用 pandas 对数据进行移动计算
使用 pandas 对数据进行移动计算
8 0
|
7天前
|
数据挖掘 数据处理 Python
Pandas中groupby后的数据排序技巧
Pandas中groupby后的数据排序技巧
12 0
|
7天前
|
数据采集 运维 数据挖掘
Pandas中的Rank用法:数据排序的高效工具
Pandas中的Rank用法:数据排序的高效工具
15 0
|
7天前
|
数据采集 数据挖掘 数据处理
Pandas技巧:如何将一列数据轻松分隔为两列
Pandas技巧:如何将一列数据轻松分隔为两列
22 0
|
7天前
|
数据挖掘 索引 Python
Pandas中的排序技巧:让你的数据井然有序
Pandas中的排序技巧:让你的数据井然有序
11 0
|
7天前
|
数据挖掘 数据处理 索引
Pandas中的Stack与Unstack:数据重塑的艺术
Pandas中的Stack与Unstack:数据重塑的艺术
16 0
|
7天前
|
数据挖掘 索引 Python
Pandas中的Pivot:数据重塑的艺术
Pandas中的Pivot:数据重塑的艺术
17 0
下一篇
无影云桌面