Pandas如何快速定位数据集中的缺失值?

简介: Pandas如何快速定位数据集中的缺失值?

isnull() & sum() 统计法


isnull()sum() 方法搭配使用能够定位行列间的缺失值。看几个例子。

先创建一个示例 DataFrame

>>> import pandas as pd
>>> df = pd.DataFrame(
        {'a': [1, 2, 3, None],
         'b': [3, 4, None, None],
         'c': [None, 6, 7, 8]})
>>> df
     a    b    c
0  1.0  3.0  NaN
1  2.0  NaN  6.0
2  3.0  NaN  7.0
3  NaN  6.0  8.0
复制代码


1.输出 DataFrame所有缺失值数量。

>>> df.isnull().sum().sum()
4
复制代码


2.分别输出每一列的缺失值数量。

>>> df.isnull().sum()
a    1
b    2
c    1
dtype: int64
复制代码


3.分别输出每一行的缺失值数量。

>>> df.isnull().sum(axis=1)
0    1
1    0
2    1
3    2
dtype: int64
复制代码


4.输出指定列缺失值数量

>>> df['b'].isnull().sum()
2
复制代码


5.输出指定行缺失值数量

>>> df.iloc[3].isnull().sum()
2
复制代码


shape + count() 统计法


  • shape:DataFrame 的形状。(行数, 列数)。
  • count():对非缺失值进行计数。


1.输出 DataFrame所有缺失值数量。

>>> (df.shape[0] - df.count()).sum()
4
复制代码


2.分别输出每一列的缺失值数量。

>>> df.shape[0] - df.count()
a    1
b    2
c    1
dtype: int64
复制代码


3.分别输出每一行的缺失值数量。

>>> df.shape[1] - df.count(axis=1)
0    1
1    0
2    1
3    2
dtype: int64
复制代码


4.输出指定列缺失值数量

>>> df.shape[0] - df['b'].count()
2
复制代码


5.输出指定行缺失值数量

>>> df.shape[1] - df.iloc[3].count()
2
复制代码


定位缺失值位置


通过下面的方式可以快速定位缺失值的行列信息。

for col in df.columns:
    if df[col].count() != len(df):
        row = df[df[col].isnull().values==True].index[0]
        print(f'第{row}行,第{col}列为缺失值')
'''
第3行,第a列为缺失值
第2行,第b列为缺失值
第0行,第c列为缺失值
复制代码


这就是今天要分享的内容,建议不要死记硬背,一步步的测试验证才能够真正的融会贯通。



相关文章
|
14天前
|
Python
|
14天前
|
Python
|
14天前
|
Python
Pandas 常用函数-数据合并
Pandas 常用函数-数据合并
31 1
|
14天前
|
索引 Python
Pandas 常用函数-数据排序
10月更文挑战第28天
8 1
|
15天前
|
Python
Pandas 常用函数-查看数据
Pandas 常用函数-查看数据
14 2
|
15天前
|
SQL JSON 数据库
Pandas 常用函数-读取数据
Pandas 常用函数-读取数据
12 2
|
18天前
|
Python
通过Pandas库处理股票收盘价数据,识别最近一次死叉后未出现金叉的具体位置的方法
在金融分析领域,"死叉"指的是短期移动平均线(如MA5)下穿长期移动平均线(如MA10),而"金叉"则相反。本文介绍了一种利用Python编程语言,通过Pandas库处理股票收盘价数据,识别最近一次死叉后未出现金叉的具体位置的方法。该方法首先计算两种移动平均线,接着确定它们的交叉点,最后检查并输出最近一次死叉及其后是否形成了金叉。此技术广泛应用于股市趋势分析。
34 2
|
14天前
|
Python
Pandas 常用函数-数据选择和过滤
Pandas 常用函数-数据选择和过滤
10 0
|
1月前
|
数据可视化 数据挖掘 数据处理
模型预测笔记(四):pandas_profiling生成数据报告
本文介绍了pandas_profiling库,它是一个Python工具,用于自动生成包含多种统计指标和可视化的详细HTML数据报告,支持大型数据集并允许自定义配置。安装命令为`pip install pandas_profiling`,使用示例代码`pfr = pandas_profiling.ProfileReport(data_train); pfr.to_file("./example.html")`。
47 1
|
2月前
|
索引 Python
使用 pandas 对数据进行移动计算
使用 pandas 对数据进行移动计算
23 0

热门文章

最新文章

下一篇
无影云桌面