Ptyhon Pandas常用的操作

简介: Ptyhon Pandas常用的操作

1 统计空值


# print(data.isnull().any()) # 判断哪些列存在缺失值
# print(data[data.isnull().values==True]) # 判断单元是否为缺失值


下面是统计空值的个数

import pandas as pd
import numpy as np
data={
    'a':[1,2,3,4],
    'b':[3,5,np.nan,np.nan],
    'c':[np.nan,0,np.nan,0],
}
df=pd.DataFrame(data)
print(df)


创建了一个df,输出如下

a    b    c
0  1  3.0  NaN
1  2  5.0  0.0
2  3  NaN  NaN
3  4  NaN  0.0


输出每个数据是否为空值

print(df.isnull())

a      b      c
0  False  False   True
1  False  False  False
2  False   True   True
3  False   True  False


统计空值的个数,下面两种方式效果一样

print(df.isnull().astype(int).sum())
print(df.shape[0]-df.count())

a    0
b    2
c    2
dtype: int64
a    0
b    2
c    2
dtype: int64


判断某一列是否存在空值;判断空值所在的行

print(df[df.T.isnull().any()].columns)
print(len(df.columns[df.isna().any()].tolist()))
print(df[df.isnull().values==True])


2 去除重复项


DataFrame.drop_duplicates(subset=None, keep='first', inplace=False)


  • subset : column label or sequence of labels, optional
    用来指定特定的列,默认所有列
  • keep : {‘first’, ‘last’, False}, default ‘first’
    删除重复项并保留第一次出现的项
  • inplace : boolean, default False
    是直接在原来数据上修改还是保留一个副本


3 pandas 修改列名


df.rename(columns={'oldName1': 'newName1', 'oldName2': 'newName2'})


4 pandas 取某一列的值


df.iloc[:,0].values # 第一列的值


总结


  • 在pandas中,大部分方法如果有参数inplace这个参数,取值为False时修改pandas后不替换原来的df;如果为True时,修改df后替换原先的值


参考资料


相关文章
|
5月前
|
Python
如何使用Python的Pandas库进行数据透视图(melt/cast)操作?
Pandas的`melt()`和`pivot()`函数用于数据透视。基本步骤:导入pandas,创建DataFrame,然后使用这两个函数变换数据。示例代码:导入pandas,定义一个包含'Name'和'Age'列的DataFrame,使用`melt()`转为长格式,再用`pivot()`恢复为宽格式。
121 1
|
5月前
|
数据格式 Python
如何使用Python的Pandas库进行数据透视图(melt/cast)操作?
Pandas的`melt()`和`pivot()`函数用于数据透视。基本步骤:导入pandas,创建DataFrame,然后使用这两个函数转换数据格式。示例代码展示了如何通过`melt()`转为长格式,再用`pivot()`恢复为宽格式。输入数据是包含'Name'和'Age'列的DataFrame,最终结果经过转换后呈现出不同的布局。
82 6
|
5月前
|
JSON 数据挖掘 数据格式
Pandas中Series、DataFrame讲解及操作详解(超详细 附源码)
Pandas中Series、DataFrame讲解及操作详解(超详细 附源码)
179 0
|
数据挖掘 数据建模 索引
【50个Pandas高级操作】(上)
【50个Pandas高级操作】
|
5月前
|
人工智能 机器人 Serverless
【Python】Pandas的一系列经典操作(非常实用)
【Python】Pandas的一系列经典操作(非常实用)
|
10月前
|
前端开发 Python
Python 教程之 Pandas(13)—— series 上的转换操作
Python 教程之 Pandas(13)—— series 上的转换操作
82 0
|
3月前
|
数据处理 Python
数据科学进阶之路:Pandas与NumPy高级操作详解与实战演练
【7月更文挑战第13天】探索数据科学:Pandas与NumPy提升效率的高级技巧** - Pandas的`query`, `loc`和`groupby`用于复杂筛选和分组聚合,例如筛选2023年销售额超1000的记录并按类别计总销售额。 - NumPy的广播和向量化运算加速大规模数据处理,如快速计算两个大数组的元素级乘积。 - Pandas DataFrame基于NumPy,二者协同加速数据处理,如将DataFrame列转换为NumPy数组进行标准化再回写,避免链式赋值。 掌握这些高级操作,实现数据科学项目的效率飞跃。
49 0
|
5月前
|
索引 Python
使用Python的Pandas库进行数据透视表(pivot table)操作
使用Python Pandas进行数据透视表操作包括:安装Pandas库,导入库,创建或读取数据,如`pd.DataFrame()`或从文件读取;然后使用`pd.pivot_table()`创建透视表,指定数据框、行索引、列索引和值,例如按姓名和科目分组计算平均分;查看结果通过打印数据透视表;最后可使用`to_csv()`等方法保存到文件。这为基础步骤,可按需求调整参数实现更多功能。
218 2
|
5月前
|
索引 Python
如何使用Python的Pandas库进行数据透视表(pivot table)操作?
使用Pandas在Python中创建数据透视表的步骤包括:安装Pandas库,导入它,创建或读取数据(如DataFrame),使用`pd.pivot_table()`指定数据框、行索引、列索引和值,计算聚合函数(如平均分),并可打印或保存结果到文件。这允许对数据进行高效汇总和分析。
45 2
|
5月前
|
数据挖掘 数据处理 索引
Python 应知应会的Pandas高级操作
Python 应知应会的Pandas高级操作
88 0
下一篇
无影云桌面