pandas是python中最常用的数据分析库,pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。本文介绍pandas常用的一些函数及数据处理方法。因之前有朋友说前面两篇文章比较复杂,想看一些基础的,本次更新尽可能讲解最基础的知识。
- 导入数据
import pandas as qd df1 = qd.read_excel('客户基本信息1.xlsx') df1
pandas除了读取excel,其他数据类型的文件读取也很方便,这里暂不一一展示。
- 更改标题和索引
df1.columns=['A','B','C'] df1.index=['A1','A2','A3','A4','A5','A6','A7'] df1
- 数据切片(iloc和loc)
这里主要需要牢记iloc对应的是数字,loc对应的是标题栏。下面两行代码都能取到第1和第3列;效果完全一样。
df1.iloc[:,[0,3]]#取1,2列 df1.loc[:,['A','C']]#取1,2列
- 数据的拼接
先导入第二个表格的数据。
对df1和df2两个数据表进行拼接:以A为目标栏(保留相同元素),A栏相同元素拼接成新表。(类似于excel的vlookup)
若想保留df1的A栏所有元素,增加how=‘left’即可实现;how=‘right’为保留df2的A栏所有元素。
为了展示后面的数据处理,df1和df4数据再进行一次上下拼接成df5.
- 删掉某些行和列的操作
现在接刚才合并的数据df5为样本,删除列名为C的,删除A4、A5、A7行。
df5=df5.drop(index=['A4','A5','A7'])#删除对应索引的整行 df5=df5.drop(columns=["C",'B'])#删除对应列 df5
新的数据更新为:
如果要增加新的一列、增加新的一行:
更新索引:
- 按某列数据分组
按A列分组,但是A列自动变成了索引。
重置一下索引,并且原索引栏不删除。
数据后面小数点太多,不太好看,可以设置保留小数点后1位。
- 筛选数据
单条件筛选
多条件筛选
也可以实现数据透视表的功能。
- 分箱
- 计算某个数据出现的频次
- 隐藏某个字符
- 数据导出
df6.to_excel("data2.xlsx",index = False)