开发者学堂课程【Python 数据分析库 Pandas 快速入门:总结 】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/607/detail/8859
总结
内容介绍
一、缺失值处理
二、数据离散化
三、合并
四、交叉表与透视表
五、分组与聚合
l 缺失值处理
1. 缺失值是 NaN 类型:
判断是否存在 np.nan 缺失值→ pd.notnull(df).all() 或者pd.isnull(df).any()
两种思路:删除 df.dropna() 、 替换 sr.fillna(value,inplace=)
2. 缺失值是其他默认符号:
替换 df.replace(to_replace="?",value=np.nan)
按照处理 nan 的步骤
l 数据离散化
1) 分组:
自动分组 pd.qcut(data,bins)
自定义分组 pd.cut(data,bins)
2) 转换
pd.get_dummies(分好组的数据,predix=)
l 合并
按方向合并:pd.concat((a,b),axis=)
按索引合并:pd.merge(left,right,how="inner",on=[索引])
l 交叉表与透视表
pd.crosstab(value1,value2)
df.pivot_table([字段],index=)
l 分组与聚合
dataframe.groupby(by=).聚合函数()
sr.groupby(sr).聚合函数()