总结|学习笔记

简介: 快速学习 总结

开发者学堂课程【Python 数据分析库 Pandas 快速入门:总结 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/607/detail/8859


总结


内容介绍

一、缺失值处理

二、数据离散化

三、合并

四、交叉表与透视表

五、分组与聚合

 

l 缺失值处理

1. 缺失值是 NaN 类型:

判断是否存在 np.nan 缺失值→ pd.notnull(df).all() 或者pd.isnull(df).any()

两种思路:删除 df.dropna()  、   替换 sr.fillna(value,inplace=)

2. 缺失值是其他默认符号:

替换 df.replace(to_replace="?",value=np.nan)

按照处理 nan 的步骤

 

l 数据离散化

1) 分组:

自动分组 pd.qcut(data,bins)

自定义分组 pd.cut(data,bins)

2) 转换

pd.get_dummies(分好组的数据,predix=)

 

l 合并

按方向合并pd.concat((a,b),axis=)

按索引合并pd.merge(left,right,how="inner",on=[索引])

 

l 交叉表与透视表

pd.crosstab(value1,value2)

df.pivot_table([字段],index=)

 

l 分组与聚合

dataframe.groupby(by=).聚合函数()

sr.groupby(sr).聚合函数()

相关文章
|
4月前
QuantLib学习笔记——InterestRate的应用
QuantLib学习笔记——InterestRate的应用
28 0
|
消息中间件 存储 NoSQL
|
开发者
需要、欲望、需求 | 学习笔记
快速学习需要、欲望、需求。
196 0
需要、欲望、需求 | 学习笔记
|
消息中间件 Dubbo 算法
总结|学习笔记
快速学习总结
总结|学习笔记
|
Scala 开发者
ListBuffer 的使用 | 学习笔记
快速学习 ListBuffer 的使用
ListBuffer 的使用 | 学习笔记
|
开发者 Python
In 和 not in 的使用 | 学习笔记
快速学习 In 和 not in 的使用
124 0
|
Java 开发工具 C++
notepad++ 介绍|学习笔记
快速学习 notepad++ 介绍
231 0
notepad++ 介绍|学习笔记
|
分布式计算 流计算 Spark
wildcardQuery | 学习笔记
快速学习 wildcardQuery
138 0
wildcardQuery | 学习笔记
|
消息中间件 缓存 NoSQL
总结| 学习笔记
快速学习总结。
|
存储 Java 开发者
BinaryTree|学习笔记
快速学习BinaryTree
BinaryTree|学习笔记