总结|学习笔记

简介: 快速学习 总结

开发者学堂课程【Python 数据分析库 Pandas 快速入门:总结 】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/607/detail/8859


总结


内容介绍

一、缺失值处理

二、数据离散化

三、合并

四、交叉表与透视表

五、分组与聚合

 

l 缺失值处理

1. 缺失值是 NaN 类型:

判断是否存在 np.nan 缺失值→ pd.notnull(df).all() 或者pd.isnull(df).any()

两种思路:删除 df.dropna()  、   替换 sr.fillna(value,inplace=)

2. 缺失值是其他默认符号:

替换 df.replace(to_replace="?",value=np.nan)

按照处理 nan 的步骤

 

l 数据离散化

1) 分组:

自动分组 pd.qcut(data,bins)

自定义分组 pd.cut(data,bins)

2) 转换

pd.get_dummies(分好组的数据,predix=)

 

l 合并

按方向合并pd.concat((a,b),axis=)

按索引合并pd.merge(left,right,how="inner",on=[索引])

 

l 交叉表与透视表

pd.crosstab(value1,value2)

df.pivot_table([字段],index=)

 

l 分组与聚合

dataframe.groupby(by=).聚合函数()

sr.groupby(sr).聚合函数()

相关文章
|
开发者
整合的实现 | 学习笔记
快速学习整合的实现.
整合的实现 | 学习笔记
|
NoSQL MongoDB 开发者
故障测试2|学习笔记
快速学习故障测试2
故障测试2|学习笔记
|
消息中间件 SQL 负载均衡
总结|学习笔记
快速学习总结
106 0
总结|学习笔记
|
分布式计算 算法 Hadoop
fuzzyQuery | 学习笔记
快速学习 fuzzyQuery
fuzzyQuery | 学习笔记
|
前端开发 Java 网络架构
合法性检查|学习笔记
快速学习合法性检查
190 0
|
JSON 分布式计算 Hadoop
BoolQuery |学习笔记
快速学习 BoolQuery。
105 0
|
机器学习/深度学习 算法 数据处理
总结与练习|学习笔记
快速学习总结与练习。
|
存储 Java 开发者
BinaryTree|学习笔记
快速学习BinaryTree
BinaryTree|学习笔记
|
开发者 Python
if 练习_1|学习笔记
快速学习 if 练习_1
140 0