数据分析三剑客【AIoT阶段一（下）】（十万字博文保姆级讲解）—Pandas

数据分析三剑客【AIoT阶段一（下）】（十万字博文保姆级讲解）—Pandas—pandas进阶（十四）

2022-09-01 334

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 你好，感谢你能点进来本篇博客，请不要着急退出，相信我，如果你有一定的 Python 基础，想要学习 Python数据分析的三大库：numpy，pandas，matplotlib；这篇文章不会让你失望，本篇博客是【AIoT阶段一（下）】的内容：Python数据分析，

3.2 数学和统计方法

🚩pandas对象拥有一组常用的数学和统计方法。它们属于汇总统计，对Series汇总计算获取mean、max值或者对DataFrame行、列汇总计算返回一个Series。

3.2.1 简单统计指标

创建数据：

import numpy as np
import pandas as pd
df = pd.DataFrame(data = np.random.randint(0, 100,size = (20, 3)),
                  index = list('ABCDEFHIJKLMNOPQRSTU'),
                  columns = ['Python', 'Tensorflow', 'Keras'])
df

我们现在来把一部分数据设置为空：

def convert(x):
    if x > 80:
        return np.NaN
    else:
        return x
df['Python'] = df['Python'].map(convert)
df['Tensorflow'] = df['Tensorflow'].apply(convert)
df['Keras'] = df['Keras'].transform(convert)
df

现在我们想知道到底有多少个空数据，我们可以自己去数，但这显然是低效的方法，使用 count() 函数可以直接去统计有多少个非空数据：

df.count()  # 统计非空数据的个数

我们重新来构造数据：

import numpy as np
import pandas as pd
df = pd.DataFrame(data = np.random.randint(0, 100,size = (20, 3)),
                  index = list('ABCDEFHIJKLMNOPQRSTU'),
                  columns = ['Python', 'Tensorflow', 'Keras'])
df

使用 median() 可以计算数据的中位数：

df.median()  # 中位数

display(df.quantile(q = 0.5)) # 返回位于数据 50% 位置的数
display(df.quantile(q = 0.8)) # 返回位于数据 80% 位置的数

我们也可以使用如下的方法实现同样的效果：

df.quantile(q = [0.5, 0.8])

3.2.2 索引标签、位置获取

display(df['Python'].argmin()) # 计算最小值位置
display(df['Keras'].argmax()) # 最大值位置

display(df.idxmax()) # 最大值索引标签
display(df.idxmin()) # 最小值索引标签

索引就是自然数，标签就是我们初始设置的 ABCD…，索引和标签是一一对应的，如 0 对应的就是 A

3.2.3 更多统计指标

创建数据：

import numpy as np
import pandas as pd
df = pd.DataFrame(data = np.random.randint(0, 5,size = (20, 3)),
                  index = list('ABCDEFHIJKLMNOPQRSTU'),
                  columns = ['Python', 'Tensorflow', 'Keras'])
df

使用 value_counts() 可以统计元素出现的次数：

# 统计元素出现次数
df['Python'].value_counts()

使用 unique() 可以实现去重：

# 去重
df['Python'].unique()

调用 cumsum() 实现累加，调用 cumprod() 实现累乘：

# 累加
display(df.cumsum())
# 累乘
display(df.cumprod())

cummin() 的作用是累计最小值，即碰到更小的数后，该数往后所有数都变成这个更小的数，cummax() 的作用是累计最大值，即碰到更大的数后，该数往后所有的数都变成这个更大的数：

# 累计最小值
display(df.cummin())
# 累计最大值
display(df.cummax())

计算标准差调用 std()，计算方差调用 var()

# 计算标准差
display(df.std())
# 计算方差
display(df.var())

计算差分使用 diff()，差分就是这一行减上一行的结果，计算百分比的变化使用 pct_change()：

# 计算差分
# 差分:和上一行相减
display(df.diff())
# 计算百分比变化
display(df.pct_change())

3.2.4 高级统计指标

我们使用 cov() 和 corr() 用来分别计算协方差和相关性系数：

协方差：

数据分析三剑客【AIoT阶段一（下）】（十万字博文保姆级讲解）—Pandas—pandas进阶（十四）

3.2 数学和统计方法

3.2.1 简单统计指标

3.2.2 索引标签、位置获取

3.2.3 更多统计指标

3.2.4 高级统计指标

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

数据分析三剑客【AIoT阶段一（下）】（十万字博文 保姆级讲解）—Pandas—pandas进阶（十四）

3.2 数学和统计方法

3.2.1 简单统计指标

3.2.2 索引标签、位置获取

3.2.3 更多统计指标

3.2.4 高级统计指标

热门文章

最新文章

相关课程

相关电子书

数据分析三剑客【AIoT阶段一（下）】（十万字博文保姆级讲解）—Pandas—pandas进阶（十四）