Pandas-统计|学习笔记-阿里云开发者社区

Pandas-统计|学习笔记

2022-11-23 294

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 快速学习 Pandas-统计

开发者学堂课程【高校精品课-华东师范大学-人工智能基础：Pandas-统计】学习笔记，与课程紧密联系，让用户快速学习知识。

课程地址：https://developer.aliyun.com/learning/course/920/detail/15576

Pandas-统计

Pandas 的统计运算功能

Pandas 的 series 对象和 dataFrame 对象都继承 numpy 的统计函数，拥有常用的数学和统计方法，可以对一列或多列数据进行统计分析。

Pandas 的汇总和描述性统计计算包括

函数名	功能说明
count	统计数据值的数量，不包括NA值。
describe	对Series、DataFrame的列计算汇总统计。
Min,max	计算最小值、最大值
Argmin,argmax	计算最小值、最大值的索引位置
Idxmin,idxmax	计算最小值、最大值的索引值
sum	计算总和
mean	计算平均值
median	返回中位数
ver	计算样本值的方差
std	计算样本值的标准差
cumsum	计算样本值的累计和
diff	计算一阶差分

建立一个 Series 对象

In [ ] : import pandas as pd

s = pd.Series（[1,5,3,6]）

s.sum()

out[2]: 15

对于地理位置 s3,求平均值。

In[3]: s3=pd.Series({Longitude’:39,’Latitude’:116,’Temperature’:23})

s3.mean()

out[3]: 59.333333333336

dataFrame 的数据描述统计，先读入数据文件，因为第三列是文本所以只取前两列数据。

In[ 4]: import pandas as pd

data = pd.read_cav(‘datall.txt’,sep =’ ‘) #指明分隔符，查看data

data

out[4] Ht Wt Rt

0 1.5 40 thin

1 1.5 50 fat

2 1.5 60 fat

3 1.6 40 thin

4 1.6 50 thin

5 1.6 60 fat

6 1.6 70 fat

7 1.7 50 thin

8 1.7 60 thin

9 1.7 70 fat

10 1.7 80 fat

11 1.8 60 thin

12 1.8 70 thin

13 1.8 80 fat

14 1.8 90 fat

15 1.9 80 thin

16 1.9 90 fat

In [5]: df1.sum()//求和//

out[5]: Ht 28.7

Wt 1100.0

dtype: float64

In [6]: df1.sum(axis=0)//求行方向的和

out[6]: Ht 28.7

Wt 1100.0

dtype: float64

列方向的和如下：

In [7]: df1.sum(axis=1)

out[7]: 0 41.5

1 51.5

2 61.5

3 41.6

4 51,6

5 61.6

6 71.6

7 51.7

8 61.7

9 71.7

10 81.7

11 61.8

12 71.8

13 81.8

14 91.8

15 81.9

16 91.9

dtype: float64

再求平均值

In[ 8]:df1.mean(axis=0)

out[8]: Ht 1.688235

Wt 64.705882

dtype: float64

综合来看 numpy 和 pandas 都能完成数据分析数据计算任务，内部功能有相重合的部分比如方差，不过对于同样的数据，求得的方差结果是不同的。

In [9]: import numpy as np

a=np.arange（0.60.5）

a=a.reshnpe（3.4）

print（a）

result=np.std（a,axis=0）

print（result）

result=np.std（a,axis=1）

print（result）

[[ 0 5 10 15]

[20 25 30 35]

[40 45 50 55]

[16.32993162 16.32993162 16.32993162 16.32993162

5.59016994 5.59016994 5.59016994]//方差结果用numpy//

若用 pandas,计算结果会不同

In [10]: import numpy as np

import pandas as pd

a=np.arange（0.60.5）

a=a.reshnpe（3.4）

df = pd.DataFrame(a)

print(df)

print(‘-----------‘)

print(df.std())

0 1 2 3

0 0 5 10 15

1 20 25 30 35

2 40 45 50 55

0 20.0

1 20.0

2 20.0

3 20.0

dtype:float64

由上述结果可看出与行的结果是有差别的

原因是 numpy 的 std（）函数和 pandas 的 std（）函数的默认参数 ddof 是不同的。ddof 参数表示标准偏差类型，numpy 中 ddof 默认是0，计算的是总体标准偏差；在 pandas 中 ddof 的值默认是1，计算的是样本标准偏差*

注*：标准差也被称为标准偏差（Standard Deviation），统计学名词，描述各数据偏离平均数的距离（离均差）的平均数。标准差能反映一个数据集的离散程度，标准偏差越小，这些值偏离平均值就越少。

我们在设计算法前通常要对数据进行查看，观察其中的分布奥秘，最好的方法就是可视化。

Pandas-统计|学习笔记

Pandas-统计

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

Pandas-统计|学习笔记

Pandas-统计

阿里云开发者学堂

热门文章

最新文章

相关课程

相关电子书