【Python】Pandas的一系列经典操作（非常实用）

2023-06-25 193

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【Python】Pandas的一系列经典操作（非常实用）

1. 统计某列中，所有值出现的次数

import pandas as pd
# 创建一个示例数据集
data = {'A': [1, 2, 2, 3, 1, 2, 3, 1, 1, 2, 3, 4]}
df = pd.DataFrame(data)
# 使用 value_counts() 函数统计 'A' 列的值出现次数
value_counts = df['A'].value_counts()
print(value_counts)

代码说明：

上述代码将创建一个包含一列名为’A’的DataFrame，并使用value_counts()函数计算各个值在’A’列中出现的次数。

运行结果：

1    4
2    4
3    3
4    1
Name: A, dtype: int64

这意味着值1出现了4次，值2出现了4次，值3出现了3次，值4出现了1次。

2. 统计某列中，位于特定区间内值的数量

import pandas as pd
# 创建一个示例数据集
data = {'A': [1, 2, 2, 3, 1, 2, 3, 1, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]}
df = pd.DataFrame(data)
# 定义要统计的区间
bins = [0, 5, 10]
# 使用 pd.cut() 函数对 'A' 列进行分箱
df['bin'] = pd.cut(df['A'], bins)
# 使用 value_counts() 函数统计每个区间的数量
bin_counts = df['bin'].value_counts()
# 输出结果
print(bin_counts)

代码说明：

在这个例子中，我们首先创建了一个包含一列名为’A’的DataFrame。接下来，我们定义了一个区间列表bins，表示我们希望统计介于0到5（含5）之间的值以及介于5到10（含10）之间的值。

然后，我们使用pd.cut()函数对’A’列进行分箱，并将结果保存在新列bin中。最后，我们使用value_counts()函数统计每个区间的数量。

运行结果：

(0, 5]      12
(5, 10]      6
Name: bin, dtype: int64

3. 统计某列中，位于特定区间内对应另一列的平均值

import pandas as pd
# 创建一个示例数据集
data = {
    'A': [1, 2, 2, 3, 1, 2, 3, 1, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'B': [10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180]
}
df = pd.DataFrame(data)
# 定义要统计的区间
bins = [0, 5, 10]
# 使用 pd.cut() 函数对 'A' 列进行分箱
df['bin'] = pd.cut(df['A'], bins)
# 使用 groupby() 函数按照分箱分组，并计算每组中 'B' 列的平均值
bin_means = df.groupby('bin')['B'].mean()
# 输出结果
print(bin_means)

代码说明：

在这个例子中，我们首先创建了一个包含两列名为’A’和’B’的DataFrame。接下来，我们定义了一个区间列表bins，表示我们希望统计介于0到5（含5）之间的值以及介于5到10（含10）之间的值。

然后，我们使用pd.cut()函数对’A’列进行分箱，并将结果保存在新列bin中。接着，我们使用groupby()函数将数据按照分箱分组，并使用mean()函数计算每个组中’B’列的平均值。

运行结果：

bin
(0, 5]      55.0
(5, 10]    145.0
Name: B, dtype: float64

4. 统计某列数值的前十名，对应另一列的值

import pandas as pd
# 创建一个示例数据集
data = {
    'A': [1, 2, 2, 3, 1, 2, 3, 1, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'B': ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r']
}
df = pd.DataFrame(data)
# 根据列 'A' 对 DataFrame 进行降序排序
df_sorted = df.sort_values(by='A', ascending=False)
# 获取前十名
top_10 = df_sorted.head(10)
# 提取前十名对应的列 'B' 的值
top_10_b_values = top_10['B']
# 输出结果
print(top_10_b_values)

代码说明：

在这个例子中，我们首先创建了一个包含两列名为’A’和’B’的DataFrame。然后，我们根据’A’列对DataFrame进行降序排序，接着使用head()函数获取前十名。最后，我们提取前十名对应的’B’列的值。

运行结果：

17    r
16    q
15    p
14    o
13    n
12    m
11    l
10    k
9     j
8     i
Name: B, dtype: object

文章知识点与官方知识档案匹配，可进一步学习相关知识

【Python】Pandas的一系列经典操作（非常实用）

1. 统计某列中，所有值出现的次数

2. 统计某列中，位于特定区间内值的数量

3. 统计某列中，位于特定区间内对应另一列的平均值

4. 统计某列数值的前十名，对应另一列的值

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【Python】Pandas的一系列经典操作（非常实用）

1. 统计某列中，所有值出现的次数

2. 统计某列中，位于特定区间内值的数量

3. 统计某列中，位于特定区间内对应另一列的平均值

4. 统计某列数值的前十名，对应另一列的值

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像