【Python】Pandas的一系列经典操作(非常实用)

简介: 【Python】Pandas的一系列经典操作(非常实用)


👉博__主👈:米码收割机

👉技__能👈:C++/Python语言

👉公众号👈:测试开发自动化【获取源码+商业合作】

👉荣__誉👈:阿里云博客专家博主、51CTO技术博主

👉专__注👈:专注主流机器人、人工智能等相关领域的开发、测试技术。



1. 统计某列中,所有值出现的次数

import pandas as pd
# 创建一个示例数据集
data = {'A': [1, 2, 2, 3, 1, 2, 3, 1, 1, 2, 3, 4]}
df = pd.DataFrame(data)
# 使用 value_counts() 函数统计 'A' 列的值出现次数
value_counts = df['A'].value_counts()
print(value_counts)

代码说明:

上述代码将创建一个包含一列名为’A’的DataFrame,并使用value_counts()函数计算各个值在’A’列中出现的次数。

运行结果:

1    4
2    4
3    3
4    1
Name: A, dtype: int64

这意味着值1出现了4次,值2出现了4次,值3出现了3次,值4出现了1次。

2. 统计某列中,位于特定区间内值的数量

import pandas as pd
# 创建一个示例数据集
data = {'A': [1, 2, 2, 3, 1, 2, 3, 1, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]}
df = pd.DataFrame(data)
# 定义要统计的区间
bins = [0, 5, 10]
# 使用 pd.cut() 函数对 'A' 列进行分箱
df['bin'] = pd.cut(df['A'], bins)
# 使用 value_counts() 函数统计每个区间的数量
bin_counts = df['bin'].value_counts()
# 输出结果
print(bin_counts)

代码说明:

在这个例子中,我们首先创建了一个包含一列名为’A’的DataFrame。接下来,我们定义了一个区间列表bins,表示我们希望统计介于0到5(含5)之间的值以及介于5到10(含10)之间的值。

然后,我们使用pd.cut()函数对’A’列进行分箱,并将结果保存在新列bin中。最后,我们使用value_counts()函数统计每个区间的数量。

运行结果:

(0, 5]      12
(5, 10]      6
Name: bin, dtype: int64

3. 统计某列中,位于特定区间内对应另一列的平均值

import pandas as pd
# 创建一个示例数据集
data = {
    'A': [1, 2, 2, 3, 1, 2, 3, 1, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'B': [10, 20, 30, 40, 50, 60, 70, 80, 90, 100, 110, 120, 130, 140, 150, 160, 170, 180]
}
df = pd.DataFrame(data)
# 定义要统计的区间
bins = [0, 5, 10]
# 使用 pd.cut() 函数对 'A' 列进行分箱
df['bin'] = pd.cut(df['A'], bins)
# 使用 groupby() 函数按照分箱分组,并计算每组中 'B' 列的平均值
bin_means = df.groupby('bin')['B'].mean()
# 输出结果
print(bin_means)

代码说明:

在这个例子中,我们首先创建了一个包含两列名为’A’和’B’的DataFrame。接下来,我们定义了一个区间列表bins,表示我们希望统计介于0到5(含5)之间的值以及介于5到10(含10)之间的值。

然后,我们使用pd.cut()函数对’A’列进行分箱,并将结果保存在新列bin中。接着,我们使用groupby()函数将数据按照分箱分组,并使用mean()函数计算每个组中’B’列的平均值。

运行结果:

bin
(0, 5]      55.0
(5, 10]    145.0
Name: B, dtype: float64

4. 统计某列数值的前十名,对应另一列的值

import pandas as pd
# 创建一个示例数据集
data = {
    'A': [1, 2, 2, 3, 1, 2, 3, 1, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10],
    'B': ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r']
}
df = pd.DataFrame(data)
# 根据列 'A' 对 DataFrame 进行降序排序
df_sorted = df.sort_values(by='A', ascending=False)
# 获取前十名
top_10 = df_sorted.head(10)
# 提取前十名对应的列 'B' 的值
top_10_b_values = top_10['B']
# 输出结果
print(top_10_b_values)

代码说明:

在这个例子中,我们首先创建了一个包含两列名为’A’和’B’的DataFrame。然后,我们根据’A’列对DataFrame进行降序排序,接着使用head()函数获取前十名。最后,我们提取前十名对应的’B’列的值。

运行结果:

17    r
16    q
15    p
14    o
13    n
12    m
11    l
10    k
9     j
8     i
Name: B, dtype: object


相关文章
|
1月前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
74 0
|
1月前
|
数据采集 数据可视化 数据处理
Python数据科学:Pandas库入门与实践
Python数据科学:Pandas库入门与实践
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
Python数据科学实战:从Pandas到机器学习
Python数据科学实战:从Pandas到机器学习
|
1月前
|
机器学习/深度学习 数据采集 数据挖掘
解锁 Python 数据分析新境界:Pandas 与 NumPy 高级技巧深度剖析
Pandas 和 NumPy 是 Python 中不可或缺的数据处理和分析工具。本文通过实际案例深入剖析了 Pandas 的数据清洗、NumPy 的数组运算、结合两者进行数据分析和特征工程,以及 Pandas 的时间序列处理功能。这些高级技巧能够帮助我们更高效、准确地处理和分析数据,为决策提供支持。
42 2
|
1月前
|
数据采集 数据可视化 数据处理
如何使用Python实现一个交易策略。主要步骤包括:导入所需库(如`pandas`、`numpy`、`matplotlib`)
本文介绍了如何使用Python实现一个交易策略。主要步骤包括:导入所需库(如`pandas`、`numpy`、`matplotlib`),加载历史数据,计算均线和其他技术指标,实现交易逻辑,记录和可视化交易结果。示例代码展示了如何根据均线交叉和价格条件进行开仓、止损和止盈操作。实际应用时需注意数据质量、交易成本和风险管理。
68 5
|
1月前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
45 2
|
1月前
|
数据采集 数据可视化 数据挖掘
Python数据分析:Pandas库实战指南
Python数据分析:Pandas库实战指南
|
1月前
|
并行计算 数据挖掘 大数据
Python数据分析实战:利用Pandas处理大数据集
Python数据分析实战:利用Pandas处理大数据集
|
1月前
|
数据采集 数据可视化 数据挖掘
利用Python进行数据分析:Pandas库实战指南
利用Python进行数据分析:Pandas库实战指南
|
2月前
|
机器学习/深度学习 数据采集 算法
探索Python科学计算的边界:NumPy、Pandas与SciPy在大规模数据分析中的高级应用
【10月更文挑战第5天】随着数据科学和机器学习领域的快速发展,处理大规模数据集的能力变得至关重要。Python凭借其强大的生态系统,尤其是NumPy、Pandas和SciPy等库的支持,在这个领域占据了重要地位。本文将深入探讨这些库如何帮助科学家和工程师高效地进行数据分析,并通过实际案例来展示它们的一些高级应用。
61 0
探索Python科学计算的边界:NumPy、Pandas与SciPy在大规模数据分析中的高级应用
下一篇
DataWorks