20个能够有效提高 Pandas数据分析效率的常用函数,附带解释和例子(中)

简介: 20个能够有效提高 Pandas数据分析效率的常用函数,附带解释和例子

8. Pct_change

此函数用于计算一系列值的变化百分比。假设我们有一个包含[2,3,6]的序列。如果我们对这个序列应用pct_change,则返回的序列将是[NaN,0.5,1.0]。从第一个元素到第二个元素增加了50%,从第二个元素到第三个元素增加了100%。Pct_change函数用于比较元素时间序列中的变化百分比。

df.value_1.pct_change()

640.png

9. Rank

Rank函数实现对数据进行排序。假设我们有一个包含[1,7,5,3]的序列。分配给这些值的等级为[1,4,3,2]。

df['rank_1'] = df['value_1'].rank()
df

640.png

10. Melt

Melt用于将维数较大的 dataframe转换为维数较少的 dataframe。一些dataframe列中包含连续的度量或变量。在某些情况下,将这些列表示为行可能更适合我们的任务。考虑以下情况:

640.png

我们有三个不同的城市,在不同的日子进行测量。我们决定将这些日子表示为列中的行。还将有一列显示测量值。我们可以通过使用'melt'函数轻松实现:

df_wide.melt(id_vars=['city'])
df

640.png

变量名和列名通常默认给出。我们也可以使用melt函数的var_name和value_name参数来指定新的列名。

11. Explode

假设数据集在一个观测(行)中包含一个要素的多个条目,但您希望在单独的行中分析它们。

640.png

我们想在不同的行上看到“c”的测量值,这很容易用explode来完成。

df1.explode('measurement').reset_index(drop=True)
df

640.png

12. Nunique

Nunique统计列或行上的唯一条目数。它在分类特征中非常有用,特别是在我们事先不知道类别数量的情况下。让我们看看我们的初始数据:

640.png

df.year.nunique()
10df.group.nunique()
3

我们可以直接将nunique函数应用于dataframe,并查看每列中唯一值的数量:

640.png

如果axis参数设置为1,nunique将返回每行中唯一值的数目。

13. Lookup

'lookup'可以用于根据行、列的标签在dataframe中查找指定值。假设我们有以下数据:

640.png

我们要创建一个新列,该列显示“person”列中每个人的得分:

df['Person_point'] =df.lookup(df.index, df['Person'])
df

640.png

14. Infer_objects

Pandas支持广泛的数据类型,其中之一就是object。object包含文本或混合(数字和非数字)值。但是,如果有其他选项可用,则不建议使用对象数据类型。使用更具体的数据类型,某些操作执行得更快。例如,对于数值,我们更喜欢使用整数或浮点数据类型。

infer_objects尝试为对象列推断更好的数据类型。考虑以下数据:

640.png

df2.dtypesAobjectBobjectCobjectDobjectdtype: object

通过上述代码可知,现有所有的数据类型默认都是object。让我们看看推断的数据类型是什么:

df2.infer_objects().dtypesAint64Bfloat64CboolDobjectdtype: object

'infer_obejects'可能看起来微不足道,但在有很多列时作用巨大。


目录
相关文章
|
20天前
|
人工智能 数据处理 计算机视觉
Pandas数据处理——渐进式学习、DataFrame(函数检索-请使用Ctrl+F搜索)
Pandas数据处理——渐进式学习、DataFrame(函数检索-请使用Ctrl+F搜索)
35 0
|
5天前
|
SQL 数据可视化 数据挖掘
利用Python中的Pandas库进行数据分析和可视化
Python语言中的Pandas库是一个功能强大的工具,可用于数据处理、清洗、分析和可视化。本文将介绍如何利用Pandas库对数据进行处理和分析,并结合Matplotlib库进行数据可视化,帮助读者快速掌握数据分析和可视化的基本方法。
13 3
|
7天前
|
数据采集 人工智能 数据挖掘
Python数据分析:利用Pandas库处理缺失数据的技巧
在数据分析中,数据的完整性对结果的准确性至关重要。本文将介绍如何利用Python中强大的Pandas库来处理数据中的缺失值,帮助您更好地进行数据清洗和分析。
|
19天前
|
Python
在Python中,pandas库的`get_dummies`函数
在Python中,pandas库的`get_dummies`函数
12 2
|
20天前
|
人工智能 程序员 数据处理
Pandas数据处理3、DataFrame去重函数drop_duplicates()详解
Pandas数据处理3、DataFrame去重函数drop_duplicates()详解
22 0
Pandas数据处理3、DataFrame去重函数drop_duplicates()详解
|
20天前
|
人工智能 程序员 数据处理
Pandas数据处理2、DataFrame的drop函数具体参数使用详情
Pandas数据处理2、DataFrame的drop函数具体参数使用详情
11 0
|
28天前
|
存储 数据挖掘 索引
Python 教程之 Pandas(14)—— 使用 Pandas 进行数据分析
Python 教程之 Pandas(14)—— 使用 Pandas 进行数据分析
12 0
Python 教程之 Pandas(14)—— 使用 Pandas 进行数据分析
|
28天前
|
数据挖掘 索引 Python
Python 教程之 Pandas(6)—— DataFrame 中的转换函数
Python 教程之 Pandas(6)—— DataFrame 中的转换函数
25 0
Python 教程之 Pandas(6)—— DataFrame 中的转换函数
|
1月前
|
存储 数据可视化 数据挖掘
NumPy 和 Pandas 数据分析实用指南:1~6 全(下)
NumPy 和 Pandas 数据分析实用指南:1~6 全
49 0
|
1月前
|
关系型数据库 MySQL 数据挖掘
NumPy 和 Pandas 数据分析实用指南:1~6 全!(上)
NumPy 和 Pandas 数据分析实用指南:1~6 全
51 0

相关产品

  • 云迁移中心