20个能够有效提高 Pandas数据分析效率的常用函数,附带解释和例子(下)

简介: 20个能够有效提高 Pandas数据分析效率的常用函数,附带解释和例子

15. Memory_usage

Memory_usage()返回每列使用的内存量(以字节为单位)。考虑下面的数据,其中每一列有一百万行。

df_large=pd.DataFrame({'A': np.random.randn(1000000),
'B': np.random.randint(100, size=1000000)})
df_large.shape(1000000, 2)

每列占用的内存:

df_large.memory_usage()
Index128A8000000B8000000dtype: int64

整个 dataframe 占用的内存(转换为以MB为单位):

df_large.memory_usage().sum() / (1024**2) #convertingtomegabytes15.2589111328125

16. Describe

describe函数计算数字列的基本统计信息,这些列包括计数、平均值、标准偏差、最小值和最大值、中值、第一个和第三个四分位数。因此,它提供了dataframe的统计摘要。

640.png

17. Merge

Merge()根据共同列中的值组合dataframe。考虑以下两个数据:

640.png

我们可以基于列中的共同值合并它们。设置合并条件的参数是“on”参数。

640.png

df1和df2是基于column_a列中的共同值进行合并的,merge函数的how参数允许以不同的方式组合dataframe,如:“inner”、“outer”、“left”、“right”等。

  • inner:仅在on参数指定的列中具有相同值的行(如果未指定其它方式,则默认为 inner 方式)
  • outer:全部列数据
  • left:左一dataframe的所有列数据
  • right:右一dataframe的所有列数据

18. Select_dtypes

Select_dtypes函数根据对数据类型设置的条件返回dataframe的子集。它允许使用include和exlude参数包含或排除某些数据类型。

df.select_dtypes(include='int64')

640.png

df.select_dtypes(exclude='int64')

640.png

19. Replace

顾名思义,它允许替换dataframe中的值。第一个参数是要替换的值,第二个参数是新值。

df.replace('A', 'A_1')

640.png

我们也可以在同一个字典中多次替换。

df.replace({'A':'A_1', 'B':'B_1'})

640.png

20. Applymap

Applymap用于将一个函数应用于dataframe中的所有元素。请注意,如果操作的矢量化版本可用,那么它应该优先于applymap。例如,如果我们想将每个元素乘以一个数字,我们不需要也不应该使用applymap函数。在这种情况下,简单的矢量化操作(例如df*4)要快得多。

然而,在某些情况下,我们可能无法选择矢量化操作。例如,我们可以使用pandas dataframes的style属性更改dataframe的样式。以下代码将负值的颜色设置为红色:

defcolor_negative_values(val):
color='red'ifval<0else'black'return'color: %s'%color

通过Applymap将上述代码应用到dataframe:

df3.style.applymap(color_negative_values)

image.png

目录
相关文章
|
5天前
|
SQL 数据可视化 数据挖掘
利用Python中的Pandas库进行数据分析和可视化
Python语言中的Pandas库是一个功能强大的工具,可用于数据处理、清洗、分析和可视化。本文将介绍如何利用Pandas库对数据进行处理和分析,并结合Matplotlib库进行数据可视化,帮助读者快速掌握数据分析和可视化的基本方法。
14 3
|
7天前
|
数据采集 人工智能 数据挖掘
Python数据分析:利用Pandas库处理缺失数据的技巧
在数据分析中,数据的完整性对结果的准确性至关重要。本文将介绍如何利用Python中强大的Pandas库来处理数据中的缺失值,帮助您更好地进行数据清洗和分析。
|
28天前
|
存储 数据挖掘 索引
Python 教程之 Pandas(14)—— 使用 Pandas 进行数据分析
Python 教程之 Pandas(14)—— 使用 Pandas 进行数据分析
12 0
Python 教程之 Pandas(14)—— 使用 Pandas 进行数据分析
|
1月前
|
存储 数据可视化 数据挖掘
NumPy 和 Pandas 数据分析实用指南:1~6 全(下)
NumPy 和 Pandas 数据分析实用指南:1~6 全
49 0
|
1月前
|
关系型数据库 MySQL 数据挖掘
NumPy 和 Pandas 数据分析实用指南:1~6 全!(上)
NumPy 和 Pandas 数据分析实用指南:1~6 全
51 0
|
1月前
|
机器学习/深度学习 数据挖掘 Python
Python 的科学计算和数据分析: 解释什么是数据规整(Data Wrangling)?
Python 的科学计算和数据分析: 解释什么是数据规整(Data Wrangling)?
|
1月前
|
数据可视化 Python
Python 的科学计算和数据分析: 解释什么是 Jupyter Notebook?
Python 的科学计算和数据分析: 解释什么是 Jupyter Notebook?
|
2月前
|
数据采集 SQL 数据挖掘
Python 的科学计算和数据分析: 什么是 NumPy 和 Pandas?它们各自的作用是什么?
Python 的科学计算和数据分析: 什么是 NumPy 和 Pandas?它们各自的作用是什么?
|
18小时前
|
数据采集 数据挖掘 数据处理
Python中的数据处理利器 - Pandas库详解
Pandas是Python中一款强大的数据处理工具,提供了丰富的数据结构和函数,能够高效地进行数据清洗、转换和分析。本文将深入探讨Pandas库的核心功能和应用,帮助读者更好地理解和利用这一工具。
|
15天前
|
JSON 数据挖掘 数据处理
在Python如何将 JSON 转换为 Pandas DataFrame?
在Python如何将 JSON 转换为 Pandas DataFrame?
22 1