20个能够有效提高 Pandas数据分析效率的常用函数,附带解释和例子(下)

简介: 20个能够有效提高 Pandas数据分析效率的常用函数,附带解释和例子

15. Memory_usage

Memory_usage()返回每列使用的内存量(以字节为单位)。考虑下面的数据,其中每一列有一百万行。

df_large=pd.DataFrame({'A': np.random.randn(1000000),
'B': np.random.randint(100, size=1000000)})
df_large.shape(1000000, 2)

每列占用的内存:

df_large.memory_usage()
Index128A8000000B8000000dtype: int64

整个 dataframe 占用的内存(转换为以MB为单位):

df_large.memory_usage().sum() / (1024**2) #convertingtomegabytes15.2589111328125

16. Describe

describe函数计算数字列的基本统计信息,这些列包括计数、平均值、标准偏差、最小值和最大值、中值、第一个和第三个四分位数。因此,它提供了dataframe的统计摘要。

640.png

17. Merge

Merge()根据共同列中的值组合dataframe。考虑以下两个数据:

640.png

我们可以基于列中的共同值合并它们。设置合并条件的参数是“on”参数。

640.png

df1和df2是基于column_a列中的共同值进行合并的,merge函数的how参数允许以不同的方式组合dataframe,如:“inner”、“outer”、“left”、“right”等。

  • inner:仅在on参数指定的列中具有相同值的行(如果未指定其它方式,则默认为 inner 方式)
  • outer:全部列数据
  • left:左一dataframe的所有列数据
  • right:右一dataframe的所有列数据

18. Select_dtypes

Select_dtypes函数根据对数据类型设置的条件返回dataframe的子集。它允许使用include和exlude参数包含或排除某些数据类型。

df.select_dtypes(include='int64')

640.png

df.select_dtypes(exclude='int64')

640.png

19. Replace

顾名思义,它允许替换dataframe中的值。第一个参数是要替换的值,第二个参数是新值。

df.replace('A', 'A_1')

640.png

我们也可以在同一个字典中多次替换。

df.replace({'A':'A_1', 'B':'B_1'})

640.png

20. Applymap

Applymap用于将一个函数应用于dataframe中的所有元素。请注意,如果操作的矢量化版本可用,那么它应该优先于applymap。例如,如果我们想将每个元素乘以一个数字,我们不需要也不应该使用applymap函数。在这种情况下,简单的矢量化操作(例如df*4)要快得多。

然而,在某些情况下,我们可能无法选择矢量化操作。例如,我们可以使用pandas dataframes的style属性更改dataframe的样式。以下代码将负值的颜色设置为红色:

defcolor_negative_values(val):
color='red'ifval<0else'black'return'color: %s'%color

通过Applymap将上述代码应用到dataframe:

df3.style.applymap(color_negative_values)

image.png

目录
相关文章
|
2天前
|
数据采集 存储 数据挖掘
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第27天】在数据分析领域,Python的Pandas库因其强大的数据处理能力而备受青睐。本文介绍了Pandas在数据导入、清洗、转换、聚合、时间序列分析和数据合并等方面的高效技巧,帮助数据分析师快速处理复杂数据集,提高工作效率。
11 0
|
3天前
|
存储 数据挖掘 数据处理
Python数据分析:Pandas库的高效数据处理技巧
【10月更文挑战第26天】Python 是数据分析领域的热门语言,Pandas 库以其高效的数据处理功能成为数据科学家的利器。本文介绍 Pandas 在数据读取、筛选、分组、转换和合并等方面的高效技巧,并通过示例代码展示其实际应用。
14 1
|
24天前
|
机器学习/深度学习 数据采集 算法
探索Python科学计算的边界:NumPy、Pandas与SciPy在大规模数据分析中的高级应用
【10月更文挑战第5天】随着数据科学和机器学习领域的快速发展,处理大规模数据集的能力变得至关重要。Python凭借其强大的生态系统,尤其是NumPy、Pandas和SciPy等库的支持,在这个领域占据了重要地位。本文将深入探讨这些库如何帮助科学家和工程师高效地进行数据分析,并通过实际案例来展示它们的一些高级应用。
42 0
探索Python科学计算的边界:NumPy、Pandas与SciPy在大规模数据分析中的高级应用
|
1月前
|
数据采集 数据挖掘 API
Python数据分析加速器:深度挖掘Pandas与NumPy的高级功能
在Python数据分析的世界里,Pandas和NumPy无疑是两颗璀璨的明星,它们为数据科学家和工程师提供了强大而灵活的工具集,用于处理、分析和探索数据。今天,我们将一起深入探索这两个库的高级功能,看看它们如何成为数据分析的加速器。
35 1
|
26天前
|
数据采集 数据可视化 数据挖掘
Python 数据分析实战:使用 Pandas 进行数据清洗与可视化
【10月更文挑战第3天】Python 数据分析实战:使用 Pandas 进行数据清洗与可视化
69 0
|
2月前
|
数据挖掘 Python
Pandas数据分析实战(2):2023美国财富1000强公司情况
Pandas数据分析实战(2):2023美国财富1000强公司情况
39 0
|
2月前
|
机器学习/深度学习 数据处理 Python
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
从NumPy到Pandas:轻松转换Python数值库与数据处理利器
60 0
|
4月前
|
数据挖掘 Python
【Python】已解决:Python pandas读取Excel表格某些数值字段结果为NaN问题
【Python】已解决:Python pandas读取Excel表格某些数值字段结果为NaN问题
351 0
|
1月前
|
机器学习/深度学习 并行计算 大数据
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧
53 3
|
2月前
|
机器学习/深度学习 数据采集 监控
Pandas与Matplotlib:Python中的动态数据可视化
Pandas与Matplotlib:Python中的动态数据可视化