20个能够有效提高 Pandas数据分析效率的常用函数,附带解释和例子(下)

简介: 20个能够有效提高 Pandas数据分析效率的常用函数,附带解释和例子

15. Memory_usage

Memory_usage()返回每列使用的内存量(以字节为单位)。考虑下面的数据,其中每一列有一百万行。

df_large=pd.DataFrame({'A': np.random.randn(1000000),
'B': np.random.randint(100, size=1000000)})
df_large.shape(1000000, 2)

每列占用的内存:

df_large.memory_usage()
Index128A8000000B8000000dtype: int64

整个 dataframe 占用的内存(转换为以MB为单位):

df_large.memory_usage().sum() / (1024**2) #convertingtomegabytes15.2589111328125

16. Describe

describe函数计算数字列的基本统计信息,这些列包括计数、平均值、标准偏差、最小值和最大值、中值、第一个和第三个四分位数。因此,它提供了dataframe的统计摘要。

640.png

17. Merge

Merge()根据共同列中的值组合dataframe。考虑以下两个数据:

640.png

我们可以基于列中的共同值合并它们。设置合并条件的参数是“on”参数。

640.png

df1和df2是基于column_a列中的共同值进行合并的,merge函数的how参数允许以不同的方式组合dataframe,如:“inner”、“outer”、“left”、“right”等。

  • inner:仅在on参数指定的列中具有相同值的行(如果未指定其它方式,则默认为 inner 方式)
  • outer:全部列数据
  • left:左一dataframe的所有列数据
  • right:右一dataframe的所有列数据

18. Select_dtypes

Select_dtypes函数根据对数据类型设置的条件返回dataframe的子集。它允许使用include和exlude参数包含或排除某些数据类型。

df.select_dtypes(include='int64')

640.png

df.select_dtypes(exclude='int64')

640.png

19. Replace

顾名思义,它允许替换dataframe中的值。第一个参数是要替换的值,第二个参数是新值。

df.replace('A', 'A_1')

640.png

我们也可以在同一个字典中多次替换。

df.replace({'A':'A_1', 'B':'B_1'})

640.png

20. Applymap

Applymap用于将一个函数应用于dataframe中的所有元素。请注意,如果操作的矢量化版本可用,那么它应该优先于applymap。例如,如果我们想将每个元素乘以一个数字,我们不需要也不应该使用applymap函数。在这种情况下,简单的矢量化操作(例如df*4)要快得多。

然而,在某些情况下,我们可能无法选择矢量化操作。例如,我们可以使用pandas dataframes的style属性更改dataframe的样式。以下代码将负值的颜色设置为红色:

defcolor_negative_values(val):
color='red'ifval<0else'black'return'color: %s'%color

通过Applymap将上述代码应用到dataframe:

df3.style.applymap(color_negative_values)

image.png

目录
相关文章
|
4天前
|
数据采集 数据可视化 数据挖掘
Pandas数据应用:天气数据分析
本文介绍如何使用 Pandas 进行天气数据分析。Pandas 是一个强大的 Python 数据处理库,适合处理表格型数据。文章涵盖加载天气数据、处理缺失值、转换数据类型、时间序列分析(如滚动平均和重采样)等内容,并解决常见报错如 SettingWithCopyWarning、KeyError 和 TypeError。通过这些方法,帮助用户更好地进行气候趋势预测和决策。
94 71
|
3天前
|
存储 数据采集 数据可视化
Pandas数据应用:电子商务数据分析
本文介绍如何使用 Pandas 进行电子商务数据分析,涵盖数据加载、清洗、预处理、分析与可视化。通过 `read_csv` 等函数加载数据,利用 `info()` 和 `describe()` 探索数据结构和统计信息。针对常见问题如缺失值、重复记录、异常值等,提供解决方案,如 `dropna()`、`drop_duplicates()` 和正则表达式处理。结合 Matplotlib 等库实现数据可视化,探讨内存不足和性能瓶颈的应对方法,并总结常见报错及解决策略,帮助提升电商企业的数据分析能力。
97 73
|
4天前
|
数据采集 数据可视化 索引
Pandas数据应用:股票数据分析
本文介绍了如何使用Pandas库进行股票数据分析。首先,通过pip安装并导入Pandas库。接着,从本地CSV文件读取股票数据,并解决常见的解析错误。然后,利用head()、info()等函数查看数据基本信息,进行数据清洗,处理缺失值和重复数据。再者,结合Matplotlib和Seaborn进行数据可视化,绘制收盘价折线图。最后,进行时间序列分析,设置日期索引、重采样和计算移动平均线。通过这些步骤,帮助读者掌握Pandas在股票数据分析中的应用。
32 5
|
2月前
|
Python
|
2月前
|
Python
|
2月前
|
Python
Pandas 常用函数-数据合并
Pandas 常用函数-数据合并
47 1
|
2月前
|
索引 Python
Pandas 常用函数-数据排序
10月更文挑战第28天
21 1
|
2月前
|
数据采集 Python
Pandas 常用函数-数据清洗
Pandas 常用函数-数据清洗
26 2
|
2月前
|
Python
Pandas 常用函数-查看数据
Pandas 常用函数-查看数据
25 2
|
2月前
|
SQL JSON 数据库
Pandas 常用函数-读取数据
Pandas 常用函数-读取数据
33 2