Pandas字符串操作的各种方法速度测试

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: 由于LLM的发展, 很多的数据集都是以DF的形式发布的,所以通过Pandas操作字符串的要求变得越来越高了,所以本文将对字符串操作方法进行基准测试,看看它们是如何影响pandas的性能的。因为一旦Pandas在处理数据时超过一定限制,它们的行为就会很奇怪。

我们用Faker创建了一个100,000行的测试数据。

测试方法

安装:

 !pip install faker

生成测试数据的方法很简答:

 import pandas as pd
 import numpy as np

 def gen_data(x):
   from faker import Faker
   fake = Faker()
   outdata = {}
   for i in range(0,x):
     outdata[i] = fake.profile()
   return pd.DataFrame(outdata).T

 n= 100000
 basedata = gen_data(n)

然后把Google Colab将输出存储在Google drive中

 from google.colab import drive
 drive.mount('/content/drive')

创建了非常简单的函数来测试连接两个字符串的各种方法。

 def process(a,b):
   return ''.join([a,b])

 def process(a,b):
   return a+b

 def process(a,b):
   return f"{a}{b}"

 def process(a,b):
   return f"{a}{b}"*100

创建一个空DF,编写一个函数将输出%%timeit作为一行添加到数据框中

 # add a row to the dataframe using %%timeit output
 def add_to_df(n, m, x, outputdf):
   outputdf.loc[len(outputdf.index)] = [m, n, x]

 # output frame
 outputdf = pd.DataFrame(columns=['method', 'n', 'timing'])
 outputdf

然后就是运行上面的每个函数并将数据导出到pandas的代码。

 # get a sample of data
 n = 10000
 suffix = 'fstring_100x'
 data = basedata.copy().sample(n).reset_index()

记录运行时间

 %%timeit -r 7 -n 1 -o
 data['newcol'] = ''
 for row in range(len(data)):
   data.at[row ,'newcol'] = process(data.at[row, 'job'], data.at[row, 'company'])

 # 451 ms ± 34 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)
 # <TimeitResult : 451 ms ± 34 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)>

完整的函数调用

 m = "Iterating over the rows"
 add_to_df(n = n, m = m, x = vars(_), outputdf = outputdf)

试验

上面是代码,下面开始用上面的代码进行试验:

Iterrows (pandas原生函数)每行相加

 %%timeit -r 7 -n 1 -o
 data['newcol'] = ''
 for row, item in data.iterrows():
   data.at[row ,'newcol'] = process(item['job'], item['company'])

Itertuples(由于不可变而更安全)每行相加

 %%timeit -r 7 -n 1 -o
 data['newcol'] = ''
 for row, job, company in data[['job','company']].itertuples():
   data.at[row ,'newcol'] = process(job, company)

使用pandas原生函数作为字符串相加

 %%timeit -r 7 -n 1 -o
 data['newcol'] = data.job + data.company

使用原生函数pandas. series .add

 %%timeit -r 7 -n 1 -o
 data['newcol'] = data.job.add(data.company)

使用dataframe.apply

 %%timeit -r 7 -n 1 -o
 data['newcol'] = data.apply(lambda row: process(row['job'],row['company']), axis=1)

使用List Map

 %%timeit -r 7 -n 1 -o
 data['newcol'] = list(map(process, data.job, data.company))

Pandas矢量化

 %%timeit -r 7 -n 1 -o
 data['newcol'] = process(data.job, data.company)

numpy数组矢量化

 %%timeit -r 7 -n 1 -o
 data['newcol'] = process(data.job.to_numpy(), data.company.to_numpy())

显式在numpy数组上使用numpy向量化

 %%timeit -r 7 -n 1 -o
 data['newcol'] = np.vectorize(process)(data.job.to_numpy(), data.company.to_numpy())

优化后的列表推导式

 %%timeit -r 7 -n 1 -o
 data['newcol'] = ''
 data['newcol'] =[process(i,j) for i,j in list(zip(data.job, data.company)) ]

最后是结果的输出:

 outputdf.to_csv(f"./drive/MyDrive/{n}_{suffix}.csv")

结果

结果如下所示。我用了上面3种不同函数测试了结果。

原生的字符串加法C = a+b

从1000行扩展到100,000行所需的时间;

可视化对比:

所有矢量化方法都非常快,而且pandas标准的str.add对numpy数组也进行了矢量化。能够看到Pandas的原生方法一般都是线性的。List-map似乎以N的平方根的速度增长

使用fstring: c = f " {a}{b} "

使用fstring,结果很有趣,有的结果无法解释。

时间

可视化

从时间上看,长度超过10,000的DF时,向量化是正确执行的

下图是第三个函数,就是*100,这更能说明问题,向量化操作的基本上时间没有变化

总结

通过上面的测试,我们可以总结一下结果:

1、还是老生常谈的问题,不要使用iterrows(), itertuples(),尽量不要使用DataFrame.apply(),因为几个函数还是循环遍历的。

2、矢量化操作在字符串操作中也是可以使用的,但是为了安全起见,使用Numpy数组。

3、列表推导式就像它的名字一样,它还是一个list

4、还有一些奇怪的无法解释的问题,但是大部分的情况都是可以解释的

如果你有更好的理解,欢迎留言

https://avoid.overfit.cn/post/2633908f89b14e0bb14bcaab443c3fec

作者:Dr. Mandar Karhade

目录
相关文章
|
数据采集 监控 机器人
浅谈网页端IM技术及相关测试方法实践(包括WebSocket性能测试)
最开始转转的客服系统体系如IM、工单以及机器人等都是使用第三方的产品。但第三方产品对于转转的业务,以及客服的效率等都产生了诸多限制,所以我们决定自研替换第三方系统。下面主要分享一下网页端IM技术及相关测试方法,我们先从了解IM系统和WebSocket开始。
462 4
|
8月前
|
测试技术 开发者 Python
Python单元测试入门:3个核心断言方法,帮你快速定位代码bug
本文介绍Python单元测试基础,详解`unittest`框架中的三大核心断言方法:`assertEqual`验证值相等,`assertTrue`和`assertFalse`判断条件真假。通过实例演示其用法,帮助开发者自动化检测代码逻辑,提升测试效率与可靠性。
557 1
|
10月前
|
自然语言处理 数据挖掘 数据处理
告别低效代码:用对这10个Pandas方法让数据分析效率翻倍
本文将介绍 10 个在数据处理中至关重要的 Pandas 技术模式。这些模式能够显著减少调试时间,提升代码的可维护性,并构建更加清晰的数据处理流水线。
325 3
告别低效代码:用对这10个Pandas方法让数据分析效率翻倍
|
8月前
|
机器学习/深度学习 人工智能 自然语言处理
如何让AI更“聪明”?VLM模型的优化策略与测试方法全解析​
本文系统解析视觉语言模型(VLM)的核心机制、推理优化、评测方法与挑战。涵盖多模态对齐、KV Cache优化、性能测试及主流基准,助你全面掌握VLM技术前沿。建议点赞收藏,深入学习。
2593 8
|
编解码 缓存 Prometheus
「ximagine」业余爱好者的非专业显示器测试流程规范,同时也是本账号输出内容的数据来源!如何测试显示器?荒岛整理总结出多种测试方法和注意事项,以及粗浅的原理解析!
本期内容为「ximagine」频道《显示器测试流程》的规范及标准,我们主要使用Calman、DisplayCAL、i1Profiler等软件及CA410、Spyder X、i1Pro 2等设备,是我们目前制作内容数据的重要来源,我们深知所做的仍是比较表面的活儿,和工程师、科研人员相比有着不小的差距,测试并不复杂,但是相当繁琐,收集整理测试无不花费大量时间精力,内容不完善或者有错误的地方,希望大佬指出我们好改进!
1170 16
「ximagine」业余爱好者的非专业显示器测试流程规范,同时也是本账号输出内容的数据来源!如何测试显示器?荒岛整理总结出多种测试方法和注意事项,以及粗浅的原理解析!
|
11月前
|
测试技术
软考软件评测师——可靠性测试测试方法
软件可靠性是指软件在规定条件和时间内完成预定功能的能力,受运行环境、软件规模、内部结构、开发方法及可靠性投入等因素影响。失效概率指软件运行中出现失效的可能性,可靠度为不发生失效的概率,平均无失效时间(MTTF)体现软件可靠程度。案例分析显示,嵌入式软件需满足高可靠性要求,如机载软件的可靠度需达99.99%以上,通过定量指标评估其是否达标。
|
11月前
|
消息中间件 缓存 监控
性能测试怎么做?方法、流程与核心要点解析
本文系统阐述了性能测试的核心方法论、实施流程、问题定位优化及报告编写规范。涵盖五大测试类型(负载验证、极限压力、基准比对、持续稳定性、弹性扩展)与七项关键指标,详解各阶段任务如需求分析、场景设计和环境搭建,并提供常见瓶颈识别与优化实战案例。最后规范测试报告内容框架与数据可视化建议,为企业级实践提出建立基线库、自动化回归和全链路压测体系等建议,助力高效开展性能测试工作。
|
人工智能 自然语言处理 测试技术
AxBench:斯坦福大学推出评估语言模型控制方法的基准测试框架
AxBench 是由斯坦福大学推出,用于评估语言模型可解释性方法的基准测试框架,支持概念检测和模型转向任务,帮助研究者系统地比较不同控制技术的有效性。
414 5
AxBench:斯坦福大学推出评估语言模型控制方法的基准测试框架
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法。本文介绍 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,同时提供 Python 实现示例,强调其在确保项目性能和用户体验方面的关键作用。
645 6