python 使用矢量化替换循环

简介: python 使用矢量化替换循环

介绍


🎵🕺🗣🏀


循环自然而然地出现在我们身边,我们了解几乎所有编程语言中的循环。因此,默认情况下,只要有重复操作,我们就会开始执行循环。但是当我们处理大量迭代(数百万/十亿行)时,使用循环是一种犯罪。您可能会被困几个小时,后来才意识到它行不通。这就是在 python 中实现矢量化变得非常关键的地方。


什么是矢量化?


矢量化是在数据集上实现 (NumPy) 数组操作的技术。在后台,它将一次性运算数组中所有元素(不同于一次操作一行的“for”循环)。

下面我将用一些示例,分别使用python 循环和矢量化实现,看下能够帮助您节省出多少时间。

就是把能数学运算的数据(int、float)放到numpy的数组中处理


示例

示例1:求数字之和

循环


import time 
start = time.time()
total = 0
for item in range(0, 1500000):
    total = total + item
print('sum is:' + str(total))
end = time.time()
print(end - start)
#sum is 1124999250000
#0.14 Seconds


矢量化


import numpy as np
start = time.time()
print(np.sum(np.arange(1500000)))
end = time.time()
print(end - start)
#1124999250000
#0.008 Seconds


与使用循环函数的迭代相比,矢量化的执行时间减少了约 18 倍。在使用 Pandas DataFrame 时,这种差异将变得更加显着。


示例2:在DataFrame上数学运算


DataFrame 是行和列形式的表格数据。

创建一个具有 500 万行和 4 列的 pandas DataFrame,其中填充了 0 到 50 之间的随机值。


import numpy as np
import pandas as pd
df = pd.DataFrame(np.random.randint(0, 50, size=(5000000, 4)), columns=('a','b','c','d'))
df.shape
# (5000000, 5)
df.head()


目的创建一个新列“ratio”来保存列“d”和“c”的比率。

循环


import time 
start = time.time()
for idx, row in df.iterrows():
    df.at[idx,'ratio'] = 100 * (row["d"] / row["c"])  
end = time.time()
print(end - start)
# 109 Seconds


矢量化


start = time.time()
df["ratio"] = 100 * (df["d"] / df["c"])
end = time.time()
print(end - start)
# 0.12 seconds


我们可以看到 DataFrame 的显着改进,与 Python 中的循环相比,矢量化操作所花费的时间几乎快 1000 倍。


示例3:在 DataFrame 上If-else语句


基于示例2,我们根据现有列“a”上的某些条件创建一个新列“e”。

循环


import time 
start = time.time()
for idx, row in df.iterrows():
    if row.a == 0:
        df.at[idx,'e'] = row.d    
    elif (row.a <= 25) & (row.a > 0):
        df.at[idx,'e'] = (row.b)-(row.c)    
    else:
        df.at[idx,'e'] = row.b + row.c
end = time.time()
print(end - start)
#177 seconds


矢量化


start = time.time()
df['e'] = df['b'] + df['c']
df.loc[df['a'] <= 25, 'e'] = df['b'] -df['c']
df.loc[df['a']==0, 'e'] = df['d']end = time.time()
print(end - start)
# 0.28007707595825195 sec


与使用 if-else 语句的 python 循环相比,矢量化操作所花费的时间快 600 倍。


示例4:机器学习/深度学习


深度学习要求我们解决多个复杂的方程式,而且需要解决数百万和数十亿行的问题。在 Python 中运行循环来求解这些方程式非常慢,矢量化是最佳解决方案。

例如,计算以下多元线性回归方程中数百万行的 y 值:


b7f158fe42cf6ba953ccdb6cff33776f.jpg

循环


import numpy as np
m = np.random.rand(1,5)
x = np.random.rand(5000000,5)
total = 0
tic = time.process_time()
for i in range(0,5000000):
    total = 0
    for j in range(0,5):
        total = total + x[i][j]*m[0][j] 
    zer[i] = total 
toc = time.process_time()
print(str((toc - tic)) + "seconds")
# 28.228 seconds


矢量化


tic = time.process_time()
np.dot(x,m.T) 
toc = time.process_time()
print(str((toc - tic)) + "seconds")
# 0.107 seconds


np.dot 在后端实现矢量化矩阵乘法。与 Python 中的循环相比,它快 165 倍。

相关文章
|
2月前
|
Python
Python 学习之路 03 之循环
03-运行时数据区概述及线程
34 0
|
2月前
|
Python
python用户输入和while循环(四)
python用户输入和while循环(四)
28 1
|
1月前
|
程序员 Python
Python控制结构:条件语句和循环详解
【4月更文挑战第8天】本文介绍了Python的两种主要控制结构——条件语句和循环。条件语句包括`if`、`elif`和`else`,用于根据条件执行不同代码块。`if`检查条件,`else`提供替代路径,`elif`用于多个条件检查。循环结构有`for`和`while`,前者常用于遍历序列,后者在满足特定条件时持续执行。`for`可结合`range()`生成数字序列。`while`循环适用于未知循环次数的情况。循环控制语句`break`和`continue`能改变循环执行流程。理解和熟练运用这些控制结构是Python编程的基础。
|
2月前
|
存储 索引 Python
python用户输入和while循环(五)
python用户输入和while循环(五)
18 0
|
2月前
|
Python
python用户输入和while循环(三)
python用户输入和while循环(三)
20 0
|
2月前
|
存储 算法 索引
python用户输入和while循环(六)
python用户输入和while循环(六)
20 0
|
2月前
|
存储 索引 Python
python用户输入和while循环(七)
python用户输入和while循环(七)
17 0
|
5天前
|
机器学习/深度学习 JSON 数据库
Python每循环一次保存一次结果
Python每循环一次保存一次结果
9 1
|
13天前
|
Python 容器
Python中的for循环用法详解,一文搞定它
Python中的for循环用法详解,一文搞定它
|
13天前
|
Python
Python中的while循环,知其然知其所以然
Python中的while循环,知其然知其所以然