NumPy 与 Python 内置列表计算标准差的区别

简介: NumPy,是 Numerical Python 的简称,用于高性能科学计算和数据分析的基础包,像数学科学工具(pandas)和框架(Scikit-learn)中都使用到了 NumPy 这个包。

1 什么是 Numpy

NumPy,是 Numerical Python 的简称,用于高性能科学计算和数据分析的基础包,像数学科学工具(pandas)和框架(Scikit-learn)中都使用到了 NumPy 这个包。


NumPy 中的基本数据结构是 ndarray 或者 N 维数值数组,在形式上来说,它的结构有点像 Python 的基础类型——Python 列表。


但本质上,这两者并不同,可以看到一个简单的对比。


我们创建两个列表,当我们创建好了之后,可以使用 + 运算符进行连接:

list1 = [i for i in range(1,11)]
list2 = [i**2 for i in range(1,11)]
print(list1+list2)
# [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 1, 4, 9, 16, 25, 36, 49, 64, 81, 100]


列表中元素的处理感觉像对象,不是很数字,不是吗? 如果这些是数字向量而不是简单的数字列表,您会期望 + 运算符的行为略有不同,并将第一个列表中的数字按元素添加到第二个列表中的相应数字中。


接下来看一下 Nympy 的数组版本:

import numpy as np
arr1 = np.array(list1)
arr2 = np.array(list2)
arr1 + arr2
# array([  2,   6,  12,  20,  30,  42,  56,  72,  90, 110])


通过 numpy 的 np.array 数组方法实现了两个列表内的逐个值进行相加。


我们通过 dir 函数来看两者的区别,先看 Python 内置列表 list1 的内置方法:


网络异常,图片无法展示
|


再用同样的方法看一下 arr1 中的方法:

网络异常,图片无法展示
|

NumPy 数组对象还有更多可用的函数和属性。 特别要注意诸如 meanstdsum 之类的方法,因为它们清楚地表明重点关注使用这种数组对象的数值/统计计算。 而且这些操作也很快。


2 NumPy 数组和 Python 内置计算对比


NumPy 的速度要快得多,因为它的矢量化实现以及它的许多核心例程最初是用 C 语言(基于 CPython 框架)编写的。 NumPy 数组是同构类型的密集排列的数组。 相比之下,Python 列表是指向对象的指针数组,即使它们都属于同一类型。 因此,我们得到了参考局部性的好处。


许多 NumPy 操作是用 C 语言实现的,避免了 Python 中的循环、指针间接和逐元素动态类型检查的一般成本。 特别是,速度的提升取决于您正在执行的操作。 对于数据科学和 ML 任务,这是一个无价的优势,因为它避免了长和多维数组中的循环。


让我们使用 @timing 计时装饰器来说明这一点。 这是一个围绕两个函数 std_devstd_dev_python 包装装饰器的代码,分别使用 NumPy 和内置 Python 代码实现列表/数组的数值标准差计算。


3 函数计算时间装饰器

我们可以使用 Python 装饰器和 functools 模块的 wrapping 来写一个 时间装饰器 timing:

def timing(func):
    @wraps(func)
    def wrap(*args, **kw):
        begin_time = time()
        result = func(*args, **kw)
        end_time = time()
        print(f"Function '{func.__name__}' took {end_time-begin_time} seconds to run")      
        return result
    return wrap

4 标准差计算公式

然后利用这个时间装饰器来看 Numpy 数组和 Python 内置的列表,然后计算他们的标准差,公式如图:


网络异常,图片无法展示
|


  1. 定义 Numpy 计算标准差的函数 std_dev()numpy 模块中内置了标准差公式的函数 a.std(),我们可以直接调用
  2. 列表计算公式方法需要按照公式一步一步计算:

     1.先求求出宗和 s

     2.然后求出平均值 average

    3.计算每个数值与平均值的差的平方,再求和 sumsq

   4.再求出 sumsq 的平均值 sumsq_average

   5.得到最终的标准差结果 result


代码如下:

from functools import wraps
from time import time
import numpy as np
from math import sqrt
def timing(func):
    @wraps(func)
    def wrap(*args, **kw):
        begin_time = time()
        result = func(*args, **kw)
        end_time = time()
        # print(f"Function '{func.__name__}' with arguments {args},keywords {kw} took {end_time-begin_time} seconds to run")
        print(f"Function '{func.__name__}' took {end_time-begin_time} seconds to run")      
        return result
    return wrap
@timing
def std_dev(a):
    if isinstance(a, list):
        a = np.array(a)
    s = a.std()
    return s
@timing
def std_dev_python(lst):
    length = len(lst)
    s = sum(lst)
    average = s / length
    sumsq = 0
    for i in lst:
        sumsq += (i-average)**2
    sumsq_average = sumsq/length
    result = sqrt(sumsq_average)
    return result


运行结果,最终可以看到 1000000 个值得标准差的值为 288675.13459,而 Numpy 计算时间为 0.0080 s,而 Python 原生计算方式为 0.2499 s

网络异常,图片无法展示
|

由此可见,Numpy 的方式明显更快。


5 总结

NumPy 是专门针对数组的操作和运算进行了设计,所以数组的存储效率和输入输出性能远优于 Python 中的嵌套列表,数组越大,NumPy 的优势就越明显。


NumPy 还提供了一系列让人眼前一亮的函数,可以用于高级数据科学和机器学习的数值数组和矩阵,今后我们再一一进行探索和学习!

相关文章
|
5月前
|
存储 Java 数据处理
(numpy)Python做数据处理必备框架!(一):认识numpy;从概念层面开始学习ndarray数组:形状、数组转置、数值范围、矩阵...
Numpy是什么? numpy是Python中科学计算的基础包。 它是一个Python库,提供多维数组对象、各种派生对象(例如掩码数组和矩阵)以及用于对数组进行快速操作的各种方法,包括数学、逻辑、形状操作、排序、选择、I/0 、离散傅里叶变换、基本线性代数、基本统计运算、随机模拟等等。 Numpy能做什么? numpy的部分功能如下: ndarray,一个具有矢量算术运算和复杂广播能力的快速且节省空间的多维数组 用于对整组数据进行快速运算的标准数学函数(无需编写循环)。 用于读写磁盘数据的工具以及用于操作内存映射文件的工具。 线性代数、随机数生成以及傅里叶变换功能。 用于集成由C、C++
502 0
|
5月前
|
Java 数据处理 索引
(numpy)Python做数据处理必备框架!(二):ndarray切片的使用与运算;常见的ndarray函数:平方根、正余弦、自然对数、指数、幂等运算;统计函数:方差、均值、极差;比较函数...
ndarray切片 索引从0开始 索引/切片类型 描述/用法 基本索引 通过整数索引直接访问元素。 行/列切片 使用冒号:切片语法选择行或列的子集 连续切片 从起始索引到结束索引按步长切片 使用slice函数 通过slice(start,stop,strp)定义切片规则 布尔索引 通过布尔条件筛选满足条件的元素。支持逻辑运算符 &、|。
324 0
|
5月前
|
存储 Java 索引
(Python基础)新时代语言!一起学习Python吧!(二):字符编码由来;Python字符串、字符串格式化;list集合和tuple元组区别
字符编码 我们要清楚,计算机最开始的表达都是由二进制而来 我们要想通过二进制来表示我们熟知的字符看看以下的变化 例如: 1 的二进制编码为 0000 0001 我们通过A这个字符,让其在计算机内部存储(现如今,A 字符在地址通常表示为65) 现在拿A举例: 在计算机内部 A字符,它本身表示为 65这个数,在计算机底层会转为二进制码 也意味着A字符在底层表示为 1000001 通过这样的字符表示进行转换,逐步发展为拥有127个字符的编码存储到计算机中,这个编码表也被称为ASCII编码。 但随时代变迁,ASCII编码逐渐暴露短板,全球有上百种语言,光是ASCII编码并不能够满足需求
255 4
|
7月前
|
机器学习/深度学习 API 异构计算
JAX快速上手:从NumPy到GPU加速的Python高性能计算库入门教程
JAX是Google开发的高性能数值计算库,旨在解决NumPy在现代计算需求下的局限性。它不仅兼容NumPy的API,还引入了自动微分、GPU/TPU加速和即时编译(JIT)等关键功能,显著提升了计算效率。JAX适用于机器学习、科学模拟等需要大规模计算和梯度优化的场景,为Python在高性能计算领域开辟了新路径。
721 0
JAX快速上手:从NumPy到GPU加速的Python高性能计算库入门教程
|
7月前
|
存储 数据采集 数据处理
Pandas与NumPy:Python数据处理的双剑合璧
Pandas与NumPy是Python数据科学的核心工具。NumPy以高效的多维数组支持数值计算,适用于大规模矩阵运算;Pandas则提供灵活的DataFrame结构,擅长处理表格型数据与缺失值。二者在性能与功能上各具优势,协同构建现代数据分析的技术基石。
610 0
|
11月前
|
Python
[oeasy]python086方法_method_函数_function_区别
本文详细解析了Python中方法(method)与函数(function)的区别。通过回顾列表操作如`append`,以及随机模块的使用,介绍了方法作为类的成员需要通过实例调用的特点。对比内建函数如`print`和`input`,它们无需对象即可直接调用。总结指出方法需基于对象调用且包含`self`参数,而函数独立存在无需`self`。最后提供了学习资源链接,方便进一步探索。
292 17
|
11月前
|
Python
Python中Cp、Cpk、Pp、Ppk的计算与应用
总的来说,Cp、Cpk、Pp、Ppk是衡量过程能力的重要工具,它们可以帮助我们了解和改进生产过程,提高产品质量。
1345 13
|
11月前
|
存储 人工智能 算法
使用Python计算从位置x到y的最少步数
本文通过Python代码结合广度优先搜索(BFS)算法,解决从起点到终点的最少步数问题。以二维网格为例,机器人只能上下左右移动,目标是最短路径。BFS按层遍历,确保首次到达终点即为最短路径。文中提供完整Python实现,包括队列与访问标记数组的使用,并输出示例结果。此外,还探讨了双向BFS、Dijkstra及A*算法等优化方法,帮助读者深入理解最短路径问题及其高效解决方案。
304 0
|
Python
Python中的函数是**一种命名的代码块,用于执行特定任务或计算
Python中的函数是**一种命名的代码块,用于执行特定任务或计算
263 18
|
Python
使用Python计算字符串的SHA-256散列值
使用Python计算字符串的SHA-256散列值
430 7

推荐镜像

更多