【源码解析】深入解析 pandas的Block 类中算术运算和重排实现-阿里云开发者社区

【源码解析】深入解析 pandas的Block 类中算术运算和重排实现

2024-06-09 171

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 【源码解析】深入解析 pandas的Block 类中算术运算和重排实现

作者介绍：10年大厂数据\经营分析经验，现任大厂数据部门负责人。

会一些的技术：数据分析、算法、SQL、大数据相关、python

欢迎加入社区：码上找工作

作者专栏每日更新：

LeetCode解锁1000题: 打怪升级之旅

python数据分析可视化：企业实战案例

python源码解读

备注说明：方便大家阅读，统一使用python，带必要注释，公众号数据分析螺丝钉一起打怪升级

为了深入解析 Pandas 中 Block 类处理算术运算、逻辑运算和重排操作的实现，我们将抽取和讨论 Block 类中的几个重要方法。这些方法体现了 Pandas 在数据块内部如何高效地处理不同类型的数据操作。

以下是 Pandas 的 Block 类中处理算术运算和重排等操作的一部分源码，取自 pandas/core/internals/blocks.py 文件。我们将通过这段源码来探索如何在 Block 内部实现数据操作。

选取源码片段

class Block:
    def __init__(self, values, placement, ndim=None):
        self.values = values
        self.placement = placement
        self.ndim = ndim or self.values.ndim
    def apply(self, func, **kwargs):
        """
        Apply a function to the block's values.
        """
        result = func(self.values, **kwargs)
        return self.make_block_same_class(result, placement=self.placement)
    def where(self, other, cond, errors='raise', try_cast=False, axis=0):
        """
        Apply a conditional operation.
        """
        aligned_other = other if np.ndim(other) > 1 else np.array(other)
        result = np.where(cond, self.values, aligned_other)
        return self.make_block_same_class(result, placement=self.placement)
    
    def fillna(self, value, limit=None):
        """
        Fill NA/NaN values using the specified method.
        """
        filled = self.values if limit is None else np.copy(self.values)
        mask = isna(self.values)
        filled[mask] = value
        return self.make_block_same_class(filled, self.placement)

逐行解析

初始化方法 `init`

self.values = values: 存储块中的数据数组。
self.placement = placement: 确定块在 DataFrame 全部列中的位置。
self.ndim = ndim or self.values.ndim: 块的维度，通常与数据的维度相同。

方法 `apply`

定义了一个通用方法 apply，允许将任何函数应用于块中的数据。
func(self.values, **kwargs): 调用传入的函数 func，在块的数据 self.values 上执行。
return self.make_block_same_class(result, placement=self.placement): 使用处理后的数据创建一个新的同类 Block。

条件操作方法 `where`

aligned_other = ...: 确保 other 参数与 self.values 对齐，以便进行元素级操作。
result = np.where(cond, self.values, aligned_other): 根据条件 cond，选择 self.values 和 aligned_other 之间的数据。
返回一个新的 Block，包含操作结果。

方法 `fillna`

filled = ...: 复制 self.values（如果指定了 limit）。
mask = isna(self.values): 创建一个布尔数组 mask，标记 self.values 中的 NA/NaN 位置。
filled[mask] = value: 将 NA/NaN 位置的值替换为 value。
返回一个填充后的新 Block。

学习与应用

从上述对 Pandas Block 类中方法的解析中，我们可以看到几个编码实践和设计决策，它们对于提升代码的效率、可读性和可维护性都是非常有益的。以下是这段代码中写得好的几个方面：

1. 模块化和重用

代码的通用性：通过定义 apply 方法，Block 类能够将任何函数应用于其数据。这种通用方法提高了代码的重用性，减少了重复代码，使得 Block 类更加灵活和强大。
重用创建新块的逻辑：make_block_same_class 方法在各种操作后被调用来创建新的 Block 实例。这种方法确保了新创建的块与原块类型相同，保持了代码的一致性和准确性。

2. 错误处理和数据完整性

数据对齐：在 where 方法中，代码确保了 other 参数与 self.values 数据对齐，这是在进行元素级操作前的重要步骤，确保操作的正确性。
参数验证：尽管这段摘选中没有直接显示，通常在 Pandas 的底层实现中，对函数参数会进行严格的验证，以确保传入数据的合法性和操作的安全性。

3. 性能优化

避免不必要的数据复制：在 fillna 方法中，仅当 limit 参数被指定时才复制 self.values。这种条件复制策略有助于优化内存使用和执行效率，尤其是在处理大型数据集时。

4. 清晰的代码结构和文档

方法命名和文档：每个方法都有清晰的命名和适当的文档字符串，如 apply, where, 和 fillna。这些名称和说明有助于其他开发者理解代码的目的和功能，增强了代码的可读性。
文档字符串：如 apply 方法中的文档字符串提供了足够的信息来说明方法的用途和工作方式，这是良好的文档实践。

5. 保持代码的可维护性

使用 __slots__：在类定义中使用 __slots__ 可以减少每个实例的内存占用，同时防止动态创建新属性，这有助于保持对象的结构清晰和一致。

这些实践展示了 Pandas 如何通过精心设计的内部机制来提供强大而灵活的数据处理功能。了解这些背后的逻辑不仅可以帮助我们更有效地使用 Pandas，还能够启发我们在自己的编程实践中采用类似的技术来提升代码质量。

欢迎关注微信公众号数据分析螺丝钉

【源码解析】深入解析 pandas的Block 类中算术运算和重排实现

选取源码片段

逐行解析

初始化方法 `init`

方法 `apply`

条件操作方法 `where`

方法 `fillna`

学习与应用

1. 模块化和重用

2. 错误处理和数据完整性

3. 性能优化

4. 清晰的代码结构和文档

5. 保持代码的可维护性

热门文章

最新文章

相关课程

相关电子书

推荐镜像

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

【源码解析】深入解析 pandas的Block 类中算术运算和重排实现

选取源码片段

逐行解析

初始化方法 __init__

方法 apply

条件操作方法 where

方法 fillna

学习与应用

1. 模块化和重用

2. 错误处理和数据完整性

3. 性能优化

4. 清晰的代码结构和文档

5. 保持代码的可维护性

热门文章

最新文章

相关课程

相关电子书

推荐镜像

初始化方法 `init`

方法 `apply`

条件操作方法 `where`

方法 `fillna`