【源码解析】使用 Pandas 优化数据存储：深入解析 Block 合并机制-阿里云开发者社区

【源码解析】使用 Pandas 优化数据存储：深入解析 Block 合并机制

2024-06-09 48

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

公共DNS（含HTTPDNS解析），每月1000万次HTTP解析

全局流量管理 GTM，标准版 1个月

云解析 DNS，旗舰版 1个月

简介： 【源码解析】使用 Pandas 优化数据存储：深入解析 Block 合并机制

作者介绍：10年大厂数据\经营分析经验，现任大厂数据部门负责人。

会一些的技术：数据分析、算法、SQL、大数据相关、python

欢迎加入社区：码上找工作

作者专栏每日更新：

LeetCode解锁1000题: 打怪升级之旅

python数据分析可视化：企业实战案例

python源码解读

备注说明：方便大家阅读，统一使用python，带必要注释，公众号数据分析螺丝钉一起打怪升级

为了进行深入的源码解析，让我们考虑 Pandas 中 Block 类的一个重要方法 — consolidate。这个方法的主要功能是合并相同类型的多个 Block，以优化内存使用和提高数据处理的效率。在 Pandas 的 BlockManager 中，consolidate 方法通常在创建或修改 DataFrame 时被调用，以确保数据存储尽可能地高效。

源代码

以下是源码的一个简化版本，摘自 pandas/core/internals/managers.py 文件，我们将对其进行逐行解析：

def consolidate(self):
    """
    Merge blocks having same dtype,
    to reduce the number of blocks and possibly improve performance.
    """
    if not self.is_consolidated():
        # Group blocks by dtype
        new_blocks = []
        for dtype, group_blocks in groupby(self.blocks, lambda x: x.dtype):
            merged_blocks = self._merge_blocks(list(group_blocks))
            new_blocks.extend(merged_blocks)
        self.blocks = tuple(new_blocks)
        self._is_consolidated = True
        self._known_consolidated = True
    return self
def _merge_blocks(self, blocks):
    """
    Merge a list of blocks into a single block, if possible.
    """
    if len(blocks) == 1:
        return blocks
    elif can_consolidate(blocks):
        # Assuming all blocks have the same dtype
        new_values = np.concatenate([b.values for b in blocks], axis=0)
        new_block = make_block(values=new_values, placement=slice(0, len(new_values), 1))
        return [new_block]
    return blocks

逐行解析

方法 `consolidate`

函数定义和文档字符串:

def consolidate(self):
"""
Merge blocks having same dtype,
to reduce the number of blocks and possibly improve performance.
"""

这个方法旨在合并具有相同数据类型的 Block，以减少 Block 的数量并可能提高性能。

条件判断:

if not self.is_consolidated():

检查当前的 BlockManager 是否已经是合并状态。这是为了避免重复运行合并操作，提高效率。

初始化和循环:

new_blocks = []
for dtype, group_blocks in groupby(self.blocks, lambda x: x.dtype):

初始化一个新的列表 new_blocks 用于存储合并后的块。
使用 groupby 根据数据类型对现有的 blocks 进行分组。

合并块:

merged_blocks = self._merge_blocks(list(group_blocks))
new_blocks.extend(merged_blocks)

对每一组具有相同 dtype 的 blocks 调用 _merge_blocks 方法进行合并。
将合并后的块加入到 new_blocks。

更新状态:

self.blocks = tuple(new_blocks)
self._is_consolidated = True
self._known_consolidated = True

将 BlockManager 的 blocks 属性更新为新的合并后的块。
更新内部状态，标记为已合并。

方法 `_merge_blocks`

函数定义和逻辑:

def _merge_blocks(self, blocks):
if len(blocks) == 1:
    return blocks
elif can_consolidate(blocks):
    new_values = np.concatenate([b.values for b in blocks], axis=0)
    new_block = make_block(values=new_values, placement=slice(0, len(new_values), 1))
    return [new_block]
return blocks

如果块列表中只有一个块，直接返回。
检查是否可以合并块，如果可以，则将所有块的值沿着第一个轴连接起来。
创建一个新的 Block 实例，将合并后的值传递给它。
返回包含新块的列表。

学习与应用

通过深入解析 consolidate 方法的源码，我们可以学到如何优化内部数据结构以提升性能，尤其是在数据集大且操作频繁的情况下。了解这些内部机制也有助于在使用 Pandas 时做出更合理的数据处理决策，比如在何时调用 consolidate 以优化内存使用和加速数据处理。

欢迎关注微信公众号数据分析螺丝钉

【源码解析】使用 Pandas 优化数据存储：深入解析 Block 合并机制

源代码

逐行解析

方法 `consolidate`

方法 `_merge_blocks`

学习与应用

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

【源码解析】使用 Pandas 优化数据存储：深入解析 Block 合并机制

源代码

逐行解析

方法 consolidate

方法 _merge_blocks

学习与应用

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

方法 `consolidate`

方法 `_merge_blocks`