PostgreSQL列存增加更新和删除功能

本文涉及的产品
云原生数据库 PolarDB PostgreSQL 版,企业版 4核16GB
推荐场景:
HTAP混合负载
云原生数据库 PolarDB MySQL 版,Serverless 5000PCU 100GB
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
简介: PostgreSQL列存增加更新和删除功能

PostgreSQL列存增加更新和删除功能


Hydra是企业级数据仓库的开源替代品。速度快且功能丰富,开发人员可以更快的构建更好的分析。支持列存PG的更新和删除是#1客户功能请求,现在GA了。之前博文“如何为分析构建最快的PG数据库”中,回顾了Hydra团队如何将列存、向量化和查询并行化添加到PG中,以及使用ClickBench的基准测试结果。目前对WHERE进行了向量化但未用SIMD,声称很快会提供。平均下来,查询性能比基本PG提高了23!这也太夸张了吧,可以弄下来测试下,文末有源码地址。


如何工作


更新和删除是关系型数据库中一些最常见的功能。虽然append-only存储对不可变数据很有用,但缺乏其他数据库任务所需的灵活性。PG中的更新和删除并不是物理删除,而是在heap存储的tuple header中标记删除。


Hydra实现


列存储功能依赖于columnar schema中的几个元数据表。例如columnar.stripe表包含事务当前可见的所有stripes,这些信息用来读取和定位列存表的stripes

Heap表通过MVCC在并发环境中提供数据的一致性版本。每个SQL语句可以看到一段时间之前的快照数据,而不管底层数据的当前状态如何。您可以想象当两个并发事务处于活动状态时的情况 - A B。如果事务 A 向表中添加行,那么另一个事务将无法看到它们,因为事务 B 中的条目将不可见,即使columnar.stripe它们对事务 A 可见。

每个stripe包含15chunk,每个chunk最多包含10,000行,每个chunk的元数据存储在columnar.chunk。该表可以根据chunk的最小值和最大值过滤chunk。每个chunk列在该表都有记录,因此执行过滤(WHERE)时,将根据最小值和最大值在读取chunk前检查这些值。

由于Hydra列存最初不可变,仅能追加,需要一些方法来标记列存外更新和删除的行。为此,添加了一个columnar.row_mask堆表来检查是否应跳过一行,从而模拟DML功能。

表的定义columnar.row_mask

    CREATE TABLE row_mask (
        id BIGINT NOT NULL,
        storage_id BIGINT NOT NULL,
        start_row_number BIGINT NOT NULL,
        end_row_number BIGINT NOT NULL,
        mask BYTEA,
        PRIMARY KEY (id, storage_id, start_row_number, end_row_number)
    ) WITH (user_catalog_table = true);
    ALTER TABLE columnar.row_mask ADD CONSTRAINT row_mask_stripe_unique
    UNIQUE (storage_id, start_row_number);

    每个columnar.row_mask条目都与一个写入的chunk相关联。当刷写stripe时,也会为stripe中的每个chunk创建一个条目。该表几乎是完全静态的——除了mask之外的所有列都不会改变。mask是一个字节数组,其中每个位对应块中的一行--对于每个块,最多使用 1125 个字节。最初所有位都设置为零(可见)。当删除一行时,我们会将相应的位设置为1,表示扫描时应跳过该行。

    Hydra的列存DELETE命令使用每个row_mask行的mask列逻辑标记已经删除的行,并在未来查询中隐藏他们。UPDATE命令类似,组合DELETEINSERT操作,但是不会为逻辑删除的元组和新插入的元组之间留下任何链接。

    列存表并发修改时锁表粒度是全表。


    最佳实践


    检查行是否被删除有一些开销——每扫描 100 万行大约需要 2 毫秒。只有在未过滤的情况下才会检查行,因此性能取决于WHERE查询中的子句。此外,不会检查没有删除行的块,这意味着未修改数据的性能非常快。

    更新和删除数据的速度远不如插入数据快,因此应该谨慎进行。如果我们预计数据不会更改,则列式存储效果最好。由于每个事务都会创建一个stripe,因此理想情况下,您应该在单个批处理事务中执行尽可能多的更新。我们将在未来的版本中研究优化此行为。


    下一步


    计划通过VACUUM回收未使用的空间。通过堆表来对其进行并发控制。

    GitHub分支地址:https://github.com/hydradatabase/hydra


    原文


    https://blog.hydra.so/blog/2023-03-02-columnar-updates-and-deletes

    相关实践学习
    使用PolarDB和ECS搭建门户网站
    本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
    阿里云数据库产品家族及特性
    阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
    目录
    相关文章
    |
    3月前
    |
    关系型数据库 Serverless 分布式数据库
    【公测】PolarDB PostgreSQL版Serverless功能免费使用​!
    【公测】PolarDB PostgreSQL版Serverless功能免费使用​,公测于2024年3月28日开始,持续三个月,公测期间可以免费使用!
    |
    10月前
    |
    存储 关系型数据库 数据库
    深入了解 PostgreSQL:功能、特性和部署
    PostgreSQL,通常简称为Postgres,是一款强大且开源的关系型数据库管理系统(RDBMS),它在数据存储和处理方面提供了广泛的功能和灵活性。本文将详细介绍 PostgreSQL 的功能、特性以及如何部署和使用它。
    536 1
    深入了解 PostgreSQL:功能、特性和部署
    |
    10月前
    |
    存储 NoSQL 关系型数据库
    PostgreSQL列存扩展hydra简单测试
    Hydra是一款PostgreSQL的扩展,为PostgreSQL增加了列存引擎,使得PostgreSQL的olap性能大幅提升,本文介绍Hydra基本的使用方法。
    1410 1
    |
    3月前
    |
    关系型数据库 Serverless 分布式数据库
    PolarDB PostgreSQL版Serverless功能上线公测啦,公测期间免费使用!
    Serverless数据库能够使得数据库集群资源随客户业务负载动态弹性扩缩,将客户从复杂的业务资源评估和运维工作中解放出来。PolarDB PostgreSQL版 Serverless提供了CPU、内存、存储、网络资源的实时弹性能力,构建计算与存储分离架构下的 PolarDB PostgreSQL版产品新形态。
    |
    3月前
    |
    SQL 关系型数据库 分布式数据库
    在PolarDB for PostgreSQL中,你可以使用LIKE运算符来实现类似的查询功能,而不是使用IF函数
    在PolarDB for PostgreSQL中,你可以使用LIKE运算符来实现类似的查询功能,而不是使用IF函数
    71 7
    |
    3月前
    |
    SQL 关系型数据库 分布式数据库
    在PolarDB for PostgreSQL中,你可以使用LIKE运算符来实现类似的查询功能
    在PolarDB for PostgreSQL中,你可以使用LIKE运算符来实现类似的查询功能【1月更文挑战第13天】【1月更文挑战第65篇】
    51 2
    |
    3月前
    |
    关系型数据库 Linux Shell
    Centos系统上安装PostgreSQL和常用PostgreSQL功能
    Centos系统上安装PostgreSQL和常用PostgreSQL功能
    |
    10月前
    |
    关系型数据库 MySQL 分布式数据库
    PolarDB MySQL版重磅推出的列存索引(
    PolarDB MySQL版重磅推出的列存索引(
    367 1
    |
    11月前
    |
    SQL 关系型数据库 MySQL
    功能强大的PostgreSQL没有MySQL流行的10个原因
    本篇文章总结了为什么功能强大的PostgreSQL没有像MySQL一样流行的10个原因。玖章算术CEO叶正盛从产品功能、技术架构、生态、品牌商业等多个方面进行了分析,并指出了MySQL在流行度上的优势。文章还讨论了数据库在不同领域的竞争力和展望,并提到了PostgreSQL在中国信创产业发展中可能迎来新的机会。总体而言,这篇文章提供了关于MySQL和PostgreSQL的综合比较和评估。
    128 0
    功能强大的PostgreSQL没有MySQL流行的10个原因
    |
    关系型数据库 分布式数据库 PolarDB
    《阿里云产品手册2022-2023 版》——PolarDB for PostgreSQL
    《阿里云产品手册2022-2023 版》——PolarDB for PostgreSQL
    334 0