PolarDB for PostgreSQL 开源必读手册-VACUUM处理(中)

本文涉及的产品
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
云原生数据库 PolarDB MySQL 版,通用型 2核8GB 50GB
简介: PolarDB for PostgreSQL 开源必读手册-VACUUM处理

接上篇 :https://developer.aliyun.com/article/1223091?spm=a2c6h.13148508.setting.21.44ec4f0eNvAByn



做vacuum时,正常情况下需要将表的所有数据扫描一遍。为了提高效率,PolarDB使用了VM(可见性地图)数据文件。

 

如上图,比如当前有三个数据块,第二块里不包含被删除的行,则VM会将其标识为1。后续做vacuum时,会跳过VM=1的页,提高vacuum的效率。

 

9.6版本以后,可见性地图除了提高 vacuum的效率以外,同时也提高了冻结的效率。

 

image.png

 

数据库为了描述事务操作的先后顺序,会为事务分配ID号,即TxID。

 

TxID不会无限增大,而是循环使用。最大的可用事务ID为42亿,PolarDB将其分为两半,前21亿代表“过去的或当前正在用的”,此类事务ID修改的行为对用户可见;而后21亿事务ID代表“未来的”,修改的函数不可见。

 

两个部分的21亿事务ID可以循环使用。比如前面的21亿使用完以后,再用后面的21亿,使用完以后再重新使用前面的21亿。

 

image.png

 

冻结主要针对可见性规则。

 

比如当前正在使用后21亿的TxID,而前21亿中某个数据块里仍有数据,需要对用户可见。因此,将其标记为冻结,使得其可见。

 

冻结处理分为懒惰模式和急切模式。懒惰模式指每次小部分、分批次地进行冻结,类似于日常做卫生;急切模式指大批量地冻结,类似于年终大扫除。

 

image.png

 

惰性冻结的公式中,OldestXmin指当前最小的事务id,vacuum_freeze_min_age是一个固定参数,默认为5000万。

 

image.png

 

以上图为例,假设当前的最小事务id为50002500,意味着要将小于或等于2500的ID都冻结。

 

冻结时,首先会先判断VM值,如果VM为1(当前数据块内不存在被删除的行),则跳过,不对其进行冻结。然后判断每一个块内每一行的事务id,如果id<=2500,则在其某一位上标记为frozen;若id>2500,则跳过。比如上图中Turple9内最后一行id为3000,因此不冻结。

 

image.png

 

急性冻结的触发条件为:自上一次急性冻结后,TxID使用了1亿5000万后会再次触发。

 

image.png

 

如上图,如果从未做过急性冻结,则datfrozenxid默认为560。发生急性冻结后,datfrozenxid会变为该次急性冻结的TxID。

 

image.png

 

如上图所示,当前最小的事务id为150002000,150002000-5000000=100002000,因此事务id小于100002000的行全部进行冻结。

 

比如当前有三个块,PolarDB会对三个块全部进行扫描,事务ID小于100002000的,在该行某一位做frozen标记。

 

可以理解为,只有很早以前的事务修改的行会被冻结,最新修改的行不冻结。


接下篇:https://developer.aliyun.com/article/1223089?groupCode=polardbforpg

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍如何基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
8月前
|
存储 NoSQL 关系型数据库
PolarDB开源数据库进阶课17 集成数据湖功能
本文介绍了如何在PolarDB数据库中接入pg_duckdb、pg_mooncake插件以支持数据湖功能, 可以读写对象存储的远程数据, 支持csv, parquet等格式, 支持delta等框架, 并显著提升OLAP性能。
455 2
|
5月前
|
存储 Cloud Native 关系型数据库
PolarDB开源:云原生数据库的架构革命
本文围绕开源核心价值、社区运营实践和技术演进路线展开。首先解读存算分离架构的三大突破,包括基于RDMA的分布式存储、计算节点扩展及存储池扩容机制,并强调与MySQL的高兼容性。其次分享阿里巴巴开源治理模式,涵盖技术决策、版本发布和贡献者成长体系,同时展示企业应用案例。最后展望技术路线图,如3.0版本的多写多读架构、智能调优引擎等特性,以及开发者生态建设举措,推荐使用PolarDB-Operator实现高效部署。
276 3
|
5月前
|
SQL 关系型数据库 分布式数据库
PolarDB开源数据库入门教程
PolarDB是阿里云推出的云原生数据库,基于PostgreSQL、MySQL和Oracle引擎构建,具备高性能、高扩展性和高可用性。其开源版采用计算与存储分离架构,支持快速弹性扩展和100%兼容PostgreSQL/MySQL。本文介绍了PolarDB的安装方法(Docker部署或源码编译)、基本使用(连接数据库、创建表等)及高级特性(计算节点扩展、存储自动扩容、并行查询等)。同时提供了性能优化建议和监控维护方法,帮助用户在生产环境中高效使用PolarDB。
1634 21
|
5月前
|
Cloud Native 关系型数据库 分布式数据库
PolarDB开源:云原生数据库的新篇章
阿里云自研的云原生数据库PolarDB于2023年5月正式开源,采用“存储计算分离”架构,具备高性能、高可用及全面兼容性。其开源版本提供企业级数据库解决方案,支持MySQL、PostgreSQL和Oracle语法,适用于高并发OLTP、核心业务系统等场景。PolarDB通过开放治理与开发者工具构建完整生态,并展望更丰富的插件功能与AI集成,为中国云原生数据库技术发展贡献重要力量。
463 17
|
5月前
|
存储 关系型数据库 分布式数据库
PolarDB开源进阶篇:深度解析与实战优化指南
PolarDB是阿里云开源的云原生数据库,采用计算-存储分离架构,结合高性能共享存储与Parallel Raft多副本一致性协议,实现微秒级延迟和卓越性能。本文深入解析其架构设计,涵盖智能调度层、性能优化技巧(如查询优化器调优和分布式事务提升)、高可用与容灾配置、扩展功能开发指南以及监控运维体系。同时,通过电商平台优化案例展示实际应用效果,并展望未来演进方向,包括AI结合、多模数据库支持及Serverless架构发展。作为云原生数据库代表,PolarDB为开发者提供了强大支持和广阔前景。
293 16
|
8月前
|
关系型数据库 分布式数据库 数据库
喜报|PolarDB开源社区荣获“2024数据库国内活跃开源项目”奖
喜报|PolarDB开源社区荣获“2024数据库国内活跃开源项目”奖
133 1
|
8月前
|
存储 关系型数据库 分布式数据库
PolarDB开源数据库进阶课18 通过pg_bulkload适配pfs实现批量导入提速
本文介绍了如何修改 `pg_bulkload` 工具以适配 PolarDB 的 PFS(Polar File System),从而加速批量导入数据。实验环境依赖于 Docker 容器中的 loop 设备模拟共享存储。通过对 `writer_direct.c` 文件的修改,替换了一些标准文件操作接口为 PFS 对应接口,实现了对 PolarDB 15 版本的支持。测试结果显示,使用 `pg_bulkload` 导入 1000 万条数据的速度是 COPY 命令的三倍多。此外,文章还提供了详细的步骤和代码示例,帮助读者理解和实践这一过程。
253 0
|
8月前
|
存储 关系型数据库 分布式数据库
PolarDB开源数据库进阶课16 接入PostGIS全功能及应用举例
本文介绍了如何在PolarDB数据库中接入PostGIS插件全功能,实现地理空间数据处理。此外,文章还提供了使用PostGIS生成泰森多边形(Voronoi diagram)的具体示例,帮助用户理解其应用场景及操作方法。
362 1
|
6月前
|
关系型数据库 分布式数据库 数据库
一库多能:阿里云PolarDB三大引擎、四种输出形态,覆盖企业数据库全场景
PolarDB是阿里云自研的新一代云原生数据库,提供极致弹性、高性能和海量存储。它包含三个版本:PolarDB-M(兼容MySQL)、PolarDB-PG(兼容PostgreSQL及Oracle语法)和PolarDB-X(分布式数据库)。支持公有云、专有云、DBStack及轻量版等多种形态,满足不同场景需求。2021年,PolarDB-PG与PolarDB-X开源,内核与商业版一致,推动国产数据库生态发展,同时兼容主流国产操作系统与芯片,获得权威安全认证。
|
3月前
|
存储 关系型数据库 分布式数据库
喜报|阿里云PolarDB数据库(分布式版)荣获国内首台(套)产品奖项
阿里云PolarDB数据库管理软件(分布式版)荣获「2024年度国内首版次软件」称号,并跻身《2024年度浙江省首台(套)推广应用典型案例》。

相关产品

  • 云原生数据库 PolarDB
  • 推荐镜像

    更多