【赵渝强老师】PostgreSQL中表的碎片

本文涉及的产品
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS AI 助手,专业版
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
简介: 本文详解PostgreSQL数据碎片成因(DELETE/UPDATE导致dead元组与块分裂)及清理方法,通过5000万行实测演示VACUUM如何释放物理空间、消除存储空洞,提升存储效率与查询性能。(239字)

b429.png

在PostgreSQL中删除行的时候,这些行只是被标记为“dead”,而不是真正从物理存储上进行删除了,因而空间也没有真的被释放回收。在PostgreSQL中除非进行自动的auto vacuum或者是手动的vacuum,否则数据块所占用的物理空间不会被回收。因此在物理存储空间被回收之前,会导致存储空间中存在很多空洞。如果表结构中包含动态长度字段,那么这些空洞甚至可能不能被PostgreSQL重新用来存储新的行。因此,大量随机的DELETE操作,必然会在数据文件中造成不连续的空白空间。而当插入数据时,这些空白空间也不会被利用起来,于是造成了数据的存储位置不连续。物理存储顺序与逻辑上的排序顺序不同,这种就是数据碎片。


对于大量的UPDATE,也会产生文件碎片化 , PostgreSQL的最小逻辑存储分配单位是数据块(Block),其默认值是8K。因此大量的更新操作也可能导致数据块的分裂(Block Split),即:同一个字段的数据可能存储在不同的数据块中。频繁的数据块分裂,会使得数据的存储变得稀疏,并且被不规则的数据填充,所以最终数据会有碎片。


视频讲解如下:


下面通过具体的步骤来演示如何清理表的碎片。

(1)创建一张新的表,并往表中插入5000万条记录

scott=# create table testfragement(tid int,tname varchar(20));
scott=# insert into testfragement select n,'myname_'||n from generate_series(1,50000000) n;


(2)查看表testfragement占用的容量大小。

scott=# select pg_size_pretty(pg_relation_size('testfragement'));
# 输出的结果如下:
 pg_size_pretty 
----------------
 2488 MB
(1 row)


(3)删除表中所有数据。

scott=# delete from testfragement;


(4)再次查看表testfragement占用的容量大小。

scott=# select pg_size_pretty(pg_relation_size('testfragement'));
# 输出的结果如下:
 pg_size_pretty 
----------------
 2488 MB
(1 row)
# 从输出的结果可以看出,尽管删除了表中的数据,表所占用的空间依然没有释放。


(5)查看表的状态信息。

scott=# \x
scott=# select * from pg_stat_user_tables where relname = 'testfragement';
# 输出的结果如下:
-[ RECORD 1 ]-------+------------------------------
relid               | 16574
schemaname          | public
relname             | testfragement
seq_scan            | 1
seq_tup_read        | 50000000
idx_scan            | 
idx_tup_fetch       | 
n_tup_ins           | 50000000
n_tup_upd           | 0
n_tup_del           | 50000000
n_tup_hot_upd       | 0
n_live_tup          | 0
n_dead_tup          | 49999426
n_mod_since_analyze | 0
n_ins_since_vacuum  | 0
last_vacuum         | 
last_autovacuum     | 2023-04-28 09:14:26.066678+08
last_analyze        | 
last_autoanalyze    | 2023-04-28 09:14:46.677939+08
vacuum_count        | 0
autovacuum_count    | 1
analyze_count       | 0
autoanalyze_count   | 1
其中:
n_live_tup 的数量是当前表的数据量。
n_dead_tup 的数据量是未回收的空间。
# 从参数n_dead_tup输出结果上看,表testfragement仍然占用了很多 ”空闲“ 数据块,其空间没有被回收。


(6)手动进行一下碎片的清理。

scott=# vacuum testfragement;
# 此时会产生后台相应的进程:
[root@mydb ~]# ps -ef|grep VACUUM
postgres  6649  3540 .... postgres: postgres [local] VACUUM


(7)再次查看一下表的状态

scott=# \x
scott=# select * from pg_stat_user_tables where relname = 'testfragement';
# 输出的信息如下:
-[ RECORD 1 ]-------+------------------------------
relid               | 16574
schemaname          | public
relname             | testfragement
seq_scan            | 1
seq_tup_read        | 50000000
idx_scan            | 
idx_tup_fetch       | 
n_tup_ins           | 50000000
n_tup_upd           | 0
n_tup_del           | 50000000
n_tup_hot_upd       | 0
n_live_tup          | 0
n_dead_tup          | 0
n_mod_since_analyze | 0
n_ins_since_vacuum  | 0
last_vacuum         | 2023-04-28 09:23:05.463206+08
last_autovacuum     | 2023-04-28 09:18:11.434888+08
last_analyze        | 
last_autoanalyze    | 2023-04-28 09:14:46.677939+08
vacuum_count        | 1
autovacuum_count    | 2
analyze_count       | 0
autoanalyze_count   | 1
# 参数n_live_tup和n_dead_tup都变成了0,这说明表所占用的空间已经被释放回收。


(8)重新查看表testfragement占用的容量大小。

scott=# select pg_size_pretty(pg_relation_size('testfragement'));
# 输出的结果如下:
 pg_size_pretty 
----------------
 0 bytes
(1 row)
相关文章
|
2月前
|
SQL 监控 关系型数据库
PL/pgSQL 入门教程(五):触发器
PostgreSQL触发器是数据库的“自动服务员”,可在INSERT/UPDATE/DELETE等操作时自动执行校验、日志记录、汇总更新等逻辑。支持BEFORE/AFTER/INSTEAD OF时机,ROW/STATEMENT级别,配合NEW/OLD变量实现灵活数据管控,大幅提升数据一致性与运维效率。
|
2月前
|
SQL 存储 关系型数据库
PL/pgSQL 入门教程(一):语法篇
本教程为PL/pgSQL入门首篇,系统讲解其核心基础与语法规则。涵盖函数创建、块结构、变量声明、参数传递、返回类型及排序规则等关键知识点,助你掌握在PostgreSQL中编写高效存储过程与函数的必备技能,提升数据库逻辑处理能力。
|
23天前
|
人工智能 缓存 关系型数据库
Apache Doris 4.0.3 版本正式发布
亲爱的社区小伙伴们,**Apache Doris 4.0.3 版本已正式发布。**此版本新增了在 AI & Search、湖仓一体、查询引擎等方面的能力,并同步进行了多项优化改进及问题修复,欢迎下载体验!
161 8
|
17天前
|
SQL 人工智能 自然语言处理
我用DataClaw打造了一个7X24小时的数据助理
阿里云DMS DataClaw是7×24小时AI数据助理,支持自然语言提工单、智能巡检、多任务编排、SQL风险预审等9项硬功能,原生集成DMS安全体系,覆盖MySQL/Oracle等60+数据源。现在可免费试用,快来体验吧。
550 9
|
数据库
kettle开发篇-合并记录
kettle开发篇-合并记录
1313 0
|
13天前
|
安全 关系型数据库 MySQL
Linux 安装 mysql 【基于 tar.gz | tar.xz安装包-离线安装】
本文详细介绍了MySQL 8.0.45的Linux源码安装全流程:从官网下载tar.xz包,创建专用mysql用户,解压配置、初始化数据库、编写my.cnf、启动服务、设置开机自启及环境变量,最后修改初始密码。步骤清晰,安全规范,适用于生产环境部署。(239字)
|
26天前
|
人工智能 数据可视化 Java
AI智能体的开发方法
本文系统梳理国内AI智能体开发全景:从“感知-决策-行动-记忆”认知闭环架构出发,对比Dify、Coze等低代码平台与LangGraph、AgentScope、Eino、Spring AI Alibaba等编程级框架;解析MCP协议、RAG技术栈等基础设施;并按MVP、企业级、极客定制三类场景给出选型建议。(239字)
|
2月前
|
人工智能 运维 前端开发
从极速复制“死了么”APP,看AI编程时代的技术选型
本文以爆款 App“死了么”为例,讲述在AI时代如何通过 Supabase 等 BaaS 服务实现极简全栈开发。借助AI编程工具与无服务器架构,开发者可快速完成从创意到上线的全流程,降低后端复杂度,聚焦核心业务逻辑,实现低成本、高效率的 MVP 落地。
|
27天前
|
人工智能 测试技术 UED
测试工程师如何用AI拆需求?从“看不懂”到“可测试”
本文分享测试工程师如何巧用AI破解需求理解难题:不直接让AI写用例,而是分六步——先让AI“翻译”需求为可测试语言;再拆解为清晰测试维度;继而查漏补缺边界场景;最后批量生成规范用例。核心是人控方向、AI提效,把“看不懂”转化为“可测试”,守住测试人的判断力与风险意识。
|
26天前
|
人工智能 安全 机器人
【喂奶级教程】手把手教你阿里云部署OpenClaw,让AI助手在聊天软件里帮你干活
2026年的AI自动化领域,OpenClaw(原Clawdbot、Moltbot)凭借**自然语言驱动执行、本地+云端双适配、插件化生态扩展**的核心能力,成为个人与企业打造专属AI助手的标杆工具。它彻底打破了传统对话式AI“只说不做”的局限,以WebSocket网关为核心架构,能安全执行系统命令、操作文件、控制浏览器、对接多端办公工具,真正实现“一句话搞定所有重复性工作”。阿里云作为国内领先的云服务平台,对OpenClaw完成了全生态整合,推出**专属预置镜像、轻量应用服务器一键部署、百炼大模型无缝对接**等优化方案,将原本需要专业开发能力的部署流程,简化为零基础用户也能轻松上手的“点选+复
689 0