【赵渝强老师】PostgreSQL数据库的WAL日志与数据写入的过程

简介: PostgreSQL中的WAL(预写日志)是保证数据完整性的关键技术。在数据修改前,系统会先将日志写入WAL,确保宕机时可通过日志恢复数据。它减少了磁盘I/O,提升了性能,并支持手动切换日志文件。WAL文件默认存储在pg_wal目录下,采用16进制命名规则。此外,PostgreSQL提供pg_waldump工具解析日志内容。

副本_副本_副本_副本_副本_副本_副本_副本_副本_副本_副本_副本_副本_Oracle-课程封面__2025-08-11+20_34_37.png

PostgreSQL中的WAL是Write Ahead Logging的缩写,即预写日志,它是保证数据完整性的一种标准方法。简单来说就是在PostgreSQL数据库中要对数据文件进行修改时必须先写入WAL日志信息,即当WAL日志记录完成了持久化,刷新到永久储存之后才能更改数据文件。根据这个原则就不需要在每次提交事务的时候都刷新数据到磁盘。因为当数据库出现宕机发生数据丢失时,可以重新执行WAL日志来达到恢复数据库的目的。因此WAL日志也可以叫做redo重做日志,因为任何没有写到数据文件上的改动都可以根据日志记录进行重做。在默认的情况下,单个WAL预写日志文件的大小是16M,通过参数wal_segment_size决定。


postgres=# show wal_segment_size;
 wal_segment_size 
------------------
 16MB
(1 row)

# 源码安装编译的时候可以通过指定下面的参数更改其大小:
./configure --with-wal-segsize=target_value


在默认情况下,WAL日志保存在pg_wal目录下,例如:

[postgres@mydb pg_wal]$ pwd
/home/postgres/training/pgsql/data/pg_wal
[postgres@mydb pg_wal]$ tree
.
├── 000000010000000000000001
└── archive_status


WAL日志文件名称为16进制的24个字符组成,每8个字符一组,每组的意义如下:

00000001  00000000  00000001
时间线    逻辑ID      物理ID


当一个WAL预写日志文件写满时会自动切换到下一个WAL预写日志文件,而WAL切换的方式也可以是手动切换。例如,当执行pg_switch_wal()后WAL会切换到新的日志。下面展示了操作的过程:

-- 查看当前已有的WAL日志文件
postgres=# select * from pg_ls_waldir();
           name           |   size   |      modification      
--------------------------+----------+------------------------
 000000010000000000000001 | 16777216 | 2025-07-20 22:04:53+08
(1 row)

-- 进行WAL的手动切换
postgres=# select pg_switch_wal();
 pg_switch_wal 
---------------
 0/15BADD0
(1 row)

-- 再次查看当前已有的WAL日志文件
postgres=# select * from pg_ls_waldir();
           name           |   size   |      modification      
--------------------------+----------+------------------------
 000000010000000000000001 | 16777216 | 2025-07-20 22:06:31+08
 000000010000000000000002 | 16777216 | 2025-07-20 22:06:31+08
(2 rows)


通过查看pg_wal目录,此时将生成一个新的WAL日志文件:

[postgres@mydb pg_wal]$ tree
.
├── 000000010000000000000001
├── 000000010000000000000002
└── archive_status
1 directory, 2 files


PostgreSQL数据库使用WAL优势主要有以下两个方面:

  • 首先,由于在数据库数据发生变更时会先将WAL日志缓冲区中的重做日志写入磁盘,因此即使在数据库发生宕机时,数据缓冲区中的数据还没有全部写入到永久存储中的情况下,也可以通过磁盘上的WAL日志信息来恢复数据库丢失的数据;
  • 其次,在提交事务操作时仅仅是把WAL日志写入到磁盘上,并不会将数据刷新到磁盘。因此,从I/O次数来说,刷新WAL日志的次数要比刷新数据文件的次数少得多;从IO花销来说,WAL刷新是连续I/O,而数据刷新是随机I/O,因此,WAL刷新花销小得多。


WAL机制在保证事务持久性和数据完整性的同时,成功地提升了系统性能。下图说明了数据提交与WAL日志写入时的关系。

image.png


视频讲解如下:


在postgresql.conf文件中关于WAL的配置参数主要有以下几个:

wal_level = replica
fsync = on
max_wal_size = 1GB
min_wal_size = 80MB

# 其中:
# wal_level参数的可选的值有以下三个,级别依次增高,记录的WAL信息也越多。
# (1)minimal:不能通过基础备份和WAL日志恢复数据库。
# (2)replica:该级别支持WAL归档和复制。
# (3)logical:在replica级别的基础上添加了支持逻辑解码所需的信息。
#
# fsync:强制同步来实现数据安全保证。

# 当WAL日志文件的大小超过max_wal_size参数设置时,将发生WAL日志信息的覆盖,
# 从而造成日志信息的丢失。因此为了保证数据的安全,建议在生产环境中开启WAL的归档模式。


由于WAL日志文件采用了二进制的形式存储日志信息,因此PostgreSQL提供了工具pg_waldump帮助获取WAL日志文件中记录的日志信息,例如:

[postgres@mydb pgsql]$ pwd
/home/postgres/training/pgsql
[postgres@mydb pgsql]$ bin/pg_waldump \
> data/pg_wal/000000010000000000000002

# 输出的信息如下:
rmgr: Standby     len (rec/tot):     50/    50, tx:          0, lsn: 0/02000028, prev 0/015BADB8, desc: RUNNING_XACTS nextXid 485 latestCompletedXid 484 oldestRunningXid 485
rmgr: Standby     len (rec/tot):     50/    50, tx:          0, lsn: 0/02000060, prev 0/02000028, desc: RUNNING_XACTS nextXid 485 latestCompletedXid 484 oldestRunningXid 485
rmgr: XLOG        len (rec/tot):    114/   114, tx:          0, lsn: 0/02000098, prev 0/02000060, desc: CHECKPOINT_ONLINE redo 0/2000060; tli 1; prev tli 1; fpw true; xid 0:485; oid 13581; multi 1; offset 0; oldest xid 478 in DB 1; oldest multi 1 in DB 1; oldest/newest commit timestamp xid: 0/0; oldest running xid 485; online
rmgr: Standby     len (rec/tot):     50/    50, tx:          0, lsn: 0/02000110, prev 0/02000098, desc: RUNNING_XACTS nextXid 485 latestCompletedXid 484 oldestRunningXid 485




相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍如何基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
4月前
|
Oracle 关系型数据库 Linux
【赵渝强老师】Oracle数据库配置助手:DBCA
Oracle数据库配置助手(DBCA)是用于创建和配置Oracle数据库的工具,支持图形界面和静默执行模式。本文介绍了使用DBCA在Linux环境下创建数据库的完整步骤,包括选择数据库操作类型、配置存储与网络选项、设置管理密码等,并提供了界面截图与视频讲解,帮助用户快速掌握数据库创建流程。
458 93
|
3月前
|
Oracle 关系型数据库 Linux
【赵渝强老师】使用NetManager创建Oracle数据库的监听器
Oracle NetManager是数据库网络配置工具,用于创建监听器、配置服务命名与网络连接,支持多数据库共享监听,确保客户端与服务器通信顺畅。
263 0
|
4月前
|
关系型数据库 MySQL 数据库
阿里云数据库RDS费用价格:MySQL、SQL Server、PostgreSQL和MariaDB引擎收费标准
阿里云RDS数据库支持MySQL、SQL Server、PostgreSQL、MariaDB,多种引擎优惠上线!MySQL倚天版88元/年,SQL Server 2核4G仅299元/年,PostgreSQL 227元/年起。高可用、可弹性伸缩,安全稳定。详情见官网活动页。
933 152
|
4月前
|
SQL 人工智能 监控
SLS Copilot 实践:基于 SLS 灵活构建 LLM 应用的数据基础设施
本文将分享我们在构建 SLS SQL Copilot 过程中的工程实践,展示如何基于阿里云 SLS 打造一套完整的 LLM 应用数据基础设施。
866 72
|
4月前
|
关系型数据库 MySQL 数据库
阿里云数据库RDS支持MySQL、SQL Server、PostgreSQL和MariaDB引擎
阿里云数据库RDS支持MySQL、SQL Server、PostgreSQL和MariaDB引擎,提供高性价比、稳定安全的云数据库服务,适用于多种行业与业务场景。
776 156
|
4月前
|
数据采集 运维 监控
不重启、不重写、不停机:SLS 软删除如何实现真正的“无感数据急救”?
SLS 全新推出的「软删除」功能,以接近索引查询的性能,解决了数据应急删除与脏数据治理的痛点。2 分钟掌握这一数据管理神器。
285 37
|
3月前
|
数据采集 缓存 大数据
【赵渝强老师】大数据日志采集引擎Flume
Apache Flume 是一个分布式、可靠的数据采集系统,支持从多种数据源收集日志信息,并传输至指定目的地。其核心架构由Source、Channel、Sink三组件构成,通过Event封装数据,保障高效与可靠传输。
288 1
|
3月前
|
SQL 存储 监控
SQL日志优化策略:提升数据库日志记录效率
通过以上方法结合起来运行调整方案, 可以显著地提升SQL环境下面向各种搜索引擎服务平台所需要满足标准条件下之数据库登记作业流程综合表现; 同时还能确保系统稳健运行并满越用户体验预期目标.
267 6
|
4月前
|
数据采集 关系型数据库 MySQL
python爬取数据存入数据库
Python爬虫结合Scrapy与SQLAlchemy,实现高效数据采集并存入MySQL/PostgreSQL/SQLite。通过ORM映射、连接池优化与批量提交,支持百万级数据高速写入,具备良好的可扩展性与稳定性。

推荐镜像

更多