【赵渝强老师】PostgreSQL的并行查询

本文涉及的产品
RDS PostgreSQL Serverless,0.5-4RCU 50GB 3个月
推荐场景:
对影评进行热评分析
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云原生数据库 PolarDB 分布式版,标准版 2核8GB
简介: PostgreSQL的并行查询功能通过多CPU提升查询速度,尤其适用于处理大量数据但返回少量结果的场景。它利用Leader进程、Gather节点和Worker线程协作完成查询任务,显著提高性能。本文详细解析其工作原理及适用场景,并通过实例展示开启与关闭并行查询的性能差异。

b372.png

PostgreSQL能设计出利用多CPU让查询更快的查询计划。这种特性被称为并行查询。对于那些可以从并行查询获益的查询来说,并行查询带来的速度提升是显著的。很多查询在使用并行查询时比之前快了超过两倍,有些查询是以前的四倍甚至更多的倍数。那些访问大量数据但只返回其中少数行给用户的查询最能从并行查询中获益。


视频讲解如下:


一、 并行查询如何工作


PostgreSQL的并行化包含三个重要组件:进程本身(Leader进程)、Gather、Workers。没有开启并行化的时候,进程自身处理所有的数据;一旦计划器决定某个查询或查询中部分可以使用并行的时候,就会在查询的并行化部分添加一个Gather节点,将Gather节点作为子查询树的根节点,并根据并行查询的参数设置创建相应的Worker节点;最终由Worker节点执行相应的并行查询功能。PostgreSQL并行查询的工作原理如下图所示。

image.png


查询执行是从Leader进程开始。一旦开启了并行或查询中部分支持并行,就会分配一个gather节点和多个Worker线程。相关联的Blocks在各个Worker线程之间划分。Worker的数量受PostgreSQL的配置参数控制。Worker之间使用共享内存相互协调和通信,一旦Worker完成了自己的工作,结果就被传给了Leader进程。


二、 何时会用到并行查询?


要了解并行查询之前,首先介绍一下顺序扫描。下面通过一个例子来说明。


(1)创建一张表并插入数据,执行一个简单的查询,并输出执行计划。

mydemodb=# create table testtable1(tid int,tname varchar(20));
mydemodb=# insert into testtable1 values(0,'aaaa');
mydemodb=# explain select * from testtable1;
# 输出的信息如下:
                          QUERY PLAN                           
---------------------------------------------------------------
 Seq Scan on testtable1  (cost=0.00..22.70 rows=1270 width=36)
(1 row)
# 这里的Seq Scan表示顺序扫描。


(2)现在往表中插入5千万条数据。

mydemodb=# insert into testtable1 select n,'myname_'||n from generate_series(1,50000000) n;


(3)执行下面的查询,并输出执行计划。

mydemodb=# explain analyze 
           select * from testtable1 
       where tname ='myname_10';
# 输出的信息如下:
                            QUERY PLAN                      
-------------------------------------------------------------------
 Gather  (cost=1000.00..687114.39 rows=1 width=19) 
         (actual time=0.224..1884.530 rows=1 loops=1)
   Workers Planned: 2
   Workers Launched: 2
   ->  Parallel Seq Scan on testtable1 (cost=0.00..686114.29 rows=1 width=19) 
        (actual time=2370.242..4742.404 rows=0 loops=2)
         Filter: (tname = 'myname_10'::text)
         Rows Removed by Filter: 25000000
 Planning Time: 0.051 ms
 Execution Time: 1884.549 ms
其中:
(*)Workers Planned: 2 表示执行查询预估的并行进程数
(*)Workers Launched: 2表示实际启动的并行进程数
(*)Parallel Seq Scan on testtable1表示对表进行了并行的顺序扫描


(4)关闭并行查询,并重新生成上面的执行计划。

mydemodb=# set max_parallel_workers_per_gather = 0;
mydemodb=# explain analyze select * from testtable1 where tname ='myname_10';
# 输出的信息如下:
                            QUERY PLAN                      
-----------------------------------------------------------------
 Seq Scan on testtable1  (cost=0.00..943470.90 rows=1 width=19) 
                         (actual time=0.028..3608.929 rows=1 loops=1)
   Filter: (tname = 'myname_10'::text)
   Rows Removed by Filter: 49999999
 Planning Time: 0.215 ms
 Execution Time: 3608.948 ms
# 从这里的测试可以得出结论:
# 开启了并行查询耗时1884毫秒;
# 关闭并行查询后,耗时3608毫秒。性能降低了一倍。


下表列举出了影响并行查询的相关参数及其含义。

image.png

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍如何基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
9月前
|
存储 关系型数据库 数据库
【赵渝强老师】PostgreSQL的段、区和块
PostgreSQL的逻辑存储结构包括数据库集群、数据库、表空间、段、区、块等,以及表、索引、视图等数据库对象。每个对象有唯一的oid标识符,存储于系统目录表中。段、区、块是数据存储的基本单元,其中块是I/O操作的最小单位,默认大小为8KB。通过合理配置这些结构,可以优化数据库性能。
211 60
【赵渝强老师】PostgreSQL的段、区和块
|
9月前
|
存储 关系型数据库 数据库
【赵渝强老师】PostgreSQL的服务器日志文件
本文介绍了PostgreSQL数据库的物理存储结构,重点讨论了服务器日志文件。通过`pg_ctl`命令启动PostgreSQL实例时,使用`-l`参数指定日志文件位置,记录数据库启动、运行及关闭过程中的关键信息。附有相关视频讲解和日志文件示例。
263 0
|
3月前
|
存储 关系型数据库 分布式数据库
【赵渝强老师】基于PostgreSQL的分布式数据库:Citus
Citus 是基于 PostgreSQL 的开源分布式数据库,采用 shared nothing 架构,具备良好的扩展性。它以插件形式集成,部署简单,适用于处理大规模数据和高并发场景。本文介绍了 Citus 的基础概念、安装配置步骤及其在单机环境下的集群搭建方法。
228 2
|
4月前
|
Oracle 关系型数据库 数据库
【赵渝强老师】在PostgreSQL中访问Oracle
本文介绍了如何在PostgreSQL中使用oracle_fdw扩展访问Oracle数据库数据。首先需从Oracle官网下载三个Instance Client安装包并解压,设置Oracle环境变量。接着从GitHub下载oracle_fdw扩展,配置pg_config环境变量后编译安装。之后启动PostgreSQL服务器,在数据库中创建oracle_fdw扩展及外部数据库服务,建立用户映射。最后通过创建外部表实现对Oracle数据的访问。文末附有具体操作步骤与示例代码。
148 6
【赵渝强老师】在PostgreSQL中访问Oracle
|
4月前
|
关系型数据库 数据库 PostgreSQL
【赵渝强老师】在PostgreSQL中使用file_fdw访问外部文件系统
本文介绍了PostgreSQL的file_fdw扩展,它支持直接从数据库访问服务器文件系统中的文件,文件格式需为text、csv或binary。内容涵盖从编译安装扩展、配置postgresql.conf参数、重启数据库实例,到创建扩展、外部文件服务及外部表的完整流程,并通过具体示例展示如何查询外部表数据,同时附有视频讲解以帮助理解操作步骤。
144 22
|
4月前
|
关系型数据库 数据库 PostgreSQL
【赵渝强老师】使用postgre_fdw访问外部PostgreSQL
本文介绍了如何使用postgres_fdw扩展让PostgreSQL访问外部远端数据库数据。通过编译安装扩展、修改配置文件、重启数据库、创建扩展及外部服务器对象等步骤,最终实现本地数据库通过外部表访问远程数据。附带视频讲解,详细演示操作流程,并提醒需调整远端PostgreSQL配置以支持远程登录。
|
10月前
|
存储 关系型数据库 数据库
【赵渝强老师】PostgreSQL的数据库
PostgreSQL的逻辑存储结构涵盖数据库集群、数据库、表、索引、视图等对象,每个对象有唯一的oid标识。数据库集群包含多个数据库,每个数据库又包含多个模式,模式内含表、函数等。通过特定SQL命令可查看和管理这些数据库对象。
143 4
|
5月前
|
SQL 关系型数据库 数据库
【赵渝强老师】创建PostgreSQL的数据库
本文介绍了在PostgreSQL中通过SQL命令“create database”创建数据库的方法。首先查询系统目录pg_database以查看现有数据库集合,然后使用“create database”命令创建新数据库,并了解其在$PDATA/base目录下对应的文件夹生成。最后重新查询数据库集合确认创建结果,附带视频讲解便于理解操作步骤及注意事项。
128 1
|
6月前
|
SQL 关系型数据库 数据库
【赵渝强老师】使用PostgreSQL客户端工具
PostgreSQL数据库服务器安装配置完成后,用户可以使用客户端工具连接并操作数据库。本文重点介绍两款常用的PostgreSQL客户端工具:命令行客户端psql和图形化客户端pgAdmin。 **psql**是PostgreSQL自带的命令行工具,支持交互式和非交互式模式。交互式模式下,用户可以直接输入SQL命令进行操作;非交互式模式则通过执行脚本文件来完成任务。 **pgAdmin**是一款功能全面的图形化管理工具,支持Linux、Windows和Mac OS X系统。 通过这两种工具,用户可以高效地管理和操作PostgreSQL数据库。
262 12
【赵渝强老师】使用PostgreSQL客户端工具
|
6月前
|
关系型数据库 数据库 PostgreSQL
【赵渝强老师】PostgreSQL的模板数据库
在PostgreSQL中,创建新数据库时,默认通过拷贝`template1`实现。`template1`包含标准系统对象,可自定义以影响新数据库内容;而`template0`是纯净模板,仅含预定义对象且不应修改。视频讲解和代码示例展示了如何查看现有数据库信息及标识字段的作用。 ![图示](https://ucc.alicdn.com/pic/developer-ecology/yub6x2mlkqwck_398ed06397a44c2d9bfbb5ae5c90bbc0.png) [视频链接](https://www.bilibili.com/video/BV1szyfY4EQn)
109 0
【赵渝强老师】PostgreSQL的模板数据库

推荐镜像

更多