高性能特性体验：ePQ 的详解与实战-阿里云开发者社区

高性能特性体验：ePQ 的详解与实战

2023-09-16 1480

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： PolarDB PostgreSQL 引擎提供了弹性跨机并行查询（elastic Parallel Execution）的功能，支持多个计算节点分布式地执行 SQL 查询。本实验将体验该功能。

高性能特性体验：ePQ 的详解与实战

1. 创建资源

开始实验之前，您需要先创建实验相关资源。

在实验室页面，单击创建资源。
（可选）在实验室页面左侧导航栏中，单击云产品资源列表，可查看本次实验资源相关信息（例如IP地址、子用户信息等）。

说明：资源创建过程需要3～5分钟（视资源不同开通时间有所差异，ACK等资源开通时间较长）。完成实验资源的创建后，您可以在云产品资源列表查看已创建的资源信息，例如：子用户名称、子用户密码、AK ID、AK Secret、资源中的项目名称等。

实验环境一旦开始创建则进入计时阶段，建议学员先基本了解实验具体的步骤、目的，真正开始做实验时再进行创建。

资源创建成功，可在左侧的资源卡片中查看相关资源信息以及RAM子账号信息

2. 连接数据库准备

本实验将通过 psql 来连接 PolarDB for PostgreSQL 数据库。

登录阿里云控制台，选择 PolarDB PG 实例

首先打开桌面的 Chrome 浏览器，使用左侧给出的子用户名称和子用户密码登录。

登录成功后，搜索并进入 PolarDB 的控制台：

进入控制台以后，点击全局概览，可以看到正在运行中的 PolarDB for PostgreSQL 实例。

点击这个实例查看详情：

创建高权限用户

对于一个新实例来说，我们需要创建一个新的用户才可以使用 PolarDB 实例。点击创建用户，创建一个名为 polardb 的高权限用户。

设置访问白名单

登录设置访问白名单

新增 IP 白名单分组

白名单内 IP 地址为 0.0.0.0/0 表示所有 IP 均可访问该 DB 数据库，比较危险 ，只推荐在测试环境下使用，生产环境中要把自己机器的 IP 地址添加入白名单中。

设置公网地址

点击这里进行申请，图中这里已经申请好了，所以按钮只有复制

创建数据库

由于通过 psql 无法直接连接 postgres 数据库，需要自己创建数据库

点击如下的登录数据库按钮

输入创建好的账号名和密码

成功登录 DMS 以后，点击左侧的 SQL 窗口，选择连接默认数据库 postgres ：

输入如下的创建数据库命令：

create database mypolardb;

执行结果如下图所示：

点击 LX 终端，输入云产品资源中提供的 ECS 机器，连接用户为 root，机器IP 和登录密码如左边所示

登录机器后，执行下面的命令：

yum install -y postgresql

安装成功后，即可通过 psql 连接数据库，连接命令如下：

psql -h 集群地址的公网地址 -p 端口（通常为1921） -U 你的用户名 DB名称 -W

说明：

（1）集群地址的公网地址：XXXXXX.rwlb.polardb-pg-public.rds.aliyuncs.com 。其中，填充集群地址的公网地址时，将 XXXXXX 替换为您申请公网链接地址填入的名称

（2）DB 命令：为上述步骤创建的 mypolardbpg

（3）psql 连接数据库输入密码时，终端机不显示，输入密码完成后直接按 Enter 键执行

接下来输入你刚刚设置的密码，登录成功后出现如下界面

连接成功出现如下窗口：

3. 准备数据

首先，我们需要创建表并导入数据。

后面我们将通过 ePQ 功能对这些表发起并行查询。

创建表并导入数据

-- create table
create table t1(c1 int,c2 int, c3 int, c4 int);
create table t2(c1 int,c2 int, c3 int, c4 int);
create table t3(c1 int,c2 int, c3 int, c4 int);
create table t4(c1 int,c2 int, c3 int, c4 int);
-- insert values
insert into t1 select generate_series(1,1000),generate_series(1,1000);
insert into t2 select generate_series(1,1000),generate_series(1,1000);
insert into t3 select generate_series(1,1000),generate_series(1,1000);
insert into t4 select generate_series(1,1000),generate_series(1,1000);

ePQ 可以对每个表设置最大的并行度（px_workers）。默认为 0 ，即不开启并行查询。这里，需要设置表的最大并行度。

alter table t1 set (px_workers = 100);
alter table t2 set (px_workers = 100);
alter table t3 set (px_workers = 100);
alter table t4 set (px_workers = 100);

设置成功后如下图所示：

这样，表的导入和最大并行度设置完成。

接下来会以 join, CTE, 子查询这三种分析型查询中最常见的语法来说明 ePQ 的使用。

本实验将介绍参数开关来使用 ePQ。

4. 通过参数开关使用 ePQ

接下来会以 join, CTE, 子查询这三种分析型查询中最常见的语法来说明 ePQ 的使用。

本节将介绍通过参数开关来使用 ePQ。

注意，这种方式打开开关只对单个会话有效，要想全局生效，需要通过阿里云控制台来进行更改。

打开 ePQ 开关，并设置并行度，polar_px_dop_per_node 表示单个结点内的 PX worker 并行度

set polar_enable_px=1;
set polar_px_dop_per_node=3;

执行成功如下图所示：

2. 打开计时

\timing on

3. 执行 join

执行下面的 SQL，我们先查看其查询计划，并展示运行时间。其中，只要出现 PolarDB PX Optimizer 则说明开启了 ePQ 查询

-- 执行计划
explain select sum(t1.c1), sum(t2.c2) from t1, t2 where t1.c1=t2.c2;
-- 运行结果
select sum(t1.c1), sum(t2.c2) from t1, t2 where t1.c1=t2.c2;

运行结果截图如下，出现时间和代价不同属于正常现象

4. 执行 CTE 语法

运行的 SQL 如下

-- 执行计划
explain with x as (select * from t1 where c1 < 50) select sum(x.c1), sum(x.c2) from x,t2 where x.c1=t2.c1;
-- 执行结果
with x as (select * from t1 where c1 < 50) select sum(x.c1), sum(x.c2) from x,t2 where x.c1=t2.c1;

执行结果如下图所示

5. 执行子查询

运行的 SQL 如下所示：

-- 执行计划
explain select sum(s.c1),sum(s.c2) from (select t1.c1 as c1,t1.c2 as c2 from t1,t2 where t1.c1=t2.c2 and t1.c1 < 100) s,t3 where s.c1
=t3.c1;
-- 运行结果
select sum(s.c1),sum(s.c2) from (select t1.c1 as c1,t1.c2 as c2 from t1,t2 where t1.c1=t2.c2 and t1.c1 < 100) s,t3 where 
s.c1=t3.c1;

执行截图如下：

6. 调整并行度

通过调整 polar_px_dop_per_node 可以更改 PX 的并行度，PX 并行度值可以通过计划看出，如下面的命令所示：

explain select count(*) from t1;
set polar_px_dop_per_node=6;
explain select count(*) from t1;

结果如下图所示：

计划中的 PX Coordinator 3:1 变成了 PX Coordinator 6:1，segments 也由 3 变成了 6。

5. ePQ 在 TPC-H 上的性能表现

TPC-H 是专门测试数据库分析型场景性能的数据集，一共有 22 条分析型场景下的 SQL。用 TPC-H 可以有效测试 PolarDB 的 HTAP 的能力。

由于 TPC-H 本身导入数据需要大量时间，本实验中无法进行展示。大家可以看该文档来查看 ePQ 在 TPC-H 环境下的提升效果。平均有 23 倍的提升。

实验链接：https://developer.aliyun.com/adc/scenario/c6e803ae50784a07b4317005b396b203

高性能特性体验：ePQ 的详解与实战

高性能特性体验：ePQ 的详解与实战

PolarDB PostgreSQL 版

热门文章

最新文章

相关电子书