PostgreSQL 11 新特性解读: 增加对JIT(just-in-time)编译的支持提升分析型SQL执行效率

本文涉及的产品
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
云原生数据库 PolarDB MySQL 版,通用型 2核4GB 50GB
简介:

关于 JIT

PostgreSQL 11 版本的一个重量级新特性是引入了 JIT (Just-in-Time) 编译来加速SQL中的表达式计算效率。

JIT 表达式的编译使用LLVM项目编译器的架构来提升在WHERE条件、指定列表、聚合以及一些内部操作表达式的编译执行。

使用 JIT 必须在首先编译安装 LLVM ,之后编译安装 PostgreSQL 时设置 --with-llvm 选项,本文主要包括两部分,如下:

  • CentOS7 编译安装 LLVM。
  • CentOS7 编译安装PostgreSQL 11,启用并演示 JIT。

JIT 使用场景

JIT 常用于CPU密集型SQL(分析统计SQL),执行很快的SQL使用JIT由于产生一定开销,反而可能引起性能下降。

手册 Release说明

Add Just-in-Time (JIT) compilation of some parts of query plans to improve execution speed (Andres Freund)

This feature requires LLVM to be available. It is not currently enabled by default, even in builds that support it.

安装环境

操作系统: CentOS Linux release 7.4.1708 (Core)
硬件环境: 8核4G/80G 的云主机

LLVM安装前提条件

LLVM 安装依赖较多,如下:

The minimum required version of LLVM is currently 3.9  --本实验使用 LLVM 5.0.2
CMake. Version 3.4.3 is the minimum required.          --本实验使用 Cmake 3.12.3
Python 2.7 or newer is required                        --本实验使用 Python 2.7.9
GCC version must be at least 4.8!                      --本实验使用 gcc 4.8.5

安装 Cmake 3.12.3

下载并编译安装 cmake 3.12.3,如下:

# wget -c https://cmake.org/files/v3.12/cmake-3.12.3.tar.gz
# tar xvf cmake-3.12.3.tar.gz
# cd cmake-3.12.3
# ./bootstrap
# make -j 4
# make install

安装Python 2.7.9

下载并编译安装 python 2.7.9,如下:

# wget -c https://www.python.org/downloads/release/python-279/
# tar jxvf Python-2.7.9.tgz
# cd Python-2.7.9
# ./configure
# make
# make install

安装 LLVM 5.0.2

LLVM 的安装步骤较繁琐,并且编译安装过程时间较长,性能好的机器能减少编译时间,注意操作系统需启用 swap,否则编译过程中会报错,本人开始编译安装时没有启用 swap,折腾了很久。

下载LLVM安装介质

LLVM官网下载安装介质,如下:

llvm-5.0.2.src.tar.xz
cfe-5.0.2.src.tar.xz
clang-tools-extra-5.0.2.src.tar.xz
compiler-rt-5.0.2.src.tar.xz
libcxx-5.0.2.src.tar.xz
libcxxabi-5.0.2.src.tar.xz
libunwind-5.0.2.src.tar.xz

编译安装LLVM

解压 llvm-5.0.2.src.tar.xz

# cd /opt/soft_bak/
# tar xvf llvm-5.0.2.src.tar.xz 
# mv llvm-5.0.2.src llvm

解压安装包并重命名,目录结构对应如下,如下:

安装包 安装目录
llvm-5.0.2.src.tar.xz /opt/soft_bak/llvm
cfe-5.0.2.src.tar.xz /opt/soft_bak/tools/clang
clang-tools-extra-5.0.2.src.tar.xz /opt/soft_bak/tools/clang/tools/extra
compiler-rt-5.0.2.src.tar.xz /opt/soft_bak/projects/compiler-rt
libcxx-5.0.2.src.tar.xz /opt/soft_bak/projects/libcxx
libcxxabi-5.0.2.src.tar.xz /opt/soft_bak/projects/libcxxabi
libunwind-5.0.2.src.tar.xz /opt/soft_bak/projects/libunwind

LLVM 官网的其它安装包非必须,可根据情况选择。

编译安装 LLVM,如下:

# mkdir -p /opt/soft_bak/llvm_build/
# cd /opt/soft_bak/llvm_build/
# cmake -G "Unix Makefiles" -DCMAKE_INSTALL_PREFIX=/usr/local/llvm -DCLANG_DEFAULT_CXX_STDLIB=libc++ -DCMAKE_BUILD_TYPE="Release" /opt/soft_bak/llvm
# make -j 4
# make install

设置环境变量,如下:

export PATH=$PATH:/usr/local/llvm/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/llvm/lib

查看版本

[root@pghost7 ~]# llvm-cat --version
LLVM (http://llvm.org/):
  LLVM version 5.0.2
  Optimized build.
  Default target: x86_64-unknown-linux-gnu
  Host CPU: broadwell

[root@pghost7 ~]# clang --version
clang version 5.0.2 (tags/RELEASE_502/final)
Target: x86_64-unknown-linux-gnu
Thread model: posix
InstalledDir: /usr/local/llvm/bin

至此 LLVM 已安装成功。

PostgreSQL 11 安装

安装相关包,如下:

# yum -y install gcc readline readline-devel zlib zlib-devel python-devel

下载PostgreSQL 11 并编译安装,编译时指定 --with-llvm 选项, 如下:

# wget -c https://ftp.postgresql.org/pub/source/v11.0/postgresql-11.0.tar.bz2
# tar xvf postgresql-11.0.tar.bz2
#./configure --prefix=/opt/pgsql_11.0 --with-wal-blocksize=16 -with-pgport=1930 --with-llvm LLVM_CONFIG='/usr/local/llvm/bin/llvm-config'
# make wolrd -j 4
# make install-world

设置 .bash_profile ,如下:

export PGPORT=1930
export PGUSER=postgres
export PGDATA=/database/pg11/pg_root
export LANG=en_US.utf8

export PGHOME=/opt/pgsql_11.0
export LD_LIBRARY_PATH=$PGHOME/lib:/lib64:/usr/lib64:/usr/local/lib64:/lib:/usr/lib:/usr/local/lib
export DATE=`date +"%Y%m%d%H%M"`
export PATH=$PGHOME/bin:$PATH:.
export MANPATH=$PGHOME/share/man:$MANPATH
alias rm='rm -i'
alias ll='ls -lh'

使用 initdb 初始化数据库,如下:

[pg11@pghost7 pg_root]$ initdb -D /database/pg11/pg_root -E=UTF8 --locale=C -U postgres -W

postgresql.conf 设置以下 JIT 配置参数,其它参数按需配置,这里不贴出,如下:

# - Other Defaults -
#dynamic_library_path = '$libdir'

jit = on                                # allow JIT compilation
jit_provider = 'llvmjit'                # JIT implementation to use

设置 pg_hba.conf,如下:

host all        all     0.0.0.0/0       md5

之后启动数据库,如下:

[pg11@pghost7 pg_root]$ pg_ctl start
waiting for server to start....2018-10-31 11:13:26.154 CST [19742] LOG:  listening on IPv4 address "0.0.0.0", port 1930
2018-10-31 11:13:26.154 CST [19742] LOG:  listening on IPv6 address "::", port 1930
2018-10-31 11:13:26.159 CST [19742] LOG:  listening on Unix socket "/tmp/.s.PGSQL.1930"
2018-10-31 11:13:26.185 CST [19742] LOG:  redirecting log output to logging collector process
2018-10-31 11:13:26.185 CST [19742] HINT:  Future log output will appear in directory "log".
 done
server started

JIT 测试

以下大致演示 JIT,测试样例很简单,不做充分的性能测试,有兴趣的朋友可以做 TPC-H 性能测试。

测试数据准备

创建一张5千万的数据表,如下:

CREATE TABLE t_llvm1(a int4, b int4, info text, ctime timestamp(6) without time zone);
INSERT INTO t_llvm1 (a,b,info,ctime) SELECT n,n*2,n||'_llvm1',clock_timestamp() FROM generate_series(1,50000000) n;

查看 JIT 相关参数

postgres=# SELECT name,setting FROM pg_settings WHERE name LIKE 'jit%';
          name           | setting
-------------------------+---------
 jit                     | on
 jit_above_cost          | 100000
 jit_debugging_support   | off
 jit_dump_bitcode        | off
 jit_expressions         | on
 jit_inline_above_cost   | 500000
 jit_optimize_above_cost | 500000
 jit_profiling_support   | off
 jit_provider            | llvmjit
 jit_tuple_deforming     | on
(10 rows)

开启 JIT

开启 JIT,执行计划如下:

postgres=# SET JIT = on;
SET

postgres=# EXPLAIN ANALYZE SELECT count(*),sum(a) FROM t_llvm1 WHERE (a+b) > 10;
                                                                    QUERY PLAN

--------------------------------------------------------------------------------------------------------------------------------------------------
 Finalize Aggregate  (cost=576982.30..576982.31 rows=1 width=16) (actual time=2148.607..2148.608 rows=1 loops=1)
   ->  Gather  (cost=576981.86..576982.28 rows=4 width=16) (actual time=2148.457..2153.185 rows=5 loops=1)
         Workers Planned: 4
         Workers Launched: 4
         ->  Partial Aggregate  (cost=575981.86..575981.88 rows=1 width=16) (actual time=2134.919..2134.919 rows=1 loops=5)
               ->  Parallel Seq Scan on t_llvm1  (cost=0.00..555148.48 rows=4166677 width=4) (actual time=105.597..1516.253 rows=9999999 loops=5)
                     Filter: ((a + b) > 10)
                     Rows Removed by Filter: 1
 Planning Time: 0.078 ms
 JIT:
   Functions: 28
   Options: Inlining true, Optimization true, Expressions true, Deforming true
   Timing: Generation 5.842 ms, Inlining 226.589 ms, Optimization 191.071 ms, Emission 107.027 ms, Total 530.529 ms
 Execution Time: 2154.870 ms
(14 rows)

从以上看出执行计划中包含 JIT 编译信息,执行时间为 2154 ms 左右。

关闭 JIT

关闭 JIT,查看执行计划和扫行时间,如下:

postgres=# SET JIT = off;
SET

postgres=# EXPLAIN ANALYZE SELECT count(*),sum(a) FROM t_llvm1 WHERE (a+b) > 10;
                                                                   QUERY PLAN

------------------------------------------------------------------------------------------------------------------------------------------------
 Finalize Aggregate  (cost=576982.30..576982.31 rows=1 width=16) (actual time=2382.035..2382.035 rows=1 loops=1)
   ->  Gather  (cost=576981.86..576982.28 rows=4 width=16) (actual time=2381.939..2385.143 rows=5 loops=1)
         Workers Planned: 4
         Workers Launched: 4
         ->  Partial Aggregate  (cost=575981.86..575981.88 rows=1 width=16) (actual time=2371.143..2371.143 rows=1 loops=5)
               ->  Parallel Seq Scan on t_llvm1  (cost=0.00..555148.48 rows=4166677 width=4) (actual time=0.560..1600.125 rows=9999999 loops=5)
                     Filter: ((a + b) > 10)
                     Rows Removed by Filter: 1
 Planning Time: 0.083 ms
 Execution Time: 2385.209 ms
(10 rows)

从以上看出执行计划中没有包含 JIT 信息,执行时间为 2385 ms 左右,开启JIT性能提升了9.7% 左右。

参考

新书推荐

最后推荐和张文升共同编写的《PostgreSQL实战》,本书基于PostgreSQL 10 编写,共18章,重点介绍SQL高级特性、并行查询、分区表、物理复制、逻辑复制、备份恢复、高可用、性能优化、PostGIS等,涵盖大量实战用例!

购买链接:https://item.jd.com/12405774.html

_5_PostgreSQL_

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
目录
相关文章
|
1月前
|
SQL 存储 数据可视化
手机短信SQL分析技巧与方法
在手机短信应用中,SQL分析扮演着至关重要的角色
|
2月前
|
Oracle NoSQL 关系型数据库
主流数据库对比:MySQL、PostgreSQL、Oracle和Redis的优缺点分析
主流数据库对比:MySQL、PostgreSQL、Oracle和Redis的优缺点分析
378 2
|
3月前
|
前端开发 Java JSON
Struts 2携手AngularJS与React:探索企业级后端与现代前端框架的完美融合之道
【8月更文挑战第31天】随着Web应用复杂性的提升,前端技术日新月异。AngularJS和React作为主流前端框架,凭借强大的数据绑定和组件化能力,显著提升了开发动态及交互式Web应用的效率。同时,Struts 2 以其出色的性能和丰富的功能,成为众多Java开发者构建企业级应用的首选后端框架。本文探讨了如何将 Struts 2 与 AngularJS 和 React 整合,以充分发挥前后端各自优势,构建更强大、灵活的 Web 应用。
58 0
|
3月前
|
SQL 数据采集 数据挖掘
为什么要使用 SQL 函数?详尽分析
【8月更文挑战第31天】
48 0
|
3月前
|
SQL 数据采集 算法
【电商数据分析利器】SQL实战项目大揭秘:手把手教你构建用户行为分析系统,从数据建模到精准营销的全方位指南!
【8月更文挑战第31天】随着电商行业的快速发展,用户行为分析的重要性日益凸显。本实战项目将指导你使用 SQL 构建电商平台用户行为分析系统,涵盖数据建模、采集、处理与分析等环节。文章详细介绍了数据库设计、测试数据插入及多种行为分析方法,如购买频次统计、商品销售排名、用户活跃时间段分析和留存率计算,帮助电商企业深入了解用户行为并优化业务策略。通过这些步骤,你将掌握利用 SQL 进行大数据分析的关键技术。
180 0
|
3月前
|
SQL 数据挖掘 BI
【超实用技巧】解锁SQL聚合函数的奥秘:从基础COUNT到高级多表分析,带你轻松玩转数据统计与挖掘的全过程!
【8月更文挑战第31天】SQL聚合函数是进行数据统计分析的强大工具,可轻松计算平均值、求和及查找极值等。本文通过具体示例,展示如何利用这些函数对`sales`表进行统计分析,包括使用`COUNT()`、`SUM()`、`AVG()`、`MIN()`、`MAX()`等函数,并结合`GROUP BY`和`HAVING`子句实现更复杂的数据挖掘需求。通过这些实践,你将学会如何高效地应用SQL聚合函数解决实际问题。
50 0
|
3月前
|
网络协议 NoSQL 网络安全
【Azure 应用服务】由Web App“无法连接数据库”而逐步分析到解析内网地址的办法(SQL和Redis开启private endpoint,只能通过内网访问,无法从公网访问的情况下)
【Azure 应用服务】由Web App“无法连接数据库”而逐步分析到解析内网地址的办法(SQL和Redis开启private endpoint,只能通过内网访问,无法从公网访问的情况下)
|
4月前
|
SQL 存储 大数据
SQL中DISTINCT关键字的使用与性能影响分析
SQL中DISTINCT关键字的使用与性能影响分析
|
6月前
|
SQL HIVE UED
【Hive SQL 每日一题】分析电商平台的用户行为和订单数据
作为一名数据分析师,你需要分析电商平台的用户行为和订单数据。你有三张表:`users`(用户信息),`orders`(订单信息)和`order_items`(订单商品信息)。任务包括计算用户总订单金额和数量,按月统计订单,找出最常购买的商品,找到平均每月最高订单金额和数量的用户,以及分析高消费用户群体的年龄和性别分布。通过SQL查询,你可以实现这些分析,例如使用`GROUP BY`、`JOIN`和窗口函数来排序和排名。
327 2
|
6月前
|
SQL 分布式计算 数据可视化
数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析
数据分享|Python、Spark SQL、MapReduce决策树、回归对车祸发生率影响因素可视化分析