PolarDB开源数据库进阶课18 通过pg_bulkload适配pfs实现批量导入提速

简介: 本文介绍了如何修改 `pg_bulkload` 工具以适配 PolarDB 的 PFS(Polar File System),从而加速批量导入数据。实验环境依赖于 Docker 容器中的 loop 设备模拟共享存储。通过对 `writer_direct.c` 文件的修改,替换了一些标准文件操作接口为 PFS 对应接口,实现了对 PolarDB 15 版本的支持。测试结果显示,使用 `pg_bulkload` 导入 1000 万条数据的速度是 COPY 命令的三倍多。此外,文章还提供了详细的步骤和代码示例,帮助读者理解和实践这一过程。

背景

穷鬼玩PolarDB RAC一写多读集群系列已经写了几篇:

本篇文章介绍一下如何修改pg_bulkload, 适配PFS, 加速批量导入PolarDB数据库. 实验环境依赖 《在Docker容器中用loop设备模拟共享存储》 , 如果没有环境, 请自行参考以上文章搭建环境.

pg_bulkload是PostgreSQL加速逻辑数据导入的工具, 可以绕过wal, shared_buffer, 并且支持并行、支持使用binary方式(绕过PG datatype序列化和反序列化过程)直接写入PostgreSQL数据文件. 实现几倍于copy的导入性能. 但是PolarDB的数据文件存放于PFS内, 读写接口都改成了pfs接口, pg_bulkload无法直接使用, 在PolarDB 11版本内通过如下方式进行修改, 支持了本地盘使用pg_bulkload, 但还没有在pfs上尝试过, 本文将使用PolarDB 15进行尝试.

pg_bulkload 适配PFS

b站视频链接

Youtube视频链接

有了前面的背景介绍, 我们可以直接修改writer_direct.c, 参看如下pfs头文件:

$ ll PolarDB-for-PostgreSQL/src/include/storage/polar*  
-rw-r--r--  1 digoal  staff   3.3K Dec 20 15:24 polar_bufmgr.h  
-rw-r--r--  1 digoal  staff   3.9K Dec 20 15:24 polar_copybuf.h  
-rw-r--r--  1 digoal  staff    13K Dec 20 15:24 polar_fd.h  
-rw-r--r--  1 digoal  staff   3.4K Dec 20 15:24 polar_flush.h  
-rw-r--r--  1 digoal  staff   5.6K Dec 20 15:24 polar_io_stat.h  
-rw-r--r--  1 digoal  staff   3.4K Dec 20 15:24 polar_lock_stats.h  
-rw-r--r--  1 digoal  staff   7.9K Dec 20 15:24 polar_procpool.h  
-rw-r--r--  1 digoal  staff   5.3K Dec 20 15:24 polar_rsc.h  
-rw-r--r--  1 digoal  staff   5.5K Dec 20 15:24 polar_xlogbuf.h  
  
$ ll PolarDB-for-PostgreSQL/src/include//polar_vfs/*  
-rw-r--r--   1 digoal  staff   1.2K Dec 20 15:24 polar_bufferio.h  
-rw-r--r--   1 digoal  staff   2.3K Dec 20 15:24 polar_directio.h  
-rw-r--r--   1 digoal  staff   1.5K Dec 20 15:24 polar_pfsd.h  
-rw-r--r--   1 digoal  staff   2.2K Dec 20 15:24 polar_vfs_fe.h  
-rw-r--r--   1 digoal  staff   3.4K Dec 20 15:24 polar_vfs_interface.h

进入pb1 容器

docker exec -ti pb1 bash

克隆代码

cd /data  
git clone -c core.symlinks=true --depth 1 -b VERSION3_1_22 https://github.com/ossc-db/pg_bulkload

修改如下, 替换了一些write,BasicOpenFilePerm,fsync,lseek接口为pfs的对应接口.

# 你修改时可以打开vi number
# :set number
$ diff pg_bulkload_for_polar/lib/writer_direct.c pg_bulkload/lib/writer_direct.c   
8d7  
< #include "storage/polar_fd.h"  
223c222  
<   self->lsf_fd = polar_open(self->lsf_path,  
---  
>   self->lsf_fd = BasicOpenFilePerm(self->lsf_path,  
233,234c232,233  
<   if (polar_write(self->lsf_fd, ls, sizeof(LoadStatus)) != sizeof(LoadStatus) ||  
<     polar_fsync(self->lsf_fd) != 0)  
---  
>   if (write(self->lsf_fd, ls, sizeof(LoadStatus)) != sizeof(LoadStatus) ||  
>     pg_fsync(self->lsf_fd) != 0)  
629c628  
<       int len = polar_write(loader->datafd, buffer + written, total);  
---  
>       int len = write(loader->datafd, buffer + written, total);  
695c694  
<   fd = polar_open(fname, O_CREAT | O_WRONLY | PG_BINARY, S_IRUSR | S_IWUSR);  
---  
>   fd = BasicOpenFilePerm(fname, O_CREAT | O_WRONLY | PG_BINARY, S_IRUSR | S_IWUSR);  
702c701  
<   ret = polar_lseek(fd, BLCKSZ * (blknum % RELSEG_SIZE), SEEK_SET);  
---  
>   ret = lseek(fd, BLCKSZ * (blknum % RELSEG_SIZE), SEEK_SET);  
726c725  
<     if (polar_fsync(loader->datafd) != 0)  
---  
>     if (pg_fsync(loader->datafd) != 0)  
729c728  
<     if (polar_close(loader->datafd) < 0)  
---  
>     if (close(loader->datafd) < 0)  
750,751c749,750  
<   polar_lseek(loader->lsf_fd, 0, SEEK_SET);  
<   ret = polar_write(loader->lsf_fd, ls, sizeof(LoadStatus));  
---  
>   lseek(loader->lsf_fd, 0, SEEK_SET);  
>   ret = write(loader->lsf_fd, ls, sizeof(LoadStatus));  
756c755  
<   if (polar_fsync(loader->lsf_fd) != 0)  
---  
>   if (pg_fsync(loader->lsf_fd) != 0)

编译修改后的pg_bulkload

cd /data/pg_bulkload  
sudo chown -R postgres:postgres /home/postgres/tmp_polardb_pg_15_base  
USE_PGXS=1 make install

安装pg_bulkload插件

$ psql  
psql (PostgreSQL 15.10 (PolarDB 15.10.2.0 build d4f5477d debug) on aarch64-linux-gnu)  
Type "help" for help.  
  
postgres=# create extension pg_bulkload ;

使用pg_bulkload导入PolarDB 15 on PFS举例

1、参考满哥的这篇文章( https://www.modb.pro/db/1754101551677394944 ), 创建一张foo表, 生成一些测试数据, 并使用pg_bulkload命令行往PolarDB foo表进行导入.

进入pb1 容器

docker exec -ti pb1 bash

2、在PolarDB中建表

create table foo(a int, b varchar);

3、生成点数据

cd /data/pg_bulkload    
    
seq 100000| awk '{print $0",foo"}' > foo.csv

4、使用pg_bulkload命令行往PolarDB 15 foo表进行导入

$ pg_bulkload -i ./foo.csv -O foo -l test_foo.log -p 5432 -o "TYPE=csv" -o "DELIMITER=," -d postgres -U postgres    
NOTICE: BULK LOAD START  
NOTICE: BULK LOAD END  
  0 Rows skipped.  
  100000 Rows successfully loaded.  
  0 Rows not loaded due to parse errors.  
  0 Rows not loaded due to duplicate errors.  
  0 Rows replaced with new rows.

5、pg_bulkload通过direct模式导入的数据需要重启才能被看到, 和PolarDB relation size cache mode有关(11 对应这个参数 polar_nblocks_cache_mode).

postgres=# select count(*) from foo;  
 count   
-------  
     0  
(1 row)  
  
# 重启PolarDB  
pg_ctl restart -m fast -D ~/primary  
  
postgres=# select count(*) from foo;  
 count    
--------  
 100000  
(1 row)

PolarDB 15可以通过polar_enable_rel_size_cache参数来控制.

postgres=# alter system set polar_enable_rel_size_cache=off;
ALTER SYSTEM
# 重启PolarDB  
pg_ctl restart -m fast -D ~/primary

关闭polar_enable_rel_size_cache后, pg_bulkload导入的数据可以立即被看见.

6、检查一下数据文件是不是写在pfs里?

postgres=# select pg_relation_filepath('foo');  
        pg_relation_filepath          
------------------------------------  
 /nvme1n1/shared_data//base/5/24692  
(1 row)

没错

$ pfs -C disk stat /nvme1n1/shared_data//base/5/24692  
  file: /nvme1n1/shared_data//base/5/24692  
  size: 3629056         blocks: 8192  
device: pbd-0   inode: 658 links: 1  
access: 0, Thu Jan  1 08:00:00 1970  
modify: 1735801813, Thu Jan  2 15:10:13 2025  
change: 1735801813, Thu Jan  2 15:10:13 2025

7、使用1000万数据对比, pg_bulkload速度是COPY 3倍多.

$ time pg_bulkload -i ./foo.csv -O foo -l test_foo.log -p 5432 -o "TYPE=csv" -o "DELIMITER=," -d postgres -U postgres  
NOTICE: BULK LOAD START
NOTICE: BULK LOAD END
  0 Rows skipped.
  10000000 Rows successfully loaded.
  0 Rows not loaded due to parse errors.
  0 Rows not loaded due to duplicate errors.
  0 Rows replaced with new rows.
real  0m4.172s
user  0m0.002s
sys 0m0.011s
postgres=# \copy foo from './foo.csv' with (format csv);
COPY 10000000
Time: 14377.082 ms (00:14.377)

参考

《穷鬼玩PolarDB RAC一写多读集群系列 | 在Docker容器中用loop设备模拟共享存储》

《穷鬼玩PolarDB RAC一写多读集群系列 | 如何搭建PolarDB容灾(Standby)节点》

《穷鬼玩PolarDB RAC一写多读集群系列 | 共享存储在线扩容》

《穷鬼玩PolarDB RAC一写多读集群系列 | 计算节点 Switchover》

《穷鬼玩PolarDB RAC一写多读集群系列 | 在线备份》

《穷鬼玩PolarDB RAC一写多读集群系列 | 在线归档》

《穷鬼玩PolarDB RAC一写多读集群系列 | 实时归档》

《穷鬼玩PolarDB RAC一写多读集群系列 | 时间点恢复(PITR)》

《穷鬼玩PolarDB RAC一写多读集群系列 | 读写分离》

《穷鬼玩PolarDB RAC一写多读集群系列 | 主机全毁, 只剩共享存储的PolarDB还有救吗?》

《穷鬼玩PolarDB RAC一写多读集群系列 | 激活容灾(Standby)节点》

《穷鬼玩PolarDB RAC一写多读集群系列 | 将“共享存储实例”转换为“本地存储实例”》

《穷鬼玩PolarDB RAC一写多读集群系列 | 将“本地存储实例”转换为“共享存储实例”》

《穷鬼玩PolarDB RAC一写多读集群系列 | 升级vector插件》

《穷鬼玩PolarDB RAC一写多读集群系列 | 使用图数据库插件AGE》

《穷鬼玩PolarDB RAC一写多读集群系列 | 接入私有化大模型服务》

《穷鬼玩PolarDB RAC一写多读集群系列 | 接入PostGIS插件全功能》

《穷鬼玩PolarDB RAC一写多读集群系列 | 接入pg_duckdb支持数据湖功能,且OLAP性能数量级提升》

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍如何基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
目录
相关文章
|
4月前
|
SQL 关系型数据库 MySQL
开源新发布|PolarDB-X v2.4.2开源生态适配升级
PolarDB-X v2.4.2开源发布,重点完善生态能力:新增客户端驱动、开源polardbx-proxy组件,支持读写分离与高可用;强化DDL变更、扩缩容等运维能力,并兼容MySQL主备复制及MCP AI生态。
开源新发布|PolarDB-X v2.4.2开源生态适配升级
|
4月前
|
SQL 关系型数据库 MySQL
开源新发布|PolarDB-X v2.4.2开源生态适配升级
PolarDB-X v2.4.2发布,新增开源Proxy组件与客户端驱动,支持读写分离、无感高可用切换及DDL在线变更,兼容MySQL生态,提升千亿级大表运维稳定性。
991 24
开源新发布|PolarDB-X v2.4.2开源生态适配升级
|
7月前
|
存储 关系型数据库 分布式数据库
喜报|阿里云PolarDB数据库(分布式版)荣获国内首台(套)产品奖项
阿里云PolarDB数据库管理软件(分布式版)荣获「2024年度国内首版次软件」称号,并跻身《2024年度浙江省首台(套)推广应用典型案例》。
|
5月前
|
Cloud Native 关系型数据库 MySQL
免费体验!高效实现自建 MySQL 数据库平滑迁移至 PolarDB-X
PolarDB-X 是阿里云推出的云原生分布式数据库,支持PB级存储扩展、高并发访问与数据强一致,助力企业实现MySQL平滑迁移。现已开放免费体验,点击即享高效、稳定的数据库升级方案。
免费体验!高效实现自建 MySQL 数据库平滑迁移至 PolarDB-X
|
5月前
|
关系型数据库 MySQL 分布式数据库
阿里云PolarDB云原生数据库收费价格:MySQL和PostgreSQL详细介绍
阿里云PolarDB兼容MySQL、PostgreSQL及Oracle语法,支持集中式与分布式架构。标准版2核4G年费1116元起,企业版最高性能达4核16G,支持HTAP与多级高可用,广泛应用于金融、政务、互联网等领域,TCO成本降低50%。
|
6月前
|
人工智能 关系型数据库 MySQL
开源PolarDB-X:单节点误删除binlog恢复
本文由邵亚鹏撰写,分享了在使用开源PolarDB-X过程中,因误删binlog导致数据库服务无法启动的问题及恢复过程。作者结合实践经验,详细介绍了在无备份情况下如何通过单节点恢复机制重启数据库,并提出了避免类似问题的几点建议,包括采用高可用部署、定期备份及升级至最新版本等。
|
7月前
|
关系型数据库 分布式数据库 数据库
阿里云PolarDB数据库蝉联SIGMOD最佳论文奖
阿里云PolarDB凭借全球首创基于CXL Switch的分布式内存池技术,在SIGMOD 2025上荣获工业赛道“最佳论文奖”,连续两年蝉联该顶会最高奖项。其创新架构PolarCXLMem打破传统RDMA技术瓶颈,性能提升2.1倍,并已落地应用于内存池化场景,推动大模型推理与多模态存储发展,展现CXL Switch在高速互联中的巨大潜力。
阿里云PolarDB数据库蝉联SIGMOD最佳论文奖
|
5月前
|
缓存 关系型数据库 BI
使用MYSQL Report分析数据库性能(下)
使用MYSQL Report分析数据库性能
430 158
|
5月前
|
关系型数据库 MySQL 数据库
自建数据库如何迁移至RDS MySQL实例
数据库迁移是一项复杂且耗时的工程,需考虑数据安全、完整性及业务中断影响。使用阿里云数据传输服务DTS,可快速、平滑完成迁移任务,将应用停机时间降至分钟级。您还可通过全量备份自建数据库并恢复至RDS MySQL实例,实现间接迁移上云。
|
5月前
|
关系型数据库 MySQL 数据库
阿里云数据库RDS费用价格:MySQL、SQL Server、PostgreSQL和MariaDB引擎收费标准
阿里云RDS数据库支持MySQL、SQL Server、PostgreSQL、MariaDB,多种引擎优惠上线!MySQL倚天版88元/年,SQL Server 2核4G仅299元/年,PostgreSQL 227元/年起。高可用、可弹性伸缩,安全稳定。详情见官网活动页。
981 152

相关产品

  • 云原生数据库 PolarDB