Pgloader极简教程-阿里云开发者社区

Pgloader极简教程

2024-11-19 78

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS PostgreSQL Serverless，0.5-4RCU 50GB 3个月

云数据库 RDS MySQL，集群系列 2核4GB

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

简介： pgloader 是一款强大的数据同步与迁移工具，专为将数据从多种来源迁移到 PostgreSQL 设计。它支持从文件（如 CSV）和多种数据库系统（如 SQLite、MySQL）迁移数据。pgloader 提供了丰富的安装选项，包括手动编译安装，适用于不同操作系统。使用上，既可以通过命令行直接操作，也可以通过配置文件进行复杂的数据迁移任务，如表结构和数据的同步。其高效性和灵活性使得数据库迁移变得更加简便和可靠。

[toc]

简介

pgloader是一个数据同步工具，用来将数据从其它地方迁移到postgresql中，支持从如下源迁移：

文件：CSV、Fixed Format、Postgres COPY text format、DBF、IXF
数据库系统：SQLite、MySql、MSSQLServer、PostgreSQL、Redshift

应用场景

需要往postgresql中导入数据的时候，如数据迁移。

安装

安装概述

安装方式比较丰富，详见 https://pgloader.readthedocs.io/en/latest/install.html 。

遗憾的是未提供CentOS环境编译好的程序供下载，所以需要手动编译安装。

CentOS编译安装

去官网下载最新源码：

https://github.com/dimitri/pgloader

将源码放到 /usr/bin下，本文为例：


[root@bogon pgloader-3.6.9]# pwd
/usr/local/pgloader-3.6.9

如果下载的是源码压缩包需要使用如下命令解压：


tar -zxvf pgloader-3.6.9.tar.gz

赋予脚本执行权限：

cd /usr/local/pgloader-3.6.9


chmod -R 777 *

执行 bootstrap-centos7.sh 脚本，下载相关依赖


bootstrap-centos7.sh

执行编译：


make  pgloader

如果有提示到 ("libcrypto.so.1.1" "libcrypto.so.1.0.0" "libcrypto.so.3" "libcrypto.so") 没有找到或者相关信息
需要先安装 openssl


yum -y install openssl openssl-devel

复制编译好的程序到系统执行目录 /usr/local/bin/ 下


cp  /usr/local/pgloader-3.6.9/build/bin/pgloader        /usr/local/bin/

查看是否安装好了：


[root@bogon home]# pgloader --version
pgloader version "3.6.7~devel"
compiled with SBCL 2.2.5

使用

pgloader 有两种常见的使用方式：

通过命令行
通过迁移配置文件

命令行

如下命令行：

pgloader mysql://user:password@ip:3306/dbName postgresql://user:password@ip:5432/dbName

将名为dbName的数据库结构和数据从mysql迁移到postgresql
pgloader 为上述 /usr/local/bin/pgloader 的可执行文件
后面是mysql 的连接信息， postgresql 的连接信息，中间使用空格分隔
需要使用有写入权限的账号，建议使用root用户操作

配置文件迁移

另外一种方式就是编写迁移配置文件，然后使用 pgloader sync.load 命令执行配置文件。

如下配置文件演示了仅同步mysql的ource_db库中的ramble_doc 表到 postgresql中的target_db库中，执行完毕之后将在postgresql中新建一个名为ramble_doc 的表，并新增数据。

LOAD DATABASE
     FROM     mysql://root:xxx@192.168.1.92:3306/source_db
     INTO     postgresql://postgres:xxx@192.168.1.24:5432/target_db

INCLUDING ONLY TABLE NAMES matching 'ramble_doc' ;

LOAD DATABASE ：表示从数据库执行迁移
FROM ：源数据库连接信息
INTO ：目标数据库连接信息
INCLUDING ONLY TABLE NAMES matching ：仅包含匹配的表
最后那个分号不可少
配置文件需要按照格式编写，如缩进

如下配置文件演示了同步mysql 的source_db库下所有表到postgresql的target_db库下面，包含表结构和数据。

LOAD DATABASE
     FROM     mysql://root:xxx@192.168.1.92:3306/source_db
     INTO     postgresql://postgres:xxx@192.168.1.24:5432/target_db
     WITH batch rows = 10000 , batch size =200MB , prefetch rows  = 5000 , workers = 4 ,concurrency = 3
;

WITH：with 后面可以追加一下附属参数，各个参数使用英文逗号分隔。常见的参数如：是否需要同步数据还是仅同步结构，是否在写入数据前先删除表等
batch rows ：在同步数据的时候分批插入postgresql的行数，默认为2.5万。
batch size：每批最大数据大小，设置此参数可避免出现内存溢出
prefetch rows：在同步数据的时候分批从mysql读取的行数，默认为1000。
workders：线程数量
concurrency：并发线程数量

可能遇到的错误

内存溢出

报错信息为：


Heap exhausted during garbage collection: 64 bytes available, 80 requested.


垃圾回收期间堆已耗尽：可用64个字节，请求80个字节。

解决方案为调优分批数量和并发数量，需要根据源数据库数据量，硬件情况不断尝试。

总结

pgloader是一个数据库迁移工具，花一点点时间研究一下如何使用，将在数据库迁移的时候起到事半功倍的效果，往往比自己编写迁移脚本更加完善和可靠。

引用

官网：https://pgloader.readthedocs.io/en/latest/
github：https://github.com/dimitri/pgloader

Pgloader极简教程

简介

安装

安装概述

CentOS编译安装

使用

命令行

配置文件迁移

可能遇到的错误

更多配置参考

总结

引用

关系型数据库

热门文章

最新文章

相关课程

相关电子书

相关实验场景