TiDB实时同步数据到PostgreSQL(三) ---- 使用pgloader迁移数据

本文涉及的产品
云数据库 RDS MySQL,集群系列 2核4GB
推荐场景:
搭建个人博客
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
云数据库 RDS MySQL,高可用系列 2核4GB
简介: 使用PostgreSQL数据迁移神器pgloader从TiDB迁移数据到PostgreSQL,同时说明如何在最新的Rocky Linux 9(CentOS 9 stream也适用)上通过源码编译安装pgloader。

pgloader是一款为PostgreSQL开发的数据迁移神器,支持从sqlite、MySQL、SQL Server等数据库往PostgreSQL迁移数据,也支持PostgreSQL到PostgreSQL、PostgreSQL到Citus。可自定义迁移规则,非常方便灵活。表结构、索引等都可以完整的迁移过来。

pgloader采用Lisp开发,ubuntu下可使用apt install pgloader安装,CentOS默认安装源里没有pgloader,这里以Rocky Linux 9为例,介绍如何通过源码安装。


安装Lisp

# 下载并安装最新的sbclwget https://sourceforge.net/projects/sbcl/files/sbcl/2.3.9/sbcl-2.3.9-x86-64-linux-binary.tar.bz2
tar jxvf sbcl-2.3.9-x86-64-linux-binary.tar.bz2
cd sbcl-2.3.9-x86-64-linux-binary
./install.sh
# sbcl默认会安装到/usr/local目录

编译pgloader

# dnf install freetds-develgit clone https://github.com/dimitri/pgloader.git
cd pgloader
make save
make pgloader
# 检查是否编译成功build/bin/pgloader --help# 如果编译成功,会显示以下内容pgloader [ option ... ] command-file ...
pgloader [ option ... ] SOURCE TARGET
--help-h                       boolean  Show usage and exit.
--version-V                    boolean  Displays pgloader version and exit.
--quiet-q                      boolean  Be quiet
--verbose-v                    boolean  Be verbose
--debug-d                      boolean  Display debug level information.
--client-min-messages           string   Filter logs seen at the console (default: "warning")
--log-min-messages              string   Filter logs seen in the logfile (default: "notice")
--summary-S                    string   Filename where to copy the summary
--root-dir-D                   string   Output root directory. (default: #P"/tmp/pgloader/")--upgrade-config-U             boolean  Output the command(s) corresponding to .conf file for                                           v2.x
--list-encodings-E             boolean  List pgloader known encodings and exit.
--logfile-L                    string   Filename where to send the logs.
--load-lisp-file-l             string   Read user code from files
--dry-run                       boolean  Only check database connections, don't load anything.  --on-error-stop                 boolean  Refrain from handling errors properly.  --no-ssl-cert-verification      boolean  Instruct OpenSSL to bypass verifying certificates.  --context -C                    string   Command Context Variables  --with                          string   Load options  --set                           string   PostgreSQL options  --field                         string   Source file fields specification  --cast                          string   Specific cast rules  --type                          string   Force input source type  --encoding                      string   Source expected encoding  --before                        string   SQL script to run before loading the data  --after                         string   SQL script to run after loading the data  --self-upgrade                  string   Path to pgloader newer sources  --regress                       boolean  Drive regression testing

迁移TiDB数据到PostgreSQL

如果数据量比较小,可以直接命令行,但本次迁移数据量比较大,还有几张数据量过亿的大表,接命令行做全库迁移,遇到大表,TiDB就挂了,迁移无法正常完成。无奈之下,只好对每张大表单独处理,这就需要定义load文件,load文件里设置线程数量、每次迁移数据的数量,数据类型转换等。

以下是命令行一次性迁移的例子:

pgloader --cast"type date to date drop not null drop default using zero-dates-to-null"--cast"type datetime to timestamp drop not null drop default using zero-dates-to-null"--cast"type tinyint to smallint drop typemod"--with"prefetch rows=50000"--with"workers=8"--with"concurrency=1"--with"multiple readers per thread"--with"rows per range = 50000"-v mysql://test:111111@192.168.0.1:4000/test postgresql://test:123456@192.168.0.2/test

此命令把mysql的test库迁移到postgresql中

--cast 类型转换设定,用于将mysql的某种类型转换为指定的pg类型(pgloader对MySQL的0日期处理的很好)

--with 用于指定一些迁移中的参数,比如每次迁移多少行、多少并发、多少迁移工人线程等,还可以排除一些不想迁移的表,比如本例就排除了表名中带有_log的表。

由于本次迁移生产环境的数据库,数据量较大,一次性迁移,生产库会不堪重负,因为采用了分批迁移的方式,对记录超过1000万条的表逐张迁移,其余表根据表名一部分一部分的迁移,因此需要采用编写.load文件的方式。load文件跟直接命令行相比可支持更多的指令,举例如下:

LOAD DATABASE
    FROM mysql://root@tidb_server:4000/dbname
    INTO postgresql://user:password@pg_server/dbname
WITH include drop, create tables, create indexes, reset sequences,
    workers =8, concurrency =4,
    multiple readers per thread, rows per range =50000,
    prefetch rows=50000,
    batch rows =50000, batch concurrency =1, batch size = 4GB
SET MySQL PARAMETERS
    net_read_timeout  ='14400',
    net_write_timeout ='14400',
    MAX_EXECUTION_TIME ='0'CAST type date to date drop not null drop default using zero-dates-to-null,
     type datetime to timestamp drop not null drop default using zero-dates-to-null,
     type tinyint to smallint drop typemod
INCLUDING ONLY TABLE NAMES MATCHING 'big_table1'; --仅迁移big_table1

批量迁移的例子

LOAD DATABASE
    FROM mysql://user@tidb_server:4000/dbname
    INTO postgresql://user:password@pg_server/dbname
WITH include drop, create tables, create indexes, reset sequences,
    workers =4, concurrency =2,
    multiple readers per thread, rows per range =20000,
    prefetch rows=20000,
    batch rows =20000, batch concurrency =4SET MySQL PARAMETERS
    net_read_timeout  ='14400',
    net_write_timeout ='14400',
    MAX_EXECUTION_TIME ='0'CAST type date to date drop not null drop default using zero-dates-to-null,
     type datetime to timestamp drop not null drop default using zero-dates-to-null,
     type tinyint to smallint drop typemod
INCLUDING ONLY TABLE NAMES MATCHING ~/aa_log*/; --只迁移匹配名字的表
-- 排除表的写法,排除符合条件的表
-- EXCLUDING TABLE NAMES MATCHING ~/aa_log*/,'big_table1','big_table';

写好load文件后,用如下的方法执行:

pgloader -v xxxx.load # -v参数可省略,加上可以看到执行的进度

以上就是基本的用法,掌握以上用法也基本够用了!

更详细的用法可参考pgloader官文文档

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
相关文章
|
1月前
|
存储 关系型数据库 数据库
【赵渝强老师】PostgreSQL的数据文件
PostgreSQL的物理存储结构主要包括数据文件、日志文件等。数据文件按oid命名,超过1G时自动拆分。通过查询数据库和表的oid,可定位到具体的数据文件。例如,查询数据库oid后,再查询特定表的oid及relfilenode,即可找到该表对应的数据文件位置。
|
7月前
|
消息中间件 Java 关系型数据库
实时计算 Flink版操作报错合集之从 PostgreSQL 读取数据并写入 Kafka 时,遇到 "initial slot snapshot too large" 的错误,该怎么办
在使用实时计算Flink版过程中,可能会遇到各种错误,了解这些错误的原因及解决方法对于高效排错至关重要。针对具体问题,查看Flink的日志是关键,它们通常会提供更详细的错误信息和堆栈跟踪,有助于定位问题。此外,Flink社区文档和官方论坛也是寻求帮助的好去处。以下是一些常见的操作报错及其可能的原因与解决策略。
1026 0
|
5月前
|
SQL 关系型数据库 MySQL
SQL Server、MySQL、PostgreSQL:主流数据库SQL语法异同比较——深入探讨数据类型、分页查询、表创建与数据插入、函数和索引等关键语法差异,为跨数据库开发提供实用指导
【8月更文挑战第31天】SQL Server、MySQL和PostgreSQL是当今最流行的关系型数据库管理系统,均使用SQL作为查询语言,但在语法和功能实现上存在差异。本文将比较它们在数据类型、分页查询、创建和插入数据以及函数和索引等方面的异同,帮助开发者更好地理解和使用这些数据库。尽管它们共用SQL语言,但每个系统都有独特的语法规则,了解这些差异有助于提升开发效率和项目成功率。
565 0
|
5月前
|
SQL 关系型数据库 HIVE
实时计算 Flink版产品使用问题之如何将PostgreSQL数据实时入库Hive并实现断点续传
实时计算Flink版作为一种强大的流处理和批处理统一的计算框架,广泛应用于各种需要实时数据处理和分析的场景。实时计算Flink版通常结合SQL接口、DataStream API、以及与上下游数据源和存储系统的丰富连接器,提供了一套全面的解决方案,以应对各种实时计算需求。其低延迟、高吞吐、容错性强的特点,使其成为众多企业和组织实时数据处理首选的技术平台。以下是实时计算Flink版的一些典型使用合集。
|
5月前
|
开发框架 关系型数据库 数据库
在 PostgreSQL 中,解决图片二进制数据,由于bytea_output参数问题导致显示不正常的问题。
在 PostgreSQL 中,解决图片二进制数据,由于bytea_output参数问题导致显示不正常的问题。
|
关系型数据库 分布式数据库 PolarDB
《阿里云产品手册2022-2023 版》——PolarDB for PostgreSQL
《阿里云产品手册2022-2023 版》——PolarDB for PostgreSQL
379 0
|
存储 缓存 关系型数据库
|
存储 SQL 并行计算
PolarDB for PostgreSQL 开源必读手册-开源PolarDB for PostgreSQL架构介绍(中)
PolarDB for PostgreSQL 开源必读手册-开源PolarDB for PostgreSQL架构介绍
436 0
|
存储 算法 安全
PolarDB for PostgreSQL 开源必读手册-开源PolarDB for PostgreSQL架构介绍(下)
PolarDB for PostgreSQL 开源必读手册-开源PolarDB for PostgreSQL架构介绍
395 0
|
关系型数据库 分布式数据库 开发工具