海量数据迁移之使用分区并行切分导入

简介: 在之前的章节中讨论过怎么把一个很大的分区表切分为若干的dump文件,在数据加载的时候能够同时做基于每个分区的数据导入,如果有些分区比较大,有几十个dump文件,那么这个分区做数据导入的时候是不能再进行并行切分了。

在之前的章节中讨论过怎么把一个很大的分区表切分为若干的dump文件,在数据加载的时候能够同时做基于每个分区的数据导入,如果有些分区比较大,有几十个dump文件,那么这个分区做数据导入的时候是不能再进行并行切分了。
现在在准生产环境中先查找了如下的表,charge,memo,charge_rel数量级都过亿,而且memo表中还含有lob字段。其他两个分区尽管字段没有特殊之处,但是分区数很多。都在几百个左右。

charge
 133036878
memo
186700029   

CHARGE_REL
 131419041


我把数据导入分成了10个并行的process,每个process里面处理对应的分区表数据。
比方说charge表
CHARGE 206..206 "partition(P30_C30)"
CHARGE 197..199 "partition(P29_C40)"
CHARGE 188..188 "partition(P28_C50)"
CHARGE 179..179 "partition(P27_C60)"
CHARGE 170..170 "partition(P26_C70)"
CHARGE 161..161 "partition(P25_C80)"

我定位了206号dump是归属分区P30_C30的,197~199号dump是归属分区P29_C40的
先来看看数据导入前的表空间。
                               Total MB    Free MB     Used MB  
                          ------------ ---------- -----------
sum                          1,490,261    585,573     904,688


数据导入15分钟后。超大的memo表竟然都快完成了!
############################################################
                    CHARGE_REL  152 of TOTAL   222 completed, |--processing... from      split_par_9_appendata.log 
                             MEMO  401 of TOTAL   446 completed, |--processing... from      split_par_9_appendata.log 
                          CHARGE  175 of TOTAL   322 completed, |--processing... from      split_par_9_appendata.log                    
另外两个大表也在继续。稍候,大部分的进程开始处理另外2个大表。
又过了10分钟
############################################################
                     CHARGE_REL  160 of TOTAL   222 completed, |--processing... from      split_par_9_appendata.log 
                             MEMO  405 of TOTAL   446 completed, |--processing... from      split_par_9_appendata.log 
                           CHARGE  224 of TOTAL   322 completed, |--processing... from      split_par_9_appendata.log

表空间的信息如下:
                               Total MB    Free MB     Used MB  
                          ------------ ---------- -----------
sum                          1,490,261    380,798   1,109,463

短时间内消耗了200g,速度提升不少。

目录
相关文章
|
负载均衡 算法 关系型数据库
令人惊叹的 PostgreSQL 可伸缩性
这是一篇系统设计经验分享,主要介绍了如何使用 PgBouncer 以解决 PostgreSQL 的可伸缩性(Scalability)问题。55M QPS + 20% 的互联网流量听上去并不小,但从 PostgreSQL 专家的角度看,这里的实践确实还是有些朴素简陋 —— 甚至可以说大惊小怪。不过,是这篇文章确实抛出来了一个有意义的问题 —— 即 PostgreSQL的 可伸缩性 到底怎么样?
420 3
|
Shell
我们一起来学Shell - shell的并发及并发控制
我们一起来学Shell - shell的并发及并发控制
494 0
|
弹性计算 虚拟化 异构计算
2023阿里云GPU服务器租用价格表(包月/按小时/学生价)
2023阿里云GPU服务器租用价格表(包月/按小时/学生价)阿里云GPU服务器租用价格表包括包年包月价格、一个小时收费以及学生GPU服务器租用费用,阿里云GPU计算卡包括NVIDIA V100计算卡、T4计算卡、A10计算卡和A100计算卡,GPU云服务器gn6i可享受3折优惠,阿里云百科分享阿里云GPU服务器租用价格表、GPU一个小时多少钱以及学生GPU服务器收费价格表
1161 0
|
搜索推荐 测试技术 数据库
QPS、TPS、RT、并发数、吞吐量分别是什么意思
QPS、TPS、RT、并发数、吞吐量分别是什么意思
3431 0
|
NoSQL 前端开发 Redis
Windows 下安装和配置 Redis (图文教程)
Windows 下安装和配置 Redis (图文教程)
|
Apache 调度 数据库
Apache DolphinScheduler VS WhaleScheduler
Apache DolphinScheduler VS WhaleScheduler
1324 59
|
监控 关系型数据库 数据库
RDS PostgreSQL内置连接池PgBouncer
2023年7月,阿里云RDS PostgreSQL支持内置数据库连接池PgBouncer,本篇文章从以下角度探讨PgBouncer:1. PgBouncer是什么;2. 应用场景 ;3. 性能对比;4. 如何使用;5. 总结
|
存储 算法 Cloud Native
PolarDB 开源生态插件心选 - 这些插件让业务战斗力提升100倍!!!
PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力. 本文将介绍PolarDB 开源版插件生态, 通过插件给数据库加装新的算法和索引|存储结构, 结合PolarDB的大规模存储管理能力, 实现算法和存储双剑合璧, 是企业在数据驱动时代的决胜利器.
552 0
|
前端开发 BI
帆软实战问题及解决方案
帆软实战问题及解决方案
712 0
|
存储 人工智能 安全