海量数据迁移之使用shell启用多个动态并行

简介:

在数据迁移中,可能有成百上千个表,有些表很大,有些表又很小。
如果启用了多个并行的进程,可能会有资源分配上的问题。
比如下面有10个表,100代表预计的时间为100分钟。

table1  100
table2  90
table3  90
table4  80
table5  80
table6  70
table7  60
table8  60
table9  50
table10 40

如果分为4个进程来并行执行,可能一种比较理想的方案就是

parallel1: table1,table8
parallel2: table2,table5,table9
parallel3: table3,table6,table9
parallel4: table4,table7

但是在实际的执行中,可能因为表的分区,表的数据类型,表的存储的不同,可能实际的执行时间会有很大的差别,
可能paralle2,3,4已经执行完了,而parallel1还没有执行完50%。
这样,table8就一直pending在那了。

在这样的情况下,可以考虑使用动态并行,就是能够在后台启用一些并行的进程,比如需要4个并行进程,就使用nohup启用4个并行的进程。
不做具体的数据操作。

parfile=par2_tab_parall.lst
logfile=`echo $parfile|awk -F. '{print $1}`".log"
while true
do
if [ -f $parfile ]
then
   tab_exists_flag=`cat $parfile |wc -l`
   if [ ${tab_exists_flag} -eq 0 ]
     then
      sleep 5;
   elif [ ${tab_exists_flag} -gt 0 ]
     then
     tab_name=`cat $parfile`
     ksh appendata.sh $tab_name >> $logfile 
     touch ${parfile}.tmp
     mv ${parfile}.tmp ${parfile} 
   fi
fi
done

我们使用appendata.sh来模拟实现数据的插入,其实不会做数据的真实插入,这是模拟日志的内容。

echo $1
sqlplus -s  n1/n1 < set time on 
set timin on
set pages 0
select 'insert into '||'$1;' from dual;

select 'commit;' from dual;
EOF
if [ $? -eq 0 ]
then
echo '' >parallel1.lst
fi

使用如下的命令来启用一个进程,比如下面的命令启用进程2,如果启用其他的进程,命令类似

nohup ksh par2.sh > par2_tab_parall.log &

只需要在一个文件中放入处理的表名即可。如果是进程2,就在par2_tab_parall.lst中放入表名,假设表为test
par2_tab_parall.lst
[ora11g@rac1 parallel]$ cat par2_tab_parall.lst
test

如果放入表test,之后,就会发现第2个进程就开始处理表test了

test
insert into test;

Elapsed: 00:00:00.00
commit;

Elapsed: 00:00:00.01

再放入一个表,马上就会发现进程开始处理表tab_test了,如果没有表的时候,它就在后台做sleep工作。

[ora11g@rac1 parallel]$ echo tab_test > par2_tab_parall.lst

tab_test
insert into tab_test;

Elapsed: 00:00:00.01
commit;

Elapsed: 00:00:00.00

本文转自ICT时空 dbasdk博客,原文链接:海量数据迁移之使用shell启用多个动态并行 ,如需转载请自行联系原博主。

相关文章
|
5月前
|
网络协议 Shell Linux
系统初始化shell,包括:挂载镜像、搭建yum、设置主机名及IP地址和主机名映射、配置动态IP、关闭防火墙和selinux
系统初始化shell,包括:挂载镜像、搭建yum、设置主机名及IP地址和主机名映射、配置动态IP、关闭防火墙和selinux
78 2
|
NoSQL Shell 测试技术
shell命令行并行神器 - parallel
GNU parallel 是一个 shell 工具,用于使用一台或多台计算机并行执行作业。作业可以是单个命令或必须为输入中的每一行运行的小脚本。典型的输入是文件列表、主机列表、用户列表、URL 列表或表列表。作业也可以是从管道读取的命令。 GNU parallel 然后可以拆分输入并将其通过管道并行传输到命令中。
313 0
|
10月前
|
Java Shell Linux
如何在 shell 中实现并行执行
如何在 shell 中实现并行执行
144 0
|
安全 Unix Shell
掌握sh文件和shell脚本:如何在串行和并行模式下运行Python脚本
掌握sh文件和shell脚本:如何在串行和并行模式下运行Python脚本
|
Shell Perl
《懒人Shell脚本》之四——日志条数动态实时统计
1、需求点 1)输入:日志实时更新:当前日志表以秒级更新日志,每秒有多条日志更新。格式如下:
164 0
|
Shell 程序员
懒人Shell脚本》之四——日志条数动态实时统计
本文是《懒人Shell脚本》之四——日志条数动态实时统计详解
1018 0
|
Shell Python
python : 动态不刷屏幕输出 python/shell 实现
前言后台运行程序有一种需求,比如查看当前进度,想在终端看到某个值的变化情况: 先提供一种很土的办法,把进度落地文件为 例如 process,采用创建写的方式。然后可以使用watch -n 1 cat process来查看进度。
1508 0
|
Shell 数据安全/隐私保护 存储
下一篇
无影云桌面