海量数据迁移之使用shell启用多个动态并行-阿里云开发者社区

开发者社区> 青夜之衫> 正文

海量数据迁移之使用shell启用多个动态并行

简介:
+关注继续查看

在数据迁移中,可能有成百上千个表,有些表很大,有些表又很小。
如果启用了多个并行的进程,可能会有资源分配上的问题。
比如下面有10个表,100代表预计的时间为100分钟。

table1  100
table2  90
table3  90
table4  80
table5  80
table6  70
table7  60
table8  60
table9  50
table10 40

如果分为4个进程来并行执行,可能一种比较理想的方案就是

parallel1: table1,table8
parallel2: table2,table5,table9
parallel3: table3,table6,table9
parallel4: table4,table7

但是在实际的执行中,可能因为表的分区,表的数据类型,表的存储的不同,可能实际的执行时间会有很大的差别,
可能paralle2,3,4已经执行完了,而parallel1还没有执行完50%。
这样,table8就一直pending在那了。

在这样的情况下,可以考虑使用动态并行,就是能够在后台启用一些并行的进程,比如需要4个并行进程,就使用nohup启用4个并行的进程。
不做具体的数据操作。

parfile=par2_tab_parall.lst
logfile=`echo $parfile|awk -F. '{print $1}`".log"
while true
do
if [ -f $parfile ]
then
   tab_exists_flag=`cat $parfile |wc -l`
   if [ ${tab_exists_flag} -eq 0 ]
     then
      sleep 5;
   elif [ ${tab_exists_flag} -gt 0 ]
     then
     tab_name=`cat $parfile`
     ksh appendata.sh $tab_name >> $logfile 
     touch ${parfile}.tmp
     mv ${parfile}.tmp ${parfile} 
   fi
fi
done

我们使用appendata.sh来模拟实现数据的插入,其实不会做数据的真实插入,这是模拟日志的内容。

echo $1
sqlplus -s  n1/n1 < set time on 
set timin on
set pages 0
select 'insert into '||'$1;' from dual;

select 'commit;' from dual;
EOF
if [ $? -eq 0 ]
then
echo '' >parallel1.lst
fi

使用如下的命令来启用一个进程,比如下面的命令启用进程2,如果启用其他的进程,命令类似

nohup ksh par2.sh > par2_tab_parall.log &

只需要在一个文件中放入处理的表名即可。如果是进程2,就在par2_tab_parall.lst中放入表名,假设表为test
par2_tab_parall.lst
[ora11g@rac1 parallel]$ cat par2_tab_parall.lst
test

如果放入表test,之后,就会发现第2个进程就开始处理表test了

test
insert into test;

Elapsed: 00:00:00.00
commit;

Elapsed: 00:00:00.01

再放入一个表,马上就会发现进程开始处理表tab_test了,如果没有表的时候,它就在后台做sleep工作。

[ora11g@rac1 parallel]$ echo tab_test > par2_tab_parall.lst

tab_test
insert into tab_test;

Elapsed: 00:00:00.01
commit;

Elapsed: 00:00:00.00

本文转自ICT时空 dbasdk博客,原文链接:海量数据迁移之使用shell启用多个动态并行 ,如需转载请自行联系原博主。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
在医疗保健中使用AI:将数据转化为行动
在医疗保健领域,不乏支持人工智能(AI)好处的统计、调查和行业炒作。人工智能已经在我们的日常生活中发挥了重要作用。医疗保健可能是人工智能对我们日常生活影响最大的领域之一。尽管如此,我们才刚刚开始了解人工智能在医疗服务方面的作用。
214 0
《Greenplum5.0 最佳实践》 迁移数据使用Gptransfer
使用 gptransfer 完成 GPDB 集群间数据迁移任务
4517 0
shell使用lftp连接ftp和sftp,并可以指定私钥
lftp连接ftp在脚本中可以 lftp -c "open username:password@host:port; ls /Friso/20180822/click/mobile/SUCCESS | wc -l" lftp usename:password@host:port -e "ls /Fr...
2343 0
Jquery利用ajax调用asp.net webservice的各种数据类型(总结篇)
转自:http://www.cnblogs.com/aierong/archive/2012/10/13/jqueryDataSetDataTablewebServicejsonajaxxml.html
610 0
大数据与海量数据的区别
       如果仅仅是海量的结构性数据,那么解决的办法就比较的单一,用户通过购买更多的存储设备,提高存储设备的效率等解决此类问题。然而,当人们发现数据库中的数据可以分为三种类型:结构性数据、非结构性数据以及半结构性数据等复杂情况时,问题似乎就没有那么简单了。
1522 0
使用 advanced installer 为 winform 做自动更新
原文:使用 advanced installer 为 winform 做自动更新 advanced installer 是一款打包程序,基于 windows installer 并扩展了一些功能,比如安装统计,自动更新,授权验证等,本文将介绍你如果使用 advanced installer(以下简称 ai) 为 winform 做自动更新。
1433 0
C#选择多个文件并读取多个文件数据
原文:C#选择多个文件并读取多个文件数据 版权声明:本文为博主原创文章,转载请附上链接地址。 https://blog.csdn.net/ld15102891672/article/details/80586097 ...
893 0
+关注
1028
文章
0
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载