海量数据迁移之通过shell估算数据量

简介: 在数据迁移的时候,需要根据用户量来评估需要在表空间理添加的空间大小。比如迁移5百万的用户和迁移200万,两者需要添加的数据量差别很大,在资源有限的情况下,需要一些比较合理的估算,毕竟在生产环境中做数据加载的时候报了空间不足的问题就是准备太不充分了,稍后的数据修复任务就难上加难。
在数据迁移的时候,需要根据用户量来评估需要在表空间理添加的空间大小。比如迁移5百万的用户和迁移200万,两者需要添加的数据量差别很大,在资源有限的情况下,需要一些比较合理的估算,毕竟在生产环境中做数据加载的时候报了空间不足的问题就是准备太不充分了,稍后的数据修复任务就难上加难。
比如我们现在客户提供了如下的信息,需要我们评估一下在目前的用户基础上迁移几百万用户需要添加的空间。
表空间假设是如下的存储情况。DATA开头的表空间存放表数据,INDX开头的表空间存放索引数据。
Tablespace Init extent Total MB Free MB Used MB
-------------------- ---- ------------ ---------- -----------
DATAH01 16M 572,113 135,408 436,705
DATAL01 8M 216,179 141,360 74,819
DATAM01 4M 291,840 85,280 206,560
DATAS01 1M 302,080 74,508 227,572
INDXH01 4M 174,033 96,256 77,777
INDXM01 2M 141,312 56,812 84,500
INDXS01 128K 240,640 72,241 168,399
sum   1,938,197 661,865 1,276,332

现在得到的是整个数据库的存储情况。用户说现在库里还有600G左右的空间,让我们评估一下再迁移几百万的用户的情况需要多少空间。
比如数据库里用到的表有1000张,可能做数据迁移的时候关联的表只有100张。那么我们不能按照如下的比例来做计算。
10%*total_size*新添加的用户占用的比率

这样肯定是不科学的,而且估算的空间肯定是偏小的。
比如memo这一个表就80多个G,按照百分比计算就会出问题。

TABLE_NAME                        SIZE_MB TABLESPACE_NAME
------------------------------ ---------- ------------------------------
MEMO                            81613 DATAS01

而从客户的角度出发,他们需要的结果类似下面的表格内容。
如果提供了如下的表格,客户一看就一目了然,大概需要添加多少的空间。
INDEX_SIZE TOTAL_SIZE INDXH01 INDXM01 INDXS01  
sum 306093 62836 57302 185392  
           
           
TABLE_SIZE TOTAL_SIZE DATAH01 DATAL01 DATAM01 DATAS01
sum 546981 132944 72400 126508 215129


我采用了如下的两个shell脚本来做计算。
如下的 脚本计算存放表数据的表空间的数据量
我们假设我们有一个文件,里面是数据迁移中用到的表清单,取名为tablst,然后通过如下的脚本来做计算。

awk '{print "'\''" $1 "'\''" ","}' tablst |sed -e '/^$/d' -e '$s/.$//' > tablst.temp
table_list=`cat tablst.temp`

sqlplus -s  xxxxxxx set linesize 200
set pages 100
col table_name format a30
break on report
compute sum of total_size on report
compute sum of INDXH01 on report
compute sum of INDXM01 on report
compute sum of INDXS01 on report

 select table_name,
      sum(size_MB) total_size,
      sum(decode(tablespace_name,'INDXH01', size_MB,0)) INDXH01,
      sum(decode(tablespace_name,'INDXM01', size_MB,0)) INDXM01,
      sum(decode(tablespace_name,'INDXS01', size_MB,0)) INDXS01
     from (select idx.table_name, round(sum(seg.bytes/1024/1024)) size_MB,seg.tablespace_name from  user_segments seg,user_indexes idx where seg.segment_name=idx.index_name and  idx.table_name='MO1_MEMO' group by idx.table_name,seg.tablespace_name)
    group by table_name;

EOF
rm tablst.temp


假设我们我们计算3个表。MEMO,CHARGE,CHARGE_REL,运行脚本后我们得到如下的清单,就很清楚的看到,哪些表占用了多少空间,在哪个表空间。
TABLE_NAME                     TOTAL_SIZE    DATAH01    DATAL01    DATAM01    DATAS01
------------------------------ ---------- ---------- ---------- ---------- ----------
    CHARGE                         104720     104720          0          0          0
    MEMO                            81613          0          0          0      81613
CHARGE_REL                          12672      12672          0          0          0
                               ---------- ---------- ---------- ---------- ----------
sum                                199005     117392          0          0      81613

通过如下的脚本来估算索引的表空间使用情况。

awk '{print "'\''" $1 "'\''" ","}' tablst |sed -e '/^$/d' -e '$s/.$//' > tablst.temp
table_list=`cat tablst.temp`

sqlplus -s  xxxx set linesize 200
set pages 100
col table_name format a30
break on report
compute sum of total_size on report
compute sum of DATAH01 on report
compute sum of DATAH01 on report
compute sum of DATAL01 on report
compute sum of DATAM01 on report
compute sum of DATAS01 on report
 select table_name,
      sum(size_MB) total_size,
      sum(decode(tablespace_name,'DATAH01', size_MB,0)) DATAH01,
      sum(decode(tablespace_name,'DATAL01', size_MB,0)) DATAL01,
      sum(decode(tablespace_name,'DATAM01', size_MB,0)) DATAM01,
      sum(decode(tablespace_name,'DATAS01', size_MB,0)) DATAS01
     from (select segment_name table_name, round(sum(bytes/1024/1024)) size_MB,tablespace_name from  user_segments where segment_name in ($table_list) group by segment_name,tablespace_name)
    group by table_name;

EOF
rm tablst.temp

运行后得到的如下的一个清单,就可以看到表对应索引的存储情况。
TABLE_NAME                     TOTAL_SIZE    INDXH01    INDXM01    INDXS01
------------------------------ ---------- ---------- ---------- ----------
    CHARGE                          27004      21620          0       5384
       CHARGE_REL                  28868      28868          0          0
    MEMO                            33999          0          0      33710
                               ---------- ---------- ---------- ----------
sum                                 89871      50488          0      39094

得到了如上的列表,需要评估数据量的情况就有思路了。
可以基于当前数据库中的剩余空间来排查目前的空间是否足够,如果不够需要添加多少。

Tablespace Init extent Total MB Free MB Used MB
-------------------- ---- ------------ ---------- -----------
DATAH01 16M 572,113 135,408 436,705
DATAL01 8M 216,179 141,360 74,819
DATAM01 4M 291,840 85,280 206,560
DATAS01 1M 302,080 74,508 227,572
INDXH01 4M 174,033 96,256 77,777
INDXM01 2M 141,312 56,812 84,500
INDXS01 128K 240,640 72,241 168,399
sum   1,938,197 661,865 1,276,332

得到一个基本的清单,我们就需要加入一定的buffer空间,个人觉得控制在30%左右比较好。这样留有一定富余。
最后给客户的建议就是如下的清单,客户一看就一目了然。

INDXM01 +50G

INDXS01 +100G

DATAM01 +50G

DATAS01 +100G


    

目录
相关文章
|
Shell 数据安全/隐私保护 存储
|
SQL Oracle 关系型数据库
使用shell批量生成数据整合式迁移的脚本
对于数据整合式迁移,基本就是小霸王的二合一,四合一,八合一这样的节奏,把几个尽可能相关业务的数据库中的数据整合到一个库里。彼此还是独立的schema,倒也是相安无事。 在这种整合式迁移中,比较让人纠结的部分就是性能不是排第一位,而是迁移前的准备比较琐碎。
1047 0
|
6月前
|
关系型数据库 MySQL Shell
MySQL 备份 Shell 脚本:支持远程同步与阿里云 OSS 备份
一款自动化 MySQL 备份 Shell 脚本,支持本地存储、远程服务器同步(SSH+rsync)、阿里云 OSS 备份,并自动清理过期备份。适用于数据库管理员和开发者,帮助确保数据安全。
|
4月前
|
存储 Unix Shell
确定Shell脚本在操作系统中的具体位置方法。
这对于掌握Linux的文件系统组织结构和路径方面的理解很有帮助,是我们日常工作和学习中都可能使用到的知识。以上讲解详细清晰,应用简便,是每一个想要精通操作系统的计算机爱好者必备的实用技能。
99 17
|
4月前
|
Linux Shell
Centos或Linux编写一键式Shell脚本删除用户、组指导手册
Centos或Linux编写一键式Shell脚本删除用户、组指导手册
116 4
|
4月前
|
Linux Shell 数据安全/隐私保护
Centos或Linux编写一键式Shell脚本创建用户、组、目录分配权限指导手册
Centos或Linux编写一键式Shell脚本创建用户、组、目录分配权限指导手册
256 3
|
5月前
|
Linux Shell
在Linux、CentOS7中设置shell脚本开机自启动服务
以上就是在CentOS 7中设置shell脚本开机自启动服务的全部步骤。希望这个指南能帮助你更好地管理你的Linux系统。
407 25