split job 报错的trouble shooting过程

简介:

先说结果,步骤为:


1)由job code查找报错的server name(production server)

2)在backup server上查找这个server备份任务用到的dg成员

3)通过命令查找dg备份任务的log

4)如果是因为pre脚本失败,手动执行分离,执行后其实任务就copy正常了

5)通知chops rerun job。

*********************************************************************************

详细步骤如下:

1)在表格中查找job code所属的server,在邮件中查找这个server,能找到alert的邮件,有报错的内容,或者在下面的第三步中找到。

2)在备份服务器(gdc jdc各两台,装dp的)的/opt/omni/lbin/SHELL/conf/ 路径下:ls |grep [server name ],可以找到和这个server相关的备份任务,如下图:

wKiom1apr7aiZQTVAAANbfqoCEg741.png

包含三个类型的任务,然后more一下任意一个,可以看到实际的dg,如下图:

wKiom1apsBmixIcKAAAHd7ZW_y0136.pngnim80201_vg1_pgmt01就是actual dg.只有一个,有时有很多个,理论上要一个一个的按下面第3)条的命令看看是哪个dg出的问题。

2016/02/24更新:

上面是DGC/DRC的处理方法。

2016/05/30更新:

GDC/DRC详细做法:

先说几个路径的功能:

1)/omni_shared/script/JP ->里面是job code, 例如GRW01A,这里面的内容有需要调用哪个datalist,主机名,load+mode, load有low,medium,high,备份mode有full还是incremtal,如下图:wKioL1dMNxOTTLy8AAAcpzRS__s781.png

2)/omni_shared/etc_opt_omni_server/datalist ->这里面就是datalist,里面描述了备份哪个raw disk device,用哪个driver,以及是physical 带库还是vtl带库。 ./cs |grep [datalist]

3)/opt/omni/lbin/SHELL/conf ->这里面是data list的信息,cat的话里面是DG信息,如下图:


wKiom1dMQGmQeZHZAAAvCuzwrso068.png

4)/omni_shared/script/conf -> 这里面也是datalist信息,cat的话里面是load+mode信息,如下图:

wKiom1dMQ6fzKqHEAAAYFXwKjcI453.png


所以逻辑是通过jobcode调用datalist,然后datalist调用dg信息.

下面是知道Jobcode之后的处理流程:

1)找到dalalist  ->cs->omni

2)  看上面的输出有可能只显示一个DG是precopy,但是需要去上面的3)那里查找所有DG信息,然后symclone -g [dg] que, 看是否precopy

3) 其实产生precopy的原因是split的job没有执行,要去server07上查看第5个path:

 /usr/local/admin/bc/jp ->这下面是server的名字,确定server的名字可以去上面3)路径下查DG,看DG前缀就是server name,然后cd进【server name】,下面是syn和split的job code,这些job syn/split上面3)路径下的所有DG,可以"./ [job code]"看是否能正常运行,如果正常运行,而且

symclone -g [dg] que是copied状态,说明是chow没有调用里面的job,因为如果手动是正常的。

************************************************************************************

在JDC,datalist=jobcode,不能按上面在路径下more datalist的方法,要用

                                       symdg list|grep -i [vg]

来查找dg.


3)查看dg是pre copy还是copied,通过命令:symclone -g [dg name] que,例如:

gepbkp05:/ # symclone -g gct9d201_vg1_pgmt_01 que

 Device Group (DG) Name: gct9d201_vg1_pgmt_01

DG's Type             : REGULAR

DG's Symmetrix ID     : 000298700592

          Source Device                   Target Device            State     Copy

--------------------------------- ---------------------------- ------------ ----

               Protected Modified                Modified

Logical   Sym  Tracks    Tracks   Logical   Sym  Tracks   CGDP SRC <=> TGT  (%)

--------------------------------- ---------------------------- ------------ ----

gct9d201* 1A49         0        0 gct9d201* 1D0A        0 XXXX PreCopy      100

gct9d201* 1A4A         0        0 gct9d201* 1D0B        0 XXXX PreCopy      100

Total           -------- --------                --------

  Track(s)             0        0                       0

  MB(s)              0.0      0.0                     0.0


4)如果显示是precopy的状态,说明copy还未分离,需要手动分离。命令为:

symclone -g [dg name ] activate -nop

其实执行完毕这个分离命令后,再按照symclone -g [dg name] que查找能发现状态已经改成copy了,但是还是需要通知chops rerun这个job,因为只有分离了才能开始copy,这个报错属于还没开始备份呢就报错了,通知rerun后,用./cs也能看到在跑了,有process了。





    本文转自UVN2015  51CTO博客,原文链接:http://blog.51cto.com/10851095/1739520,如需转载请自行联系原作者





相关文章
|
机器学习/深度学习 数据采集
ValueError: Found input variables with inconsistent numbers of samples: [140, 1120] 怎么解决?
这个错误通常发生在机器学习模型的训练中,它表示输入数据的样本数量不一致。在你的情况下,你的输入数据中有两个变量,一个变量的样本数量为140,另一个变量的样本数量为1120,因此这个错误就出现了。 为了解决这个问题,你需要确保所有输入变量的样本数量是相同的。你可以通过以下几种方式来解决这个问题: 检查数据:检查数据是否正确加载,可能会导致数据样本数量不一致。 数据清洗:检查是否有重复的样本或者缺失的样本,如果有则需要对数据进行清洗。 数据对齐:如果你使用了多个数据源,那么你需要对它们进行对齐以确保它们的样本数量一致。 数据重采样:如果数据中有不均衡的样本数量,你可以考虑使用数据重采样方
642 0
《Fighting Cybercrime A Joint Task Force of Real-Time Data and Human Analytics》电子版地址
Fighting Cybercrime: A Joint Task Force of Real-Time Data and Human Analytics
57 0
《Fighting Cybercrime A Joint Task Force of Real-Time Data and Human Analytics》电子版地址
|
自然语言处理
Re26:读论文 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks
Re26:读论文 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks
Re26:读论文 Don’t Stop Pretraining: Adapt Language Models to Domains and Tasks
【hacker的错误集】DeprecationWarning: find_element_by_* commands are deprecated.
DeprecationWarning: find_element_by_* commands are deprecated. Please use find_element() instead。依旧是使用单词意思分析报错原因
110 0
【hacker的错误集】DeprecationWarning: find_element_by_* commands are deprecated.
HDOJ 1096 A+B for Input-Output Practice (VIII)
HDOJ 1096 A+B for Input-Output Practice (VIII)
78 0
HDOJ 1095 A+B for Input-Output Practice (VII)
HDOJ 1095 A+B for Input-Output Practice (VII)
79 0
BUG! exception in phase semantic analysis in source unit
BUG! exception in phase semantic analysis in source unit
315 0
BUG! exception in phase semantic analysis in source unit
why My Lead OPA test add Lead fails
why My Lead OPA test add Lead fails
104 0
why My Lead OPA test add Lead fails
How to cancel an ATC check periodic job
How to cancel an ATC check periodic job
How to cancel an ATC check periodic job
my Lead add Lead test
Created by Wang, Jerry, last modified on Jul 06, 2016
my Lead add Lead test

热门文章

最新文章