split job 报错的trouble shooting过程

简介:

先说结果,步骤为:


1)由job code查找报错的server name(production server)

2)在backup server上查找这个server备份任务用到的dg成员

3)通过命令查找dg备份任务的log

4)如果是因为pre脚本失败,手动执行分离,执行后其实任务就copy正常了

5)通知chops rerun job。

*********************************************************************************

详细步骤如下:

1)在表格中查找job code所属的server,在邮件中查找这个server,能找到alert的邮件,有报错的内容,或者在下面的第三步中找到。

2)在备份服务器(gdc jdc各两台,装dp的)的/opt/omni/lbin/SHELL/conf/ 路径下:ls |grep [server name ],可以找到和这个server相关的备份任务,如下图:

wKiom1apr7aiZQTVAAANbfqoCEg741.png

包含三个类型的任务,然后more一下任意一个,可以看到实际的dg,如下图:

wKiom1apsBmixIcKAAAHd7ZW_y0136.pngnim80201_vg1_pgmt01就是actual dg.只有一个,有时有很多个,理论上要一个一个的按下面第3)条的命令看看是哪个dg出的问题。

2016/02/24更新:

上面是DGC/DRC的处理方法。

2016/05/30更新:

GDC/DRC详细做法:

先说几个路径的功能:

1)/omni_shared/script/JP ->里面是job code, 例如GRW01A,这里面的内容有需要调用哪个datalist,主机名,load+mode, load有low,medium,high,备份mode有full还是incremtal,如下图:wKioL1dMNxOTTLy8AAAcpzRS__s781.png

2)/omni_shared/etc_opt_omni_server/datalist ->这里面就是datalist,里面描述了备份哪个raw disk device,用哪个driver,以及是physical 带库还是vtl带库。 ./cs |grep [datalist]

3)/opt/omni/lbin/SHELL/conf ->这里面是data list的信息,cat的话里面是DG信息,如下图:


wKiom1dMQGmQeZHZAAAvCuzwrso068.png

4)/omni_shared/script/conf -> 这里面也是datalist信息,cat的话里面是load+mode信息,如下图:

wKiom1dMQ6fzKqHEAAAYFXwKjcI453.png


所以逻辑是通过jobcode调用datalist,然后datalist调用dg信息.

下面是知道Jobcode之后的处理流程:

1)找到dalalist  ->cs->omni

2)  看上面的输出有可能只显示一个DG是precopy,但是需要去上面的3)那里查找所有DG信息,然后symclone -g [dg] que, 看是否precopy

3) 其实产生precopy的原因是split的job没有执行,要去server07上查看第5个path:

 /usr/local/admin/bc/jp ->这下面是server的名字,确定server的名字可以去上面3)路径下查DG,看DG前缀就是server name,然后cd进【server name】,下面是syn和split的job code,这些job syn/split上面3)路径下的所有DG,可以"./ [job code]"看是否能正常运行,如果正常运行,而且

symclone -g [dg] que是copied状态,说明是chow没有调用里面的job,因为如果手动是正常的。

************************************************************************************

在JDC,datalist=jobcode,不能按上面在路径下more datalist的方法,要用

                                       symdg list|grep -i [vg]

来查找dg.


3)查看dg是pre copy还是copied,通过命令:symclone -g [dg name] que,例如:

gepbkp05:/ # symclone -g gct9d201_vg1_pgmt_01 que

 Device Group (DG) Name: gct9d201_vg1_pgmt_01

DG's Type             : REGULAR

DG's Symmetrix ID     : 000298700592

          Source Device                   Target Device            State     Copy

--------------------------------- ---------------------------- ------------ ----

               Protected Modified                Modified

Logical   Sym  Tracks    Tracks   Logical   Sym  Tracks   CGDP SRC <=> TGT  (%)

--------------------------------- ---------------------------- ------------ ----

gct9d201* 1A49         0        0 gct9d201* 1D0A        0 XXXX PreCopy      100

gct9d201* 1A4A         0        0 gct9d201* 1D0B        0 XXXX PreCopy      100

Total           -------- --------                --------

  Track(s)             0        0                       0

  MB(s)              0.0      0.0                     0.0


4)如果显示是precopy的状态,说明copy还未分离,需要手动分离。命令为:

symclone -g [dg name ] activate -nop

其实执行完毕这个分离命令后,再按照symclone -g [dg name] que查找能发现状态已经改成copy了,但是还是需要通知chops rerun这个job,因为只有分离了才能开始copy,这个报错属于还没开始备份呢就报错了,通知rerun后,用./cs也能看到在跑了,有process了。





    本文转自UVN2015  51CTO博客,原文链接:http://blog.51cto.com/10851095/1739520,如需转载请自行联系原作者





相关文章
|
3月前
|
机器学习/深度学习 算法 数据挖掘
【博士每天一篇文论文-算法】A small-world topology enhances the echo state property and signal propagationlun
本文研究了小世界拓扑结构在回声状态网络(ESN)中的作用,发现具有层级和模块化组织的神经网络展现出高聚类系数和小世界特性,这有助于提高学习性能和促进信号传播,为理解神经信息处理和构建高效循环神经网络提供了新的视角。
37 0
【博士每天一篇文论文-算法】A small-world topology enhances the echo state property and signal propagationlun
|
3月前
|
搜索推荐 Docker 容器
生信分析代码之前还好好的,怎么就报错了 Error in Ops. data. frame(guide_loc, panel_loc) :'==' only defined for equally-sized data frames
执行 `DimPlot` 函数时遇到错误 `;Error in Ops. data. frame(g guides_loc, panel_loc) : &#39;==&#39; only defined for equally-sized data frames`。解决方案和办法
1023 0
生信分析代码之前还好好的,怎么就报错了 Error in Ops. data. frame(guide_loc, panel_loc) :'==' only defined for equally-sized data frames
|
5月前
(145) Table ‘./addon_collect_wukong_spider‘ is marked as crashed and should be repaired解决思路
(145) Table ‘./addon_collect_wukong_spider‘ is marked as crashed and should be repaired解决思路
26 0
工银e生活开发脱坑日志(7)Missing argument 6 for IcbcSignature::verify()
工银e生活开发脱坑日志(7)Missing argument 6 for IcbcSignature::verify()
61 0
《Towards A Fault-Tolerant Speaker Verification System A Regularization Approach To Reduce The Condition Number》电子版地址
Towards A Fault-Tolerant Speaker Verification System: A Regularization Approach To Reduce The Condition Number
86 0
《Towards A Fault-Tolerant Speaker Verification System A Regularization Approach To Reduce The Condition Number》电子版地址
【hacker的错误集】DeprecationWarning: find_element_by_* commands are deprecated.
DeprecationWarning: find_element_by_* commands are deprecated. Please use find_element() instead。依旧是使用单词意思分析报错原因
144 0
【hacker的错误集】DeprecationWarning: find_element_by_* commands are deprecated.
运行 ‘ApiApplication‘ 出错: Command line is too long. Shorten command line for ShopApiApplication or
运行 ‘ApiApplication‘ 出错: Command line is too long. Shorten command line for ShopApiApplication or
234 0
运行 ‘ApiApplication‘ 出错: Command line is too long. Shorten command line for ShopApiApplication or
PAT (Advanced Level) Practice - 1119 Pre- and Post-order Traversals(30 分)
PAT (Advanced Level) Practice - 1119 Pre- and Post-order Traversals(30 分)
124 0
PAT (Advanced Level) Practice - 1119 Pre- and Post-order Traversals(30 分)
SAP QM执行事务代码QE23为检验批录入结果,报错-No selected set exists for the inspection point 200 or plant NMDC-
SAP QM执行事务代码QE23为检验批录入结果,报错-No selected set exists for the inspection point 200 or plant NMDC-
SAP QM执行事务代码QE23为检验批录入结果,报错-No selected set exists for the inspection point 200 or plant NMDC-
|
网络协议
SAP公司间STO里发货单过账后触发的IDoc报错 – Could not find code page for receiving system –
SAP公司间STO里发货单过账后触发的IDoc报错 – Could not find code page for receiving system –
SAP公司间STO里发货单过账后触发的IDoc报错 – Could not find code page for receiving system –