开发者社区> 玄学酱> 正文
阿里云
为了无法计算的价值
打开APP
阿里云APP内打开

高效处理数据中心故障的八条军规

简介:
+关注继续查看
数据中心要全天候运行,难免会出现这样那样的故障。出现故障后,如何迅速找到故障原因并消除故障是一个数据中心运维效率的最直接体现。数据中心一旦发生故障,影响了数据业务,将给数据中心带来巨大的经济损失,有时甚至是毁灭性的打击,所以数据中心都不希望出现任何的故障。当然,愿望是美好的,现实是残酷的,数据中心包含有太多的电子设备和大量的软件,虽然部署了很多的备份技术和设备,但依然很难做到永远都不出故障。那么问题来了,一旦数据中心出现了故障,该如何高效处理?本文将针对如何处理数据中心故障列出八条“军规”,建议遇到数据中心故障时,能遵守这些“军规”,尽量减少故障给数据中心带来的损失,同时避免相同的故障出现第二次。
 
第一条:摸清故障现象
 
数据中心的故障表现复杂多样,先要弄清楚故障现象是什么?一般数据中心故障都是先从应用层面表现出来,如果从这些方面开始分析,很容易走错方向。比如:应用部分反馈访问网页慢、支付系统完成不了支付、游戏业务玩不了了等等,这些应用业务的故障表现往往是片面的,不同技术水平的人和不同的业务部门的人反馈的故障现象都有差别,很容易让人不知道该从何查起。这时要对反馈的故障现象进行收集和整理,找出其中的共性。所谓摸清故障现象,就是找出此时数据中心里统一的故障现象。
 
第二条:测试并确认故障范围
 
根据故障现象,我们要查看这些故障是否来自于同一台服务器、同一条链路或者是同一台网络设备等。所有的应用业务都是在这些物理硬件设备上运行的,其中的任何一个环节的设备出现故障,都会导致问题。此时,各种网络探测诊断工具就派上用场了。通过使用PING、Tracert、镜像、流量统计、抓包等一系列手段,确定故障位置。经过这样一系列的诊断,可以将故障范围缩小到某一台设备或只有数台设备的网络区域。
 
第三条:尝试定位
 
一个经验丰富的数据中心技术人员,往往可以根据故障表现迅速找到故障原因。这时,如果故障影响是可以容忍的,在条件允许的情况下,可以尝试定位问题,试图找到触发此次故障的根本原因。此时技术人员一定要思路清晰,一步步来采集各种信息,深入分析。数据中心里有太多的设备,这些设备来自不同厂家,各自的技术特点也不同,没有哪个数据中心技术人员能全部掌握,如果在短时间内无法定位问题,或者是分析来分析去已经没有任何思路,此时就要放弃继续定位。
 
第四条:收集故障时必要信息
 
一定要在故障的时候收集一些设备的日志、诊断、操作记录、内部隐藏信息,很多信息是设备厂家要求在故障时收集的,要按照厂家的要求将信息收集完整,以便这些信息可以供设备厂家分析,日后找出故障发生的原因。很多时候,数据中心的技术人员急于恢复业务,往往忽略收集这些信息,这将为日后定位问题造成了极大难度。
 
第五条:故障恢复
 
为了尽快消除故障,需要对故障进行恢复。此时不要上来就对疑似故障的设备直接重启或者更换、下电,这样极有可能会造成更为严重的故障。本来原来的故障可能只是偶尔有访问出错,有丢包,经过设备重启就可能造成整网的业务中断。故障恢复的操作应该从轻到重,逐步来尝试执行。比如路由异常,可以先对特定路由进行删除重建,不行的话,再对某一个邻居进行复位重建,还不行的话再对整个路由协议进行重建,这样一来最严重也是影响这一类路由协议的转发,对其它业务并没有影响。还是不行再考虑重启框式设备的板卡,再不行再考虑重启整机设备,此时也尽量不要断电重启,很多设备只要不是断电重启还是会留下一些有意义的历史记录信息。如果数据中心的各个故障环节都是备份系统,可以暂时将业务迁移到备份系统上来,故障的主用系统继续保留,供技术人员继续排查故障,直到找到故障原因,彻底消除后,再将业务切换回来。
 
第六条:再次验证业务的正确性
 
故障恢复后,要再次对数据中心承载的业务进行各种测试,看是否所有的业务都恢复正常,同时与各个业务部门人员交流,确认业务的正确性。当得到准确反馈,所有业务都恢复正常后,再停止业务验证。
 
第七条:长时间观察
 
数据中心故障有时会容易反复,尤其是在没有找到故障原因的情况下,所有的故障恢复手段都可能不是很有效的,很可能会再次出现故障。这时要密切关注数据中心业务运行情况,一旦发现异常,及时处理。
 
第八条:分析故障原因,总结经验教训
 
故障发生后,在还未明确故障原因的情况下,及时将收集的信息发给设备厂商,协同分析,在事后故障分析上要投入大量的人力、物力,直到找到故障原因。如果无法找到故障原因,对于数据中心是最可怕的事情,很可能会再次发生,造成二次的损失,所以要在故障分析上多投入,直到找到故障原因。找到故障原因后,要对产生这次故障的原因进行深入分析,结合目前数据中心的运行状况,看是否有改进的空间,及时总结故障处理过程中不足的地方,对薄弱环节进行加强,避免同样的故障再次发生。
 
处理数据中心故障要严格依照这八条“军规”,只有这样才能在遇到故障时,处理起来有章法、高效率,并能够在处理故障的过程中积累实践经验,不断提升数据中心的运维水平。




====================================分割线================================

本文转自d1net(转载)

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
数据库故障恢复机制的前世今生
在数据库系统发展的历史长河中,故障恢复问题始终伴随左右,也深刻影响着数据库结构的发展变化。通过故障恢复机制,可以实现数据库的两个至关重要的特性:Durability of Updates以及Failure Atomic,也就是我们常说的的ACID中的A和D。文章将首先描述故障恢复问题本身;然后按照基本的时间顺序介绍传统数据库中故障恢复机制的演进及优化;之后思考新硬件带来的机遇与挑战;并引出围绕新硬件的两个不同方向的研究成果。
31 0
磁盘阵列故障数据恢复常规思路--谈数据恢复心得
在服务器磁盘阵列出现故障以后,一般情况下会采用两种方法来处理:一是设备厂家对故障设备进行处理及恢复,比如更换坏件、重配Raid等;二是找专业的数据恢复公司来处理,先把重要数据恢复出来,然后才进行硬件设备维修。
1042 0
海量的物联网数据处理应该怎么部署
目前,许多企业正在采用物联网来使用数据,从而更好地了解其运营情况,做出更明智的决策,重新定位客户参与度,并重新思考如何创造价值。随着低成本传感器,弹性计算和数据科学的快速发展,许多行业观察家期望企业迅速部署物联网设备。
1282 0
PLSQL_海量数据处理系列2_分区
2013-05-02 Created By BaoXinjian       Thanks and RegardsERP技术讨论群: 288307890 技术交流,技术讨论,欢迎加入 Technology Blog Created By Oracle ERP - 鲍新建
644 0
C#如何快速高效地导出大量数据?
本文转载:http://www.cnblogs.com/herbert/archive/2010/07/28/1787095.html   在C#里面如果对应的把datagridview里面的每个cell的数据一个一个地对应的写入到excel,你会发现非常的慢,这个时候,你可以先把datagrid里面的数据放入到一个二维的string数组里面, 然后利用range对象的value赋值,那样会快很多。
946 0
+关注
玄学酱
这个时候,玄酱是不是应该说点什么...
20683
文章
438
问答
文章排行榜
最热
最新
相关电子书
更多
低代码开发师(初级)实战教程
立即下载
阿里巴巴DevOps 最佳实践手册
立即下载
冬季实战营第三期:MySQL数据库进阶实战
立即下载