数据中心出现故障在所难免,事后经过分析大部分根因都是人为因素导致,也就是人祸占据了所有故障原因的七成以上。一方面人们享受着自己设计的数据中心所能带来的工作和生活上的便利,另一方面也在承受着成长的烦恼,不断为自己的过失买单。其实不仅在数据中心领域,纵观上下数百年历史,很多灾难都来自于人祸。刘少奇在回顾解放初三年困难时期历史时,造成社会上到处闹浮肿,饿死人,非正常死亡人口达数千万的原因时,说“三分天灾,七分人祸”,最终原因基本都是人祸。任何活动只要有人的参与,就不可避免地存在出现人为差错的可能性,而机器出错的概率要比人低得多。远的不说,就在近期几起重要的断网事件都和人有关。2017年2月28日晚8点39分,百度移动端搜索发生故障,搜索请求无法显示结果,至晚9点21分恢复,历时42分钟。故障期间导致手机用户上亿次的搜索受到影响。事后,工信部立即紧急约谈百度公司,了解相关情况,要求互联网公司日后尽量防止类似问题再次发生。故障源自于软件更新中存在BUG(漏洞),导致服务器停止服务。在数据中心里运行着大量的软件系统,不可避免存在软件BUG,即使能够达到CMM5级别的单位,其代码缺陷率也不会低于千分之一,也就是一千行代码里至少有一个BUG,那些拥有上千万行代码的软件系统,BUG量可想而知。当然,一般人不会恶意在这些软件系统中增加BUG,大多是在无意识、经验不足、精力不集中等情况下造成的,但这就是人的因素导致的,说白了是人祸。这几天,全球最大的公有云服务商亚马逊的应用服务出现持续数小时故障。故障起因是AWS S3(云存储)团队在进行调试时输入了一条错误指令,本应该将少部分的S3计费流程服务器移除,可是最终意外地移去了大量的服务器,这一服务水平协议违约可能造成数百万乃至数千万美元的损失,这又是一例严重的人为故障。回想了从2011年到现在亚马逊出现了7次大规模的故障,大部分原因也都是来自人为。就在刚刚,微软大量的Xbox、Skype和Outlook用户抱怨他们的账户无法登录,提示账户不存在,这又是一次影响全球的大规模登录问题,虽然微软还未公布原因,但已经承认存在问题,说不定又是人为因素导致的。所以,一旦有人为参与较多的数据中心时,大多都不靠谱。
我们对比无人值守的数据中心和有人数据中心,不难发现,虽无人值守数据中心扩容业务,安装设备时经常人手不够,但整体运行稳定度要比有人的数据中心高得多,这些无人数据中心在首次业务上线之后,很少有人去修改或调整系统运行的各种参数,让数据中心自己运行,设备按照预定的程序指令运行,很少出错。相反,在那些运维人力强大的数据中心,经常遇到这样那样的故障,多和人为因素有关。不少数据中心已经意识到了这一点,所以将数据中心的控制权放在技术实力最强的总部,轻易不做变更,如因业务部署需要做变更,变更手续和申请过程非常严格,经常要经过设备厂家的确认、实验网模拟以及高层领导批准,再进行充分的方案讨论,最终才能去实施,这样数据中心的业务运行非常稳定,少有出错。很多数据中心很喜欢软件定义数据中心,就是希望可以通过软件来统一控制和管理整个数据中心,将所有的控制权集中,由少数几个技术实力雄厚的老专家控制,避免其它人胡乱改一通,引发一些未知故障。再或者直接将控制权交由软件,将人的操作和方案交给软件设备来执行,设备出错的概率要比人小得多,由软件自行管理整个数据中心,这样不仅可以降低人力成本,还可以减少人为出错的概率。
正所谓“成也萧何,败也萧何”,人是数据中心活动中的最重要因素,没有人的参与哪里来的数据中心,而偏偏人也同时给数据中心带来成长的烦恼。要想拥有一个运营良好的数据中心,必须重视运行系统或与系统交互的人。如果数据中心能投入时间在员工技术水平、培训、维护和运营等方面做出谨慎决策,往往能够避免多数灾难,让数据中心长期稳定运行。很多针对数据中心发起的攻击,都利用了人为的安全意识缺失而系统被攻破的。比如:2011年3月索尼公司遭黑,引发史上最严重的消费者资料“泄露”事故,超过7000万玩家的邮箱、密码、信用卡号等资料遭窃取。泄露的原因是索尼负责信息安全的员工,他没及时给跑着过期Apache Web server软件的服务器打补丁,也没有安装防火墙,结果门户大开,引狼入室,黑客轻而易举地盗取了内部数据。所以数据中心要通过有效的管理,规范的ITIL和IT服务实施,才能有效降低运维中的人为隐患。数据中心管理针对的重点应是人,而不是设备。
不难看出,数据中心的故障大多源自于人祸。运行中的数据中心,应减少人为参与的机会,要对人为行为进行充分的管理和评估。“三分技术,七分管理”,大量的事实表明,数据中心的好与差评判标准都是由管理水平的高低所决定的,而管理主要就是针对运维人的。加强运维人员的管理,提升运维人员的技能水平,才能减少人为犯错的机会,避免产生人祸。数据中心是一个非常复杂的IT系统,难免会出现这样那样的问题,从而引发故障,若能够通过有效管理减少其中人祸部分的因素,将能有效提升数据中心的运行稳定性。
原文发布时间为:2017-03-13
本文作者:harbor
本文来自云栖社区合作伙伴“51CTO”,了解相关信息可以关注“51CTO”