数据中心故障大多源自于人祸

简介:

数据中心出现故障在所难免,事后经过分析大部分根因都是人为因素导致,也就是人祸占据了所有故障原因的七成以上。一方面人们享受着自己设计的数据中心所能带来的工作和生活上的便利,另一方面也在承受着成长的烦恼,不断为自己的过失买单。其实不仅在数据中心领域,纵观上下数百年历史,很多灾难都来自于人祸。刘少奇在回顾解放初三年困难时期历史时,造成社会上到处闹浮肿,饿死人,非正常死亡人口达数千万的原因时,说“三分天灾,七分人祸”,最终原因基本都是人祸。任何活动只要有人的参与,就不可避免地存在出现人为差错的可能性,而机器出错的概率要比人低得多。远的不说,就在近期几起重要的断网事件都和人有关。2017年2月28日晚8点39分,百度移动端搜索发生故障,搜索请求无法显示结果,至晚9点21分恢复,历时42分钟。故障期间导致手机用户上亿次的搜索受到影响。事后,工信部立即紧急约谈百度公司,了解相关情况,要求互联网公司日后尽量防止类似问题再次发生。故障源自于软件更新中存在BUG(漏洞),导致服务器停止服务。在数据中心里运行着大量的软件系统,不可避免存在软件BUG,即使能够达到CMM5级别的单位,其代码缺陷率也不会低于千分之一,也就是一千行代码里至少有一个BUG,那些拥有上千万行代码的软件系统,BUG量可想而知。当然,一般人不会恶意在这些软件系统中增加BUG,大多是在无意识、经验不足、精力不集中等情况下造成的,但这就是人的因素导致的,说白了是人祸。这几天,全球最大的公有云服务商亚马逊的应用服务出现持续数小时故障。故障起因是AWS S3(云存储)团队在进行调试时输入了一条错误指令,本应该将少部分的S3计费流程服务器移除,可是最终意外地移去了大量的服务器,这一服务水平协议违约可能造成数百万乃至数千万美元的损失,这又是一例严重的人为故障。回想了从2011年到现在亚马逊出现了7次大规模的故障,大部分原因也都是来自人为。就在刚刚,微软大量的Xbox、Skype和Outlook用户抱怨他们的账户无法登录,提示账户不存在,这又是一次影响全球的大规模登录问题,虽然微软还未公布原因,但已经承认存在问题,说不定又是人为因素导致的。所以,一旦有人为参与较多的数据中心时,大多都不靠谱。

我们对比无人值守的数据中心和有人数据中心,不难发现,虽无人值守数据中心扩容业务,安装设备时经常人手不够,但整体运行稳定度要比有人的数据中心高得多,这些无人数据中心在首次业务上线之后,很少有人去修改或调整系统运行的各种参数,让数据中心自己运行,设备按照预定的程序指令运行,很少出错。相反,在那些运维人力强大的数据中心,经常遇到这样那样的故障,多和人为因素有关。不少数据中心已经意识到了这一点,所以将数据中心的控制权放在技术实力最强的总部,轻易不做变更,如因业务部署需要做变更,变更手续和申请过程非常严格,经常要经过设备厂家的确认、实验网模拟以及高层领导批准,再进行充分的方案讨论,最终才能去实施,这样数据中心的业务运行非常稳定,少有出错。很多数据中心很喜欢软件定义数据中心,就是希望可以通过软件来统一控制和管理整个数据中心,将所有的控制权集中,由少数几个技术实力雄厚的老专家控制,避免其它人胡乱改一通,引发一些未知故障。再或者直接将控制权交由软件,将人的操作和方案交给软件设备来执行,设备出错的概率要比人小得多,由软件自行管理整个数据中心,这样不仅可以降低人力成本,还可以减少人为出错的概率。

正所谓“成也萧何,败也萧何”,人是数据中心活动中的最重要因素,没有人的参与哪里来的数据中心,而偏偏人也同时给数据中心带来成长的烦恼。要想拥有一个运营良好的数据中心,必须重视运行系统或与系统交互的人。如果数据中心能投入时间在员工技术水平、培训、维护和运营等方面做出谨慎决策,往往能够避免多数灾难,让数据中心长期稳定运行。很多针对数据中心发起的攻击,都利用了人为的安全意识缺失而系统被攻破的。比如:2011年3月索尼公司遭黑,引发史上最严重的消费者资料“泄露”事故,超过7000万玩家的邮箱、密码、信用卡号等资料遭窃取。泄露的原因是索尼负责信息安全的员工,他没及时给跑着过期Apache Web server软件的服务器打补丁,也没有安装防火墙,结果门户大开,引狼入室,黑客轻而易举地盗取了内部数据。所以数据中心要通过有效的管理,规范的ITIL和IT服务实施,才能有效降低运维中的人为隐患。数据中心管理针对的重点应是人,而不是设备。

不难看出,数据中心的故障大多源自于人祸。运行中的数据中心,应减少人为参与的机会,要对人为行为进行充分的管理和评估。“三分技术,七分管理”,大量的事实表明,数据中心的好与差评判标准都是由管理水平的高低所决定的,而管理主要就是针对运维人的。加强运维人员的管理,提升运维人员的技能水平,才能减少人为犯错的机会,避免产生人祸。数据中心是一个非常复杂的IT系统,难免会出现这样那样的问题,从而引发故障,若能够通过有效管理减少其中人祸部分的因素,将能有效提升数据中心的运行稳定性。


原文发布时间为:2017-03-13

本文作者:harbor

本文来自云栖社区合作伙伴“51CTO”,了解相关信息可以关注“51CTO” 

目录
相关文章
|
3天前
|
存储 运维 区块链
区块链技术对数据中心的潜在影响
区块链技术对数据中心的潜在影响
|
6月前
|
存储 传感器 监控
探索现代数据中心的冷却技术革新
【4月更文挑战第23天】 在信息技术迅猛发展的今天,数据中心作为计算和存储的核心枢纽,其稳定性和效率至关重要。然而,随着处理能力的增强,设备发热量急剧上升,有效的冷却方案成为确保数据中心持续运行的关键因素。本文将深入分析当前数据中心面临的热管理挑战,并探讨几种前沿的冷却技术,包括液冷系统、热管技术和环境自适应控制策略。通过比较不同技术的优缺点,我们旨在为数据中心管理者提供实用的冷却解决方案参考。
|
3月前
|
机器学习/深度学习 存储 监控
利用机器学习技术优化数据中心能效
【7月更文挑战第36天】在数据中心管理和运营中,能源效率已成为关键性能指标之一。随着能源成本的不断上升以及环境保护意识的增强,开发智能化、自动化的解决方案以降低能耗和提高能源利用率变得尤为重要。本文探讨了如何应用机器学习技术对数据中心的能源消耗进行建模、预测和优化,提出了一个基于机器学习的框架来动态调整资源分配和工作负载管理,以达到节能的目的。通过实验验证,该框架能够有效减少数据中心的能耗,同时保持服务质量。
|
6月前
|
存储 大数据 数据处理
探索现代数据中心的冷却技术
【5月更文挑战第25天】 在信息技术迅猛发展的今天,数据中心作为其核心基础设施之一,承载了巨大的数据处理需求。随着服务器密度的增加和计算能力的提升,数据中心的能耗问题尤其是冷却系统的能效问题日益凸显。本文将深入探讨现代数据中心所采用的高效冷却技术,包括液冷解决方案、热管技术和环境自适应控制等,旨在为数据中心的绿色节能提供参考和启示。
下一篇
无影云桌面