如何降低数据中心宕机事件的影响-阿里云开发者社区

开发者社区> 琴瑟> 正文

如何降低数据中心宕机事件的影响

简介:
+关注继续查看

大多数人在生活或工作领域中都不希望出现连接中断的情况,尤其是在以数字生活方式为主的今天,所以数据中心基础设施变得越来越重要。对于许多消费者来说,他们希望自己的数字产品和服务能保持正常工作,所以当发生宕机事件时,他们就会开始抱怨甚至投诉。

以最近的航空数据中心宕机事件为例,如美国达美航空、西南航空和英国航空公司,由于一个简单的电气故障或不当的维修程序,导致服务器遭到灾难性损坏,航空公司损失数亿美元,数以万计的乘客被滞留在全球各地的机场。

这些大规模的宕机事件总能成为新闻头条,而且数据中心宕机事件比人们想象的更为常见。根据Uptime Institute调查显示,25%的受访企业在过去一年内都发生了数据中心宕机事件,无论是在自己的数据中心还是在服务提供商的网站上。此外,90%的数据中心和IT专业人士表示,他们的企业管理人员比一年前更加关注数据中心中断事件。

然而,并不是每次宕机事件与航空公司停运事件一样具有破坏性或公开性,但是宕机事件会对企业造成一定的经济损失。根据Uptime Institute的调查表明,只有60%的企业会测量停机成本来作为其业务指标,而在2017年,测量停机成本成为了所有企业都必须采取的措施。考虑到几分钟或几小时的停机可能带来的经济损失,IT专业人员和设施管理人员将会更加注重基础设施的维护。

当然,意识到数据中心的风险与采取措施预测潜在的风险,这是两个截然不同的问题。那么,企业该如何做才能降低数据中心宕机事件的影响呢?

效率的定义

每个数据中心管理人员都希望他们的数据中心能够高效运营。效率是指提供给数据中心IT设备的电源和冷却措施能够满足IT需求且不会产生不必要的成本。从更加商业的角度来看,数据中心必须能够在满足业务需求的同时保持这种平衡。这意味着数据中心的基础设施,计算能力和性能需要经常有效地扩展,以降低停机的风险。

然而,对于现在大多数的数据中心来说,缺少考虑数据中心环境变化带来的影响,如推出的新技术,这些都没被考虑在内。对于IT团队来说,除了知道他们部署将使用的数量,空间,网络和电源之外 ,他们对数据中心环境的影响往往不了解甚至不关心,这是数据中心管理人员的责任,如果IT配置对IT的有效性产生了负面影响,那么管理人员将会立即作出反应。问题在于IT团队和数据中心管理人员这两个团队是独立运作的,许多企业已经部署了DCIM技术,其目的是通过数据中心的业务来缩小数据和处理流程之间的差距。

模拟每种事件的可能性

从机架上安装单个挡板到将设备的功率提高到300kW,如果能够准确预测这中间的所有变化,那么将会影响数据中心的弹性。这不是想象的而是实际存在的,它采取工程仿真的形式,允许数据中心设施管理人员通过创建虚拟原型,对现有设计进行故障排除,以及分析未来数据中心配置的假设场景,并且可以在离线环境中进行实验。

这意味着当业务需求涌入时,数据中心能够以绝对的弹性处理工作负载,或者可以减少这些要求,直到基础设施升级完成。数据中心人员应该积极应对这种变化,这样可以杜绝停机事件发生,或将其减轻到无害水平。

从运营连续性的角度来看,还可以模拟运行其他事件,例如,如果电源故障启动并且由备份电池在供电,那么任何关键系统能够脱机吗?在重新启动电源系统时,工程师如果没有遵循正确的协议,会对数据中心产生不利影响吗?如果是这样的话,怎样才能减轻造成的损失呢?所有这些问题和更多的问题都可以通过仿真来解决,帮助数据中心管理人员创建战略,使关键硬件能够以这样的方式进行定位,以确保其坚持到最后。

如果90%的数据中心和IT专业人士说,他们的企业管理人员比一年前更担心宕机事件发生,那么运营弹性则是IT团队和数据中心设施管理人员最应该考虑的事情,而运营弹性通过上面提到的策略和工具就可以实现。

至于其他10%的管理层,难道他们对数据中心宕机事件不关心?如果他们的团队尽了一切努力去防止宕机事件发生,但结果还是发生了的时候,他们将会很快改变想法,因为他们了解这将会对公司声誉造成多大的影响,并且这也是其业务运营的底线。

本文转自d1net(转载)

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
8905 0
我的mqtt协议和emqttd开源项目个人理解(18) - 一个客户端sub很多主题和数据,出现宕机?使用本地共享订阅解决!
我的mqtt协议和emqttd开源项目个人理解(18) - 一个客户端sub很多主题和数据,出现宕机?使用本地共享订阅解决!
19 0
数据库突然宕机的问题及分析
昨天晚上,某个环境的数据库在做一个压力测试的时候突然宕机了。这个问题比较急。马上查看日志文件。 看到了如下的一段,报了os级的linux错误。提示没有空间了。 Fri Mar 14 19:16:47 2014 Archived Log entry 192 ...
928 0
数据库突然宕机无法open的问题及解决
测试的数据库有一天突然宕机,然后无法正常open了,这个问题虽然过去了一段时间,也在这儿总结一把。 从alert日志中的信息如下。 Fri Jan 10 16:09:42 2014 Archived Log entry 6837 added for thr...
707 0
flashback_area 区域溢出导致数据库宕机
问题: ORA-00257 ORA-16014 log 1 sequence# 1085 not archived, no available destinations ORA-00312 online log 1 thread 1 'usrapporacleoradatawanyanredo01.
777 0
+关注
琴瑟
TA有点害羞,没有介绍自己...
256
文章
597
问答
文章排行榜
最热
最新
相关电子书
更多
《2021云上架构与运维峰会演讲合集》
立即下载
《零基础CSS入门教程》
立即下载
《零基础HTML入门教程》
立即下载