为什么您企业新建的数据中心不奏效——状态调试不对-阿里云开发者社区

开发者社区> 知与谁同> 正文

为什么您企业新建的数据中心不奏效——状态调试不对

简介:
+关注继续查看

为什么您企业新建的数据中心不奏效状态调试不对

数据中心的资本项目往往会发生变数,而相关的管理执行人员又减少了唯一可以阻止这些变数的进程。

对于正在进行数据中心资本投资项目的IT企业组织而言,不可否认,其风险是很高的。构建新的数据中心无疑是一项巨大的投资,但其也可以实现或阻碍企业组织的IT战略和能力,从而影响企业组织为未来多年的整体业务绩效。

随着越来越多的企业组织依赖于主机托管数据中心供应商,因而确保这些项目的设计和建设能够满足您企业的业务需求无疑也是至关重要的。

对于任何数据中心工程项目而言,通常都会牵扯到多家供应商、分包商,并会涉及到超过50多个不同的学科领域,包括诸如数据中心的架构、电气设备、HVAC、管道给排水、燃料泵、网络布线等等——故而在建造过程中,如果没有发生任何误差或在施工过程中不存在任何偷工减料,无疑将是相当棒的。

而在施工监督、规划和预算方面的失效则意味着昂贵的新数据中心设施将无法满足业主的要求,最终结果或将导致新建成的数据中心设施性能不佳或灵活性有限。

而对于这些问题的解决可能会延迟数据中心建设项目的工期,而且通常需要花费大量的额外支出。在某些情况下,某些问题仍然将在数据中心的使用寿命范围内长期妨碍其正常的健康运转,并可能最终需要提前更换设备。

即使该设施在其预期寿命内仍然可以继续运行,但其运行成本则可能会超出预期,使得数据中心蒙受更多的停机中断事故,并且使得数据中心业主不得不引入新的产品和服务。

鉴于企业组织在IT基础设施项目上投入了大量资金,并且考虑到现如今的整个数据中心行业的成熟度,您可能会认为:出现资本项目错误的状况是极为罕见的。

但事实上:您错了!

数据中心项目不断失败

诸如Uptime Institute等等这样的权威机构往往会对数据中心资本项目进行评估,以确保在整个数据中心的设计、建造和运营过程中,数据中心的业务需求和目标能够真正得以实现。

通常,技术人员在所谓的调试阶段(大多数IT资本项目出现失败的核心)之后,会立即进入新的数据中心站点。

非技术项目业主可能会认为调试是一个神秘的,过于工程设计化的过程,他们可以减少或缩短这一过程,以满足其他业务压力。但他们这样做其实是有危险的,因为调试是决定一个项目成功的最重要的阶段。

调试:

  • 验证设备和系统是否是按照工程师的设计进行操作运营的
  • 为设施在其整个生命周期内应如何运行提供了一个基准
  • 为操作运营人员熟悉系统的操作、测试和验证操作程序,而不会危及关键IT负载提供最好的机会。

在调试完成后,该数据中心站点应该为上线做好准备了。

然而,在最新推出的约200份层级认证中,几乎每份报告都在不同程度上揭示了在层级认证过程中所发现的数据中心基础设施的一些设计缺陷,设备故障或意外问题。事实上,超过70%的数据中心建造项目在第一轮示范期间未通过层级认证评估,需要数据中心业主投入更多时间和资源来解决这些问题。

2016年,在美洲的一个数据中心资本项目的层级认证期间,其备用电力系统在模拟公用电力公司供电中断期间出现故障失败。这是一个预期的设计条件——可以说是一处新建数据中心最基本的功能。故障发生的根本原因是缘于针对设计到备用电力系统中的某个“功能特征”,数据中心的所有者并没有针对该“功能特征”接受培训,不具备适当的知识,并且没有被通知该“功能特征”的存在,从而破坏了数据中心的设计初衷目的。

而在2016年的欧洲的一个层级认证项目期间,Uptime Institute发现,数据中心对生命安全构成了威胁。对电力系统的服务工作需要在400伏连接放置一个螺丝刀。其他被发现的故障,归因于糟糕的保险丝额定值和楼宇监控和自动化系统的错误。这三个问题中的任何一个都会导致新数据中心的服务中断。

Uptime Institute的层级标准高级副总裁克里斯·布朗解释道:“许多数据中心业主依靠层级认证作为调试活动。在我们进行认证之前,数据中心业主仅仅只进行最小的测试,并指望我们能够为他们调试该数据中心站点,而这一工作并不是层级认证所打算做的。”

重点需要注意的是,Uptime Institute的评估是数据中心资本项目的最后一步,紧接着的便是新数据中心的投入运营使用了。所有的数据中心资本项目的利益相关者在评估开始之前就已经签署数据中心了。

那么,为什么在调试阶段没有发现这些问题呢?

调试状态的问题

调试活动代表了验证数据中心业主是否具备严格测试数据中心的关键基础设施的能力的一个独特的机会。但是,这个过程常常被缩短。

Uptime Institute的顾问将负责为数据中心业主和项目管理团队调试故障,但不是调试代理。

Uptime Institute的高级顾问Ryan Orr表示说:“数据中心的业主对他们的调试代理所提出的保持低成本和维护计划的要求,成为了调试代理们的一大束缚。”

延迟新建数据中心的投产运营,不管其业主是企业、托管服务商还是大规模趸售商,都不是大多数企业组织的选择。因此,如果在数据中心交接日期之前没有完成调试,IT就开始正式的迁入的话,那么当IT开始迁入时,在许多情况下,可能会使调试活动难以正常完成。

“调试工作应该始终总是最后的一项工作。”Orr说。 “所以,如果有项目延迟的可能,其实任何一个项目都会有这种可能性,那么调试过程总是是被挤压牺牲掉了。或者如果项目超过了预算,调试过程也会被挤压牺牲掉。一般会将大约需要两个星期的调试时间安排被挤压到仅仅只有三四天,而调试代理人必须尽其所能地做到最好。”

Orr指出了当前调试状态所存在的其他几个问题:

  • 太多的企业组织对假设和代表性的测试很满意。例如,一家数据中心业主可以执行调试项目的第一阶段,但是由于系统的共享,并且数据中心业主不想将实时的IT负载置于共享基础设施的风险测试中,因此在后续阶段缩短了调试时间。
  • 承包商和调试代理之间的不当关系。数据中心业主应直接聘请调试代理。然而,这种情况发生得似乎越来越少,并引发了对利益冲突的严重关切。
  • 许多数据中心业主认为他们并不需要严格的调试,因为他们可以依赖基础设施的冗余。然而有时候,有冗余固然是一回事,但数据中心业主对于其冗余的具体状况并未有清晰的了解,除非其经过了恰当的测试。

如何恰当的进行调试

一套精心策划和执行的调试程序将有助于在新建数据中心建成交付之前很好的验证该数据中心资本投资项目。其也将使得数据中心的运营团队能够处于一个更好的位置在该数据中心剩下的使用寿命范围期限内来负责管理和运营数据中心的关键基础设施,并最终确保该数据中心设施实现其全部潜力。在数据中心调试的严格性方面经验不足的建筑施工团队经常会低估了调试所需的时间或将调试期视为数据中心建成完工交付访问工作延迟的一种缓冲。由于上述两个原因,数据中心业主或业主代表应注意安排好足够的时间进行调试,并确保承包商在施工期限范围内的建成交付。建议在制定数据中心项目进度时,就聘请调试代理和总承包商,并将他们作为合作伙伴。

此外,数据中心资本项目包括对在关键任务环境中缺乏经验的团队可能不熟悉的要求;这些要求往往对预算有影响。

例如,数据中心业主和业主代表必须仔细检查施工投标,以确保其资金和时间的充足:

  • 关键设备的现场测试
  • 借助供应商的支持扩展4级和5级调试
  • 负载管理团队在临界环境中模拟全部IT负载
  • 用于测试和验证发动机发电机系统的柴油燃料

由于经验丰富的团队了解数据中心特定调试的重要性,调试代理将能够在调试过程的早期更有效地工作,进而更好的过渡到操作设置阶段。

此外,从项目施工开始到调试再到建成交付,运营应该是数据中心项目设计和施工团队的一部分。包括将操作运营纳入到变更管理的范围让数据中心业主有机会在整个企业范围内共享和学习关于数据中心将如何运行的关键信息,包括设定点,设备轮换,变更管理,培训和备用库存。

数据中心的资本项目面临着复杂的挑战,涉及到多个利益相关方和承包商,以及需要将跨多个学科领域的知识汇聚整合在一起。为了确保数据中心基础设施的投资满足企业组织的业务需求,项目负责人需要选择合适的合作伙伴,授权合格的所有者代表,并留出足够的时间进行严格的调试和第三方认证。


本文作者:佚名

来源:51CTO

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

相关文章
阿里云服务器怎么设置密码?怎么停机?怎么重启服务器?
如果在创建实例时没有设置密码,或者密码丢失,您可以在控制台上重新设置实例的登录密码。本文仅描述如何在 ECS 管理控制台上修改实例登录密码。
4051 0
在open状态下恢复未备份的数据文件
        此文讲述如何恢复未备份的数据文件,在归档日志模式,如果dba增加了新的数据文件,当没有备份新的数据文件,那么该文件出现损坏时,可以恢复该数据文件。前提是 从建立新的数据文件到丢失为止的所有归档日志必须全部存在。
546 0
车联网场景下海量车辆状态数据存储实践
随着通信技术、计算机技术的不断发展,移动通信正在从人与人(H2H)向人与物(H2M)以及物与物(M2M)的方向发展,“万物互联”的概念正在逐步覆盖到各行各业中,例如智能家居、智能农业、智能交通、智能物流等领域。目前,车联网技术已经先行一步,在行车安全、交通管理、生活服务等方面得到充分应用。 车联网技术包括了车辆终端、云端、无线通信等方面。车辆终端实时产生大量车辆状态数
164 0
阿里云服务器端口号设置
阿里云服务器初级使用者可能面临的问题之一. 使用tomcat或者其他服务器软件设置端口号后,比如 一些不是默认的, mysql的 3306, mssql的1433,有时候打不开网页, 原因是没有在ecs安全组去设置这个端口号. 解决: 点击ecs下网络和安全下的安全组 在弹出的安全组中,如果没有就新建安全组,然后点击配置规则 最后如上图点击添加...或快速创建.   have fun!  将编程看作是一门艺术,而不单单是个技术。
4307 0
物料主数据的维护状态
在用MM01创建物料的时候会需要选择相关的维护视图,这些视图哪些已经维护,哪些尚未维护,都记录在表 MARA 的字段 VPSTA 和 PSTAT 中。分析这两个字段,就可以知道该物料的维护状态。
661 0
+关注
10077
文章
2994
问答
文章排行榜
最热
最新
相关电子书
更多
文娱运维技术
立即下载
《SaaS模式云原生数据仓库应用场景实践》
立即下载
《看见新力量:二》电子书
立即下载