数据中心运维是老生常谈了,之所以运维的事情总被提起,是因为在数据中心的整个生命周期里,90%的时间都是在运维,运维的质量和效率直接决定了数据中心未来发展的潜力和速度。常言道“创业难,守业更难”,建一个数据中心容易,要将这个数据中心运行得有声有色就不是那么容易了,可说是要身经百战。运维的工作之复杂和枯燥程度往往超出人们预想,这也使得能在运维的工作上做久的人并不多,几乎三五年就要换一批人。数据中心运维的工作复杂性是由其系统特点决定的,下面就来说一说数据中心运维的工作面临哪些永远的痛处。
标准化不统一
数据中心是多种信息系统的综合体,涉及很多方面的技术,而且每种技术又会细分类别,这样产生了多种多样的差异化产品,虽然数据中心领域有公认的几个巨头企业,即便这样每个企业也难以覆盖到数据中心所有产品,这导致数据中心里的软硬件差异性较大,不同产品实现也有差异,使用习惯也不同,有的产品为了提升竞争力,支持了一些特有的先进技术,这些导致运维的工作中需要进行大量兼容性配置,做不到兼容的地方就需要掌握这些配置差异的地方,避免用错。比如数据中心网络部分,这是数据中心里差异性最大的部分之一,这里面有不少协议都是私有协议,没有按照标准实现,这样在设备之间互通就存在问题。数据中心在进行网络扩容时,没有选择余地。还有不同网络企业的产品操作命令行风格也不同,相同功能协议的配置和运维的使用方法都不同,甚至以前在网络企业之间还因为命令行过于相似互相打过官司,设计涉及到了侵权,这使得网络协议实现五花八门,但做网络的运维可惨了,必须要掌握多家网络企业产品的使用特点和命令行风格,这也是云计算为何那么受数据中心欢迎的重要原因。云计算实现的基础就是要求数据中心在计算、存储和网络硬件,以及软件、配置等等方面形成统一标准,只有这样才能部署云计算,这可给运维的工作带来了极大便利。运维的人员只需遵循一套统一标准来管理设备,可忽略不同产品之间的差异,极大提升了运维的工作效率。
业务及设备需人工手动部署
在数据中心整个生命周期过程中,要经历无数次大大小小的各种业务割接、扩容、变更事件,数据中心业务发展越快,这类工作越频繁。传统数据中心在进行业务部署时,要进行大量的手工配置,这些配置一旦出错不仅影响到新业务上线,还可以对原有业务造成冲击,所以每次部署时,运维的人员心里面紧张得不得了,每个操作都要小心翼翼。要知道数据中心里80%的故障都是人为故障,可见与机器相比,人是不够可靠的。机器只要我们提前给设置好既定程序,除非坏了,否则永远都会按照程序来走,人是感性思维的动物,经常受到外界的干扰,执行程序就可能会有错误。人工手动部署业务不仅极大增加了运维的工作量,还增加了系统操作失误风险。如今,不少的数据中心开始建设云管理平台,就是要用软件代替人工,由软件实现业务和设备的自动上下线,实现资源快速上线、扩容与下线。只需要安排低技能人员将设备上架、上网和上电就可以,后面的事情交由云管理的平台完成。
设备软件升级困难
数据中心里各种设备成千上万,经常会出现这样那样的软件问题,这时就需要及时更新软件解决问题。不过,很多时候为了解决问题必须更换设备的软件版本,这让数据中心很难处理。数据中心很多业务要求7*24小时在线,如果设备之间没有很好的备份,冒失地对这些设备进行重启升级软件,必然会造成业务大面积的中断,这是数据中心不能接受的。所以每次做软件升级都是一件非常复杂的事情,需要进行业务的迁移,有时还要计算好升级的每个步骤,恰好时间,将业务中断的时间压缩到最短,这需要升级之前做大量的准备工作,甚至包括实验室的模拟实验,以便找到最佳的升级方式和方法,所以每次升级软件,运维的人员都累的像剥了一层皮,身心疲惫。所以,数据中心运维的人员对设备不能无中断业务升级充满怨言,一直在找寻那些可以实现自动升级的解决方案,具备这样能力的产品将成为数据中心重要的参考项。
运维的监控不够实时
大部分重要的数据中心都有安排人24小时值班,但实际上这些值班人的水平参差不齐,而且技术专家也不会值班,只有出了问题,有事情时才会介入,所以值班的人员可能更多的是一些操作人员。而且不少的数据中心都是在全国各地都有分中心,技术专家主要集中在一个地方,其它的数据中心分中心现场缺少专业技术人员,一旦数据中心出了紧急问题,技术专家无法得到最新的信息反馈,甚至出了故障都不知晓,这样会导致业务故障时间比较久,现场操作人员必须得到后台技术专家的明确指示才会进行各种有针对性的恢复操作,而后台技术专家又无法及时掌握数据中心所有的运行参数,这导致故障处理效果并不好,甚至会带来更为严重的二次故障。好在,现在手机、笔记本上网都非常方便,也提升了运维的执行效率。数据中心可以将各种运行监控参数发布到各种移动接收端,以便技术专家能实时掌握数据中心运行状态,随时随地移动运维,完成数据中心的全生命周期管理,极大地改善了运维的工作质量。
数据中心运维正面临着各种各样的实际问题,随着建设规模的不断扩大,系统越来越复杂,必须找到一些解决办法,否则数据中心真的再难以运维下去。