监控功能是数据中心的重要组成部分,通过监控系统可以对数据中心整体运行情况有全面的了解,并进行有效控制与管理。虽然无人值守数据中心、软件定义数据中心等新的概念涌现出来,但只是将控制权交给了机器,系统中依然需要对数据中心监控,采集各种运行参数,提供给控制中心,所以监控系统要完成数据采集、分析处理、存储、展示、使用户能实时掌握数据中心的基础设施运行情况。由于数据中心自身大规模高动态的特点,监测数据中心收集也面临着一些挑战,要不断丰富监测手段,采集到能够真实反映数据中心运行状态的数据,而不是获取假象。
数据中心要做好监测,需要具备三个特性:实时性,数据中心监测数据应当被实时地收集到,以便于数据中心及时地控制管理,这个实时性包括周期性轮询采集数据的时间,这个轮询周期越短实时性越高,周期越短,单次采集的数据不宜过大,还有部分数据是靠各种运行设备实时上报。可扩展性,在整个生命周期中,数据中心不可能一成不变,而且随着业务量的扩大,也有不断扩容的需求。监测数据收集系统应该方便调整,为现有的或是增加的新设备添加新的监测指标,根据数据中心变化,不断调整监测系统,不要让监测系统成为了摆设。智能性,监测系统不是采集完数据就了事,要具备数据分析能力,还要将采集的无效数据过滤掉,利用大树法则获得最有效的数据。比如采集机柜环境温度,在一个机房里会有成百个机柜,每个机柜温度不可能相同,有的差别甚至很大,这时就不能以点盖面,需要多采集不同机柜温度,同时反复多次采集,根据采集的数据再增加一些权重算法,从而计算得出合理数据。
数据中心内部各种系统很多,这也使得监测系统非常庞大,监测系统的设计异常复杂。以一个普通数据中心的监测系统来说,要包括供配电监控、环境空调监控、安防监控、运行数据监控、屏显中心、管理监控等等,可靠性越高的数据中心,监测系统越完善,监测的项目非常繁多。在表1里,列举了供配电监控的部分内容。
通过对供配电的监控,及时了解数据中心供电系统的运行情况,一旦市电发生断电,可以及时切换到蓄电池或者备用发电机组上,避免业务长时间中断。也可以将监测数据发到运行数据中心,由运维人员根据数据进行工作部署。在表2里,列举了空调环境监控主要内容。
通过对空调环境的监控,及时了解数据中心制冷情况,内部运行环境情况,为运行设备提供良好的运行环境,避免过冷或过热的环境影响到运行设备的使用寿命。数据中心里设备产生的热量非常大,需要空调及时将热空气排出去,否则对数据中心危害很大,甚至可能引发火灾事件,这方面已经有过历史教训。一个封闭性很好的数据中心机房,空调停转半小时,部分设备就可能出现宕机情况,有些设备自动保护不够好,持续的高温就可能造成线路短路,产生火花,引发火灾。拥有全面的空调监控系统,就可以避免这种情况发生。
在表3里,列举了数据中心屏显中心监测主要内容,一个往往是有个巨大的会议大厅,前面有一幅超大的屏幕,上面会显示各种各样的数据,这些数据代表了各个系统和业务的运转情况,一旦有故障可以及时地在屏幕上显示出来。屏显中心的所有数据都采集各个监测系统。一般屏显中心也是各路领导经常光顾的地方,通过屏显中心了解整个数据中心的运行状况以及数据中心的各种运行设施。
还有一个监测系统非常重要,就是管理监控,这主要是对数据中心进行有效管理时做参考。在表4里,列举了管理监控涉及的主要内容,这部分一般是由管理人员来控制,对数据中心进行全面管理,不仅仅业务层面,还有人员的培训、考核、考勤等等。
除了以上这些监测指标,还有消防、安防、日志管理、视频监控、门禁系统、账号管理等等,数据中心需要监测的内容非常多,上面只是将最为关键的部分拿出来做了介绍。这些监测系统涉及很多专业技术,有些设计还非常复杂,需要由专业团队才能完成部署,做一套完整的数据中心监测系统难度不亚于建造数据中心本身。一个数据中心监测系统做得好坏也直接决定了这个数据中心的运营水平。所以如果要对数据中心进行评价,监测系统往往是被考察的重要部分,这是数据中心水平的直接体现。
数据中心监测的根本目标是用尽可能少的运营成本获得尽可能高的系统可用性。高可用性是数据中心水平表现最为重要的标准,而监测系统就像高可用性管理的一双眼镜,有了它整个数据中心运行情况才能一目了然,高可用性的目标才具备实现的管理基础。
本文转自d1net(转载)