创建数据中心监控方案的最佳实践方案

简介:

本文中,我们将略过关于IT更新的一系列统计数据和趋势的简介,而把关注焦点聚焦于您的数据中心的监控实践方案。

我曾经有幸能够有机会与各种类型的数据中心环境合作过。是的,这些数据中心的环境类型都各有不同。一些数据中心采用电源HPC工作负载,而其他数据中心则使用云工作负载。然后,还有一些数据中心充当了存储孤岛和存储库,以及一些数据中心是私有的托管合作伙伴。每家企业组织都可能有不同类型的要求,设备和布局。

然而,现代数据中心的关键属性需要匹配最佳的监测机制。以下,我将为广大读者朋友们介绍一些这方面的最佳实践方案:

数据中心操作环境监测的主要监测参数

温度。这在任何数据中心操作环境中都是既定的参数。在任何情况下,均不允许服务器或服务器机架在超出其工作温度以外的范围操作运行。确保不断检查ASHRAE,以不断优化实现最佳的操作运营温度。而操作运营环境温度是会改变的。为了获得更详细的信息,数据中心管理人员需要监控并查看机架的排气指标、内部温度、甚至服务器的温度。对温度控制机制的可见度越高,工程师们就可以在相关潜在问题变得严重之前及时响应,以尽快解决问题。

湿度和水控制。就像监控操作环境的温度一样,数据中心内的关键系统必须进行湿度监控。有多种方法来检查环境中的湿度。一般来说,这些检查都是在机架内部和机架外部的级别。在所有的监控情况下,监控的级别水平都应该保持稳定,并且为了能够快速反应,数据中心操作运营环境将需要考虑在各个战略位置都部署多个传感器。

通道环境控制。这意味着对温度、湿度、气流和冷热通道的监测。根据数据中心操作运营环境的规模大小,将会分别设计热/冷通道。观察这些数据中心通道的温度范围可以帮助数据中心管理人员快速发现问题,进而提高运营效率。

静电。操作运营环境内的静电监测传感器有助于帮助数据中心管理人员掌握是否有附带了大量静电的物体设备进入了数据中心设施。静电对数据中心的操作运营环境是非常有害的,因此管理这些传感器也是相当重要的。

数据中心的访问。从安全的角度来来看,许多企业组织都正在部署数据中心环境和机架入口传感器。当一台机架未经正确配置安装时,这些传感器将向管理人员发送警报。更高级的操作运营环境实际上将激活指向已经打开的确切机架上的摄像机系统。

使用传感器和传感器技术

耐用性。大数据中心已经开始依靠其环境中的传感器来提供关于其数据中心健康运行状况的一些最重要的数据了。鉴于此,请务必要记住的一项规则是:没有一任何一款传感器能够确保永远有效的工作。传感器也会发生故障,并可能随时发生任何级别的故障。这就是为什么拥有冗余传感器环境是非常重要的原因所在了。智能化的数据中心监控工具将实际观察操作环境中的所有传感器。自动恢复过程可以被配置为同时监控多台传感器,以防万一出现故障失败。这将有助于消除传感器故障时的误报。鉴于在大型数据中心内部署了这么多的传感器点,数据中心管理人员必须建立适当的警报机制。如果传感器发生故障,则必须立即通知相关的责任人。如果设备开始发布不正确的信息或触发假警报,则情况处理相同。数据中心传感器环境的主动测试和维护将有助于减少发生故障的机会。然而,一套良好的管理系统将有助于缓解传感器发生故障的麻烦。请务必记住,今天的企业监控系统的建立是用于持久性监控的。管理员要围绕数据中心环境信息,依靠这些数据做出非常重要的决定。具有冗余的传感器架构将有助于数据中心中的一部分故障传感器。

传感器的安置。在部署数据中心传感器时,考虑操作运营环境的规模大小是非常重要的。由于每家企业的操作运营环境都是独一无二的,故而没有太多的工具可以“自动的”为您安置传感器。而这便是一家好的合作伙伴可以真正发挥他们的帮助作用的时候了。 HVAC专业人员和数据中心监控/环境设计专家们可以帮助企业组织规划出传感器部署的最佳策略。从更高级的角度看,数据中心管理人员应该考虑在四个主 要领域部署传感器。这些四个主 要领域包括:

机架级的监控。为了获得更多信息和冗余,数据中心管理人员可以在机架中部署更多的传感器。然而,传感器应位于机架的顶部,以便监测排出的热空气,同时还要安置在机架的底部,以监测地板的冷却度量指标。

操作环境室的监控。这是安置监控室内湿度和温度的传感器的非常重要的地方。对于大型数据中心操作环境而言,我们建议将传感器安置在热区或距离冷却单元最远的区域。

机房空调/处理器监控。这些传感器将帮助识别与冷却单元相关的直接故障。其应该被安置在靠近交流设备的地方。

湿度监测。根据数据中心的操作环境,建议在服务器机房外墙以及高架地板下方安置泄漏传感器。为了检测来自冷却装置的湿度,应该在冷却装置周围放置水传感器,以监测可能发生的漏水情况。如果使用液冷系统,请采取额外的预防措施。

对于为特别业务案例提供服务的数据中心的要求将始终是唯一的。创建良好的监控最佳实践方案需要充分了解数据中心的业务,数据中心的设计建造要求和未来的业务需求。根据您企业业务的特定用例,您可能需要在敏感区域进行其他方面的监控。同样,敏感的安全区域可能需要更多的物理监控。请务必记住,一切都要围绕着您数据中心的业务要求进行设计,以便支持您企业数据中心的健康运营和业务的发展。

关于作者

本文作者Bill Kleyman是MTM Technologies公司的战略与创新副总裁。Bill是一位热心的技术专家,在数据中心设计,管理和部署方面有丰富的经验。 他在架构领域的工作内容包括大型虚拟化和云部署,以及企业网络设计和部署实施。Bill喜欢关于技术方面的写作,包括博客和同事间的技术分享。Bill是MTM Technologies公司的战略与创新副总裁,他负责企业内部各部门之间的互动,帮助通过规划IT战略来与企业直接的业务目标保持一致。Bill所撰写的白皮书、专栏文章、视频博客和播客曾先后发表于InformationWeek网站、NetworkComputing网站、TechTarget网站、《华尔街日报》、ZDNet网站、Slashdot等等。

本文转自d1net(转载)

相关文章
|
12月前
|
存储 容灾 安全
《医保行业容灾演练云上技术白皮书》——第三章 医保云容灾建设方案——3.2 省级数据中心建设框架
《医保行业容灾演练云上技术白皮书》——第三章 医保云容灾建设方案——3.2 省级数据中心建设框架
|
tengine 容灾 中间件
如何基于 AppActive 设计一套多数据中心应用多活方案 | 学习笔记
快速学习如何基于 AppActive 设计一套多数据中心应用多活方案
242 0
如何基于 AppActive 设计一套多数据中心应用多活方案 | 学习笔记
|
传感器 运维 供应链
“科技+智能” 看阿里云低碳绿色数据中心最佳实践
“科技+智能” 看阿里云低碳绿色数据中心最佳实践
“科技+智能” 看阿里云低碳绿色数据中心最佳实践
|
容灾 Dubbo Java
如何基于AppActive 设计一套多数据中心应用多活方案
系统在运行过程中总是会遇到各种各样的问题,比如硬件故障,包括磁盘损坏、内存短路、智能系统损坏等;比如软件故障,包括容量不足、健康检查失效等;比如人为故障,包括错误配置、错误发布、删库跑路等;再比如不可抗力,包括地震、火山雷电、断电断网等。 只要系统规模足够大或运营时间足够长,就一定会出现故常。因此,需要使用有效手段来应对和缓解故障。
如何基于AppActive 设计一套多数据中心应用多活方案
|
存储 Kubernetes 监控
快速云原生化,从数据中心到云原生的迁移最佳实践
本文将介绍在帮助用户快速完成迁云中的解决方案、最佳实践以及迁云工具。
快速云原生化,从数据中心到云原生的迁移最佳实践
|
存储 Kubernetes 监控
快速云原生化,从数据中心到云原生的迁移最佳实践
0. 前言 云原生的时代已经到来,云原生技术正在重塑整个软件生命周期,阿里巴巴是国内最早布局云原生技术的公司之一。 容器服务团队在过去的几年时间内帮助很多用户成功把业务云原生化并迁移上云,其中有现在已经是我们TOP10的大客户,也有需要在国内开展业务的海外用户,有些是从其他云厂商迁移过来的用户,有些是从IDC里迁移上云的用户,而且越来越多的用户开始咨询如何对自己的应用做云原生化的改造。
305 0
快速云原生化,从数据中心到云原生的迁移最佳实践
|
存储 缓存 网络安全
本地数据中心基于SMB/NFS协议访问对象存储最佳实践
本地数据中心在本地存储有限的情况下可以基于云存储网关搭建一个海量文件系统的文件存储服务,实现多个数据中心互相之间高效的同步和共享数据。云存储网关以对象存储OSS为后端存储,为云上和云下应用提供业界标准的文件服务(NFS和SMB)和块存储服务(iSCSI)。
本地数据中心基于SMB/NFS协议访问对象存储最佳实践
|
数据中心 数据安全/隐私保护 网络架构
Confluence 6 数据中心的 SAML 单点登录最佳实践和故障排除
最佳实践 SAML 授权仅仅在有限的时间进行校验。你需要确定运行你的应用的计算机时间与 IdP 的时间是同步的。 如果你应用中的用户和用户组是通过用户目录进行配置的,你通常希望用户来源目录和你的 IdP 和 Atlassian 应用使用相同的 LDAP 目录。
1223 0