数据中心监控自动化中的两个常见问题

简介:

如今,数据中心越来越趋于自动化,并已成为数据中心良好运营的强大力量。以下列出在数据中心监控自动化中经常出现的两个主要问题。

数据中心监控自动化中的两个常见问题

问题1:房间里的大象

“房间里的大象”是指人们私密生活和公共生活中对于某些显而易见的事实,集体保持沉默的社会现象。人们在进一步深入自动化之前,无论是自动发现,报告交付或警报触发操作,必须做出一个关键点:在某些方面,它被称为DPR周期。DPR代表检测,预防和响应。

警报是工作人员在发生错误时捕获错误的方式,但是由数据中心工作人员来决定它们发生的原因,并找到一种防止错误再次发生的方法。当构建一个解决方案以自动响应警报并进行修复时,作为负责任的数据中心专业人员,还应该致力于分析情况的艰苦工作,以找到模式和根本原因。然后需要解决根本原因,并创建检查,以便知道是否再次出现问题。

对警报的自动响应保持企业的业务在所有的时间运行,并帮助确保知道你需要的时间,工作人员必须能够看到发生了什么,做的工作出来为什么会发生,所以可以防止它在将来发生。这样才不会出现“房间里的大象”问题。

问题2:内心恐惧

许多数据中心专业人员在第一次提出自动响应警报的想法时感到担心。而具有一个真正有活力的大脑的人会对这些警报进行仔细思考,然后谨慎采取行动。这种想法就像站在“自动化”海洋的边缘。有点令人望而生畏。但你必须相信不会被海水淹死,并且有能力一步步地尝试。这并不是一个全有或全无的命题,其风险也将会从零到全部。

与任何IT工作一样,有实施计划有时比实施(或在这种情况下是自动化)本身更重要。所以可以再谈谈这个实施计划:

  • 首先识别测试机器。无论是为这些目的而部署的实验室设备还是那些不太重要的志愿者,请设置警报,以便触发这些机器。
  • 学习使用反向阈值。虽然企业的最终警报将检查CPU的工作负载量大于90%,工作人员可能希望避免反复测试。而CPU的工作负载量小于90%将触发更多的可靠性,至少工作人员希望如此。
  • 查找复位选项。与上面密切相关,了解数据中心监控工具如何重置警报,以便再次触发。也许很可能会很多使用那个功能。
  • 详细情况。数据中心工作人员想要了解发生什么和什么时候可能发生。如果数据中心的工具支持自己的日志记录,请将其打开。在自动化中大量插入“我现在开始XYZ步骤”消息。虽然很乏味,但你会很高兴所做到的事情。
  • 自己处理警报。如果你认为会通过发送这些警报到服务器团队进行测试,事实上,你并不会把它发送到任何团队,而会认为自己可以处理这些警报。
  • 你真的不需要通过电子邮件触发那些警报。所有这一切都是在基础设施上造成额外的延迟和压力,以及如果你的警报同时启动多个消息,可能会产生其他问题,会将消息发送到本地日志文件和显示屏。
  • 分享警报提醒。现在,你可以通过对话与小组的其他人分享警报提醒。
  • 采用对话。这个过程将涉及与其他人交谈。设置自动化是协作的,因为你和那些每天都在一起工作的人都应该同意从基本功能到消息格式的一切。
  • 将相位器设置为满。一旦自动化在企业的测试系统上工作,计划通过分阶段的方法实施。使用相同的机制,你用来限制几个警报,你向网络扩展,也许10-20个系统。并且你再次测试观察结果。然后你扩大到50个左右。确保你和收件人都很满意所看到的结果。记住,在这一点上,团队正在接收常规警报,但你仍然应该看到之前提到的详细消息。你应该与团队进行审查,以确保你认为发生的是真正发生的事情。

遵循这些指南,任何自动响应应该有很高的成功机率,或者至少你会避免陷入糟糕的自动化,不会产生太多的损害。采用自动化的一个很好的经验法则是用最小的努力获得最大的回报。无论你现在看到的是什么基于系统的事件,这可能是你可以获得的最大影响。另一个找到自动化想法的办法就是聆听团队的想法,考虑是否有哪些用户投诉是由系统故障驱动的。如果是这样,它可能是解决自动化出现问题的机会。最后,不要计划得太远。你可能现在感到担心在获得一两个成功之后,你会发现团队正在寻求你的建议,以你的方式获得帮助。


本文作者:佚名

来源:51CTO

相关文章
|
4月前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的全方位实践
本文深入探讨了构建高效运维体系的关键要素,从监控、日志管理、自动化工具、容器化与微服务架构、持续集成与持续部署(CI/CD)、虚拟化与云计算以及安全与合规等方面进行了全面阐述。通过引入先进的技术和方法,结合实际案例和项目经验,为读者提供了一套完整的运维解决方案,旨在帮助企业提升运维效率,降低运营成本,确保业务稳定运行。
|
1月前
|
缓存 监控 安全
公司电脑监控软件的 Gradle 构建自动化优势
在数字化办公环境中,公司电脑监控软件面临代码更新频繁、依赖管理和构建复杂等挑战。Gradle 构建自动化工具以其强大的依赖管理、灵活的构建脚本定制及高效的构建缓存与增量构建特性,显著提升了软件开发效率和质量,支持软件的持续更新与优化,满足企业对员工电脑使用情况的监控与管理需求。
38 3
|
1月前
|
运维 监控 持续交付
自动化运维在现代数据中心的应用与实践####
本文探讨了自动化运维技术在现代数据中心中的应用现状与实践案例,分析了其如何提升运维效率、降低成本并增强系统稳定性。通过具体实例,展示了自动化工具如Ansible、Puppet及Docker在环境配置、软件部署、故障恢复等方面的实际应用效果,为读者提供了一套可参考的实施框架。 ####
|
2月前
|
监控 Devops jenkins
自动化部署与监控:打造高效的DevOps流程
【10月更文挑战第24天】在追求快速迭代和持续交付的软件开发时代,DevOps成为提升团队效率的关键。本文深入探讨如何构建一个高效的DevOps流程,包括自动化部署、监控和故障排除等关键环节。通过实际案例,我们将学习如何利用工具简化运维任务,确保系统稳定运行,并快速响应生产问题。
112 2
|
3月前
|
运维 监控 测试技术
构建高效运维体系:从监控到自动化的实践之路
【10月更文挑战第9天】 在当今信息技术飞速发展的时代,运维作为保障系统稳定性与效率的关键角色,正面临前所未有的挑战。本文将探讨如何通过构建一个高效的运维体系来应对这些挑战,包括监控系统的搭建、自动化工具的应用以及故障应急处理机制的制定。我们将结合具体案例,分析这些措施如何帮助提升系统的可靠性和运维团队的工作效率。
73 1
|
3月前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的全面指南在当今数字化时代,运维作为保障系统稳定性和效率的重要环节,其重要性不言而喻。本文将深入探讨如何构建一个高效的运维体系,从监控系统的搭建到自动化运维的实施,旨在为读者提供一套完整的解决方案。
本文详细介绍了高效运维体系的构建过程,包括监控系统的选择与部署、日志分析的方法、性能优化的策略以及自动化运维工具的应用。通过对这些关键环节的深入剖析,帮助运维人员提升系统的可靠性和响应速度,降低人工干预成本,实现业务的快速发展和稳定运行。
|
4月前
|
存储 弹性计算 运维
自动化监控和响应ECS系统事件
阿里云提供的ECS系统事件用于记录云资源信息,如实例启停、到期通知等。为实现自动化运维,如故障处理与动态调度,可使用云助手插件`ecs-tool-event`。该插件定时获取并转化ECS事件为日志存储,便于监控与响应,无需额外开发,适用于大规模集群管理。详情及示例可见链接文档。
|
4月前
|
存储 运维 监控
构建高效运维体系:从监控到自动化的全方位实践指南
在当今数字化时代,企业对运维(Operations)的需求日益增长。运维不仅仅是保持系统运行那么简单,它涉及到监控、日志管理、故障排除、性能优化和自动化等多个层面。本文将从实际操作的角度出发,详细探讨如何构建一个高效的运维体系。通过具体案例,我们将了解不同运维工具和方法的应用,以及它们是如何帮助企业提高生产效率和降低运营风险的。无论你是刚接触运维的新手,还是经验丰富的专家,这篇文章都将为你提供宝贵的参考和启示。
|
3月前
|
运维 监控 安全
构建高效运维体系:从监控到自动化的实践之路
在当今信息技术飞速发展的时代,运维作为保障企业信息系统稳定运行的关键环节,其重要性日益凸显。本文将探讨如何通过构建高效的运维体系,实现从被动响应到主动预防的转变,以及如何利用自动化工具提升运维效率和质量。我们将从运维的基本概念出发,逐步深入到监控、自动化和安全管理等方面,为企业提供一套实用的运维优化方案。
101 0
|
4月前
|
存储 运维 监控
构建高效运维体系:从监控到自动化的全方位实践
在当今信息技术飞速发展的时代,运维作为保障信息系统稳定运行的关键环节,其重要性不言而喻。本文将围绕如何构建一个高效的运维体系进行深入探讨,内容涵盖从监控、日志分析到自动化运维工具的选择与应用,以及在实际工作中的经验和案例分享。通过本文的介绍,读者将能够了解到如何在复杂多变的技术环境中,确保系统的高可用性、高性能和安全性,为业务连续性提供坚实保障。

热门文章

最新文章