现代数据中心服务器维护检查清单

本文涉及的产品
日志服务 SLS,月写入数据量 50GB 1个月
简介:

企业数据中心定期计划性的进行服务器维护可以防止发生大的问题,并保持一切正常运行。因此,数据中心管理人员们务必要为服务器的硬件和软件执行简单的检查腾出时间。

数据中心的服务器只是复杂一些的机器。与任何其他机器一样,这些服务区也同样需要定期性的维护,以便达到最佳性能。而通过简单的维护程序则可减少发生严重故障的可能性,进而延长服务器的使用寿命。

现代数据中心服务器维护检查清单

即使具备现代服务器的性能和冗余功能特征,增加的工作负载整合和可靠性预期也可能对您的企业的业务造成损失。故而您数据中心的服务器维护清单应涵盖相关的物理元素以及系统的关键配置。

坚持常规性例程

服务器管理员们经常忽视计划性维护窗口。不要等到实际发生故障运行失败时才来进行维护;请务必预留出足够的时间用于日常的服务器预防性维护。

维护的频率通常取决于设备的使用时长、数据中心的环境、所需要维护的服务器的数量等因素。例如,位于设备机柜中的旧设备较之被部署在一款HEPA过滤的,冷却良好的数据中心中的新的服务器就需要更频繁的检查。企业组织可以根据供应商或第三方提供商的例程实施日常维护计划;如果供应商的服务合同每四到六个月要求进行系统检查,则按照该日程进行安排。

准备好一切

在您数据中心列出亟待维护检查的服务器清单项目之前,请务必先行制定一套计划。这包括检查系统日志,看看是否需要更直接的把关注焦点放在任何错误或事件上。例如,如果系统日志显示特定内存模块的错误,您应该订购一款替换的DIMM并将其安装。同样,如果有固件、操作系统或代理补丁/更新可用,请先在维护窗口之前先检查,并打好这些补丁。

同样,有必要针对系统脱机及其在稍后返回服务制定一套明确的计划。在虚拟化出现之前,服务器及其之上的应用程序将需要停机以适应维护窗口——这通常会迫使IT人员需要在夜间或周末进行维护。虚拟化服务器支持工作负载的迁移,而没有停机时间,因此您企业数据中心可以将应用程序迁移到其他服务器,并且任何时候当底层主机系统在发生服务器维护时,它们都将保持可用状态。在执行维护服务之前,请务必清楚的知道虚拟机应该迁移到哪里,将虚拟机迁移到选定的系统,并确保每项工作负载正在运行,然后再将服务器关闭进行维护。

此时,通常可以关闭服务器,并将其从机架或其他机箱中删除卸下。

确保服务器可以“呼吸”

一旦服务器脱机,可以直观地检查其外部和内部的气流路径。清除可能会阻碍冷却空气流通的任何积聚的灰尘和其他碎屑杂物。

从外部空气的入口和出口开始,然后深入系统机箱,查看CPU散热器和风扇组件,内存模块和所有冷却散热风扇叶片和风道通道。用干净、且干燥的压缩空气适当清除静电安全工作区上的灰尘或碎屑。不要在机架上清洁服务器。

除尘是一种老式的清洁过程,但这并不意味着其已经过时了。除尘器是一种绝热材料,这使得这一过程更为重要,鉴于替代冷却方案和ASHRAE建议数据中心适当提升数据中心的操作环境温度。灰尘和其他气流障碍物将导致服务器会消耗更多的能量,甚至会引起原来可避免的过早的组件故障。

检查本地硬盘

许多服务器依靠内部硬盘进行引导、工作负载启动和存储,用户数据和其他功能。磁盘介质问题严重损害了工作负载的性能和稳定性,往往导致磁盘过早出现故障失效。

磁介质是不完美的;常见的问题包括坏扇区和碎片。在保持数据完整性方面,RAID有了很大的进步,但是较小的1U机架式服务器不能提供足够的物理空间来部署磁盘阵列。使用诸如CHKDSK(检查磁盘)等实用程序等工具来验证磁盘的完整性,并尝试恢复其上的任何坏扇区。 Windows Server 2012的更新版本的CHKDSK可以快速分析和修复文件系统结构中的磁盘问题。

磁盘碎片不会消失,只要具备NTFS和文件分配表或FAT,文件系统使用磁盘空间首先可用的集群。碎片可能会降低减缓服务器的磁盘的运行,并导致故障。Windows Server 2012下的Optimize-Volume等实用程序会将每个文件的集群连续排列在磁盘上。

阅读事件日志的附属细则

服务器在事件日志中记录了大量信息,特别是有关问题的详细信息。如若没有仔细检查系统、恶意软件和其他事件日志,那么,服务器维护检查清单便是不完整的。当然,关键系统问题应该会第一时间引发IT管理员和技术人员的关注,但从无数的小事件的积累中可能会发现长期而严重的问题。

请检查报告设置,并验证恰当的警报和警报接收者。例如,如果某位技术人员离开了服务器管理团队,则需要更新服务器的报告系统。仔细检查联系方式;如果错误发生在工作时间之外,则仅仅只向技术人员的企业电子邮件地址发送发生严重错误的报告可能是完全不够的。

积极主动的跟踪日志数据。当通过对日志的检查发现长期或经常性的问题时,积极的调查可以在问题升级之前解决问题。例如,如果服务器的日志报告内存模块中存在可恢复的错误,其将不会触发关键警报。但是,重复的实例会显示模块出现问题,IT人员可以执行更详细的诊断来识别即将发生的故障。

为打补丁和更新腾出时间

服务器的软件堆栈——BIOS,操作系统,虚拟机管理程序,驱动程序,应用程序,支持工具——都必须进行互动和协同工作。不幸的是,软件代码很少是完美无缺的或无问题的,所以这些软件经常需要被修补或更新,以修复错误,提高安全性,简化互操作性和提高性能。

没有任何一款生产软件能够自动更新。管理员应首先确定是否需要打补丁或更新升级,然后再进行彻底的评估和更改测试。如果更新解决的是您的服务器原本没有的问题,那么为什么要冒着创造出其他问题的风险呢?

软件开发人员不可能测试硬件和软件的每个潜在组合,因此修补程序和更新可能会导致比您的特定服务器或软件堆栈修复更多的问题。例如,监控代理补丁可能会导致重要工作负载的性能问题,因为新代理会占用比预期更多的带宽。

转向 DevOps,借助更小的和更频繁的更新会加剧潜在的问题。在部署之前,仍然需要在实验室中测试任何补丁或更新。并且始终确保可以撤销更改,并在必要时恢复原始软件配置。

核实并记录任何更改

在诸如硬件,软件,系统配置更改的维护窗口中,服务器可能会发生很多事情。完成服务器维护清单后,IT员工必须验证和记录任何新的系统状态。例如,更改了网络适配器,添加或更换了DIMM,更新了操作系统和许多其他操作可能会改变系统的配置。依赖于系统配置管理工具的企业组织可能需要更新或“发现”更改——在系统允许恢复使用之前将这些更改记录到配置管理数据库。IT人员可能需要更新任何强制或期望的状态配置状态,以允许更改。

还要验证系统安全状态,如防火墙设置、反恶意软件版本或扫描频率和入侵检测/预防(IDS / IPS)的设置。安全检查可以帮助确保对系统软件的更改不会无意中暴露任何可能在先前配置中已关闭的攻击面。

最后,一旦服务器重新联机,不要忘记更新任何系统备份或灾难恢复(DR)内容。验证服务器的备份/ DR位置或频率是否保持不变,除非这些相关设置需要特别调整以反映服务器的变化角色。


本文作者:佚名          

来源:51CTO

相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
12月前
|
安全 Linux 数据安全/隐私保护
百度搜索:蓝易云【OpenVAS 检查 Linux 服务器漏洞教程!】
通过上述步骤,你可以在Linux服务器上使用OpenVAS进行漏洞检测。请注意,漏洞检测和扫描是一个复杂的过程,需要持续的更新和管理。建议参考OpenVAS的官方文档和用户指南,以了解更多关于配置和使用OpenVAS的详细信息。
130 0
百度搜索:蓝易云【OpenVAS 检查 Linux 服务器漏洞教程!】
|
5月前
|
安全 Windows
服务器中如何检查端口是否开放
服务器中如何检查端口是否开放
|
2月前
|
监控 Linux Shell
"揭秘!一键掌控Linux服务器健康的秘密武器——超实用系统检查脚本,让你的服务器稳如老狗,告别宕机烦恼!"
【8月更文挑战第14天】服务器宕机或资源耗尽会严重影响业务。为此,你需要一个Linux系统检查脚本来守护服务器健康。它可以自动检测潜在问题如磁盘满载、内存泄漏等,避免服务中断。脚本应包括磁盘空间、内存/CPU使用、系统时间准确性、关键服务状态及系统日志分析等检查项。通过编写并定期运行这样的脚本,可以显著提高服务器的稳定性和可靠性。
37 1
支付系统35-----支付成功异步通知----数据锁,微信那边是有一个服务器集群的,不单单是有一个通知发送过来,有可能有两台更多台的服务器发送过来,把锁加到我们处理通知里面,在对业务数据进行状态检查和
支付系统35-----支付成功异步通知----数据锁,微信那边是有一个服务器集群的,不单单是有一个通知发送过来,有可能有两台更多台的服务器发送过来,把锁加到我们处理通知里面,在对业务数据进行状态检查和
|
12月前
|
域名解析 网络协议 网络安全
当您的域名解析的邮件服务器无法发送邮件时,可以检查以下几个方面
当您的域名解析的邮件服务器无法发送邮件时,可以检查以下几个方面
396 1
|
5月前
|
安全 算法 Linux
【专栏】Linux 服务器还有漏洞?OpenVAS 是一款开源的漏洞扫描工具,用于全面评估 Linux 服务器安全
【4月更文挑战第28天】OpenVAS 是一款开源的漏洞扫描工具,用于全面评估 Linux 服务器安全。它具有全面性、准确性和实时性的特点,能扫描各种设备并及时发现安全漏洞。使用 OpenVAS 包括安装、配置和执行扫描,以及分析结果并采取修复措施。在使用过程中应注意扫描时间、范围和策略的选择。通过定期检查和修复漏洞,结合其他安全措施,可以提升服务器安全性。OpenVAS 是保障 Linux 服务器安全的重要工具,但安全维护也需要持续学习和适应新挑战。
157 1
|
5月前
|
安全 关系型数据库 MySQL
卸载宝塔后,如何检查服务器运行状态?
通过上述方法,您可以全面检查服务器在卸载宝塔面板后的运行状态。如果发现问题,您可以根据错误信息或日志进行相应的故障排除。
|
5月前
|
SQL 关系型数据库 数据库
OceanBase数据库常见问题之OAT添加服务器预检查的时候报错如何解决
OceanBase 是一款由阿里巴巴集团研发的企业级分布式关系型数据库,它具有高可用、高性能、可水平扩展等特点。以下是OceanBase 数据库使用过程中可能遇到的一些常见问题及其解答的汇总,以帮助用户更好地理解和使用这款数据库产品。
|
5月前
|
安全 Java 数据中心
Confluence 数据中心和服务器中的严重漏洞 CVE-2023-22515
Confluence 的开发者 Atlassian 已承认此漏洞,并将其归类为损坏的访问控制问题。他们强调需要立即采取行动,并建议用户升级到最新版本以保护他们的系统。Atlassian 将该漏洞的严重级别评定为 Critical CVSS 10。
58 0
|
运维 监控 网络协议
【运维】Zabbix Agent安装——监控服务器冒红灯检查步骤
【运维】Zabbix Agent安装——监控服务器冒红灯检查步骤