进行电源循环测试以避免硬件故障

简介:

不要让意外停机时间中断你的数据中心。进行电源循环测试以主动监控系统,并以有条不紊、有序的方式识别硬件故障。

由于日常操作期间可能不会使用IT系统的所有部分,某些组件可能会失效,软件模块可能会崩溃,但系统可能依旧正常运行数月甚至数年。在系统重启(通常意外)之前,故障可能无法被识别,进而导致意外的工作负载中断和停机时间。

定期进行电源循环测试,以识别可能出现的问题并主动解决。

如果没有发现任何问题,为什么要执行电源循环测试?

系统管理工具包括Microsoft System Center、SolarWinds、Nagios和Zabbix是强大的多功能平台。几乎所有系统管理工具都可以提供故障、配置、审计、性能和安全管理等功能,使其成为现代企业不可或缺的一部分。

但是,某些故障可能发生在硬件级别,可能不会立即影响系统或工作负载。例如,服务器可能在双列直插存储器模块(DIMM)中检测到内存故障。但是,如果没有工作负载使用该内存空间,或者故障DIMM由故障纠正技术保护,则服务器可以继续工作,向系统管理报告很少的直接错误。在大多数情况下,现代服务器的智能平台管理接口或基板管理系统可以报告这些错误,但是该信息通常只是记录,系统及其工作负载将继续运行。

未检测到以及未解决的硬件问题最终将变成大麻烦。如果意外系统崩溃或电源中断导致计划外系统重启,系统内部固件可能会发现这些问题并拒绝完成引导过程。例如,如果服务器南桥芯片出现故障,且USB或板载磁盘控制器未成功初始化或响应,即使企业可能不使用服务器的USB端口,而是通过网络访问存储,也无法正常完成启动引导。现在,IT必须尝试从意外中断中恢复,并同时解决有缺陷的系统。

为避免这种情况,需要进行定期和主动的电源循环测试,以强制在底层级别硬件中重新启动系统。采用有计划的重新启动来确保数据保护,并以有组织的方案将虚拟机或存储实例迁移到目标设备之外,可以免于计划外的应急工作或宕机。接下来,循环上电,并允许硬件系统完全启动,以显示潜在未知或未解决的问题。系统电源循环通常作为组织现有关机文档的一部分。如果在重新启动过程中出现问题,你最好取纠正措施。

应该如何实施电源循环测试,应该多久进行一次?

可靠的设计能够保障服务器运行多年。当在弹性配置(例如服务器集群)中部署这些服务器时,这些系统上运行的工作负载几乎是不可破坏的。事实上,强调系统弹性和正常运行时间常常导致许多组织放弃周期性的重启测试。

但是如果一个服务器或存储子系统运行了几年,要如何知道它还能正确启动?无法得知,而且保证系统能够成功冷启动的唯一方法就是定期重启。

电源循环测试需依赖什么?

根据需求定期进行电源循环测试,以保证对业务需求在合理水准的信心。通常,可以每几个月或每年进行几次电源循环。将电源循环测试与常规灾难恢复和关机测试同步,以便同时处理和达成这两个目标。

有时,外部因素,如变电站升级或重要建筑物改造,迫使企业使数据中心离线一段时间。现在,计划停机可以减少业务中断,因为您可以轻松地将工作负载迁移到辅助数据中心或云上。所以任何IT团队准备处理计划内的设施关闭时,也应该能够进行常规电源循环测试。

服务器硬件有任何风险吗?

当启动和运行服务器或存储阵列时,总是有一定程度的电、热和机械应力。当电子元件冷却并再次升温时,会产生热应力,可能导致边缘连接失效,并导致过早的系统故障。同样,如果让老化磁盘或冷却风扇冷却,它可能因为耗尽润滑剂卡住,并导致磁盘/风扇轴或其他微小机制的问题。

还存在潜在逻辑风险。意外的配置更改可能会使系统超出规格,并导致由于系统配置管理工具出现告警或应用程序启动问题。例如,如果系统重新启动并尝试安装意外或未批准的修补程序,则配置管理工具可能会暂停该工作负载或服务器集群启动,直到系统批准的配置恢复为止。

这样的问题比较少见,特别在现代、节能系统中。虽然一些IT专家认为放弃采用和实施电源循环,可以减少这种故障的可能性,但是理想的电源循环测试理念正是沉淀、隔离和解决这类问题。更早暴露问题,远比等到意外的电源故障或应用程序崩溃发生,系统无法正常启动时,才进行应急处理要合理。随着如今虚拟化和群集的应用,能够保障工作负载将持续运行的同时,识别和修复故障系统。

本文转自d1net(转载)

相关文章
|
7月前
|
安全
DC电源模块的安全性能评估与测试方法
DC电源模块的安全性能评估与测试方法 DC电源模块的安全性能评估与测试方法应包括以下几个方面: 1. 输入安全性测试:包括输入电压范围、输入电压稳定性、输入电流范围、输入电流保护等方面的测试。测试方法可以是逐步增加输入电压或输入电流,观察模块的工作状态和保护功能。
DC电源模块的安全性能评估与测试方法
|
7月前
|
安全 测试技术
BOSHIDA DC电源模块的安全性能评估与测试方法
BOSHIDA DC电源模块的安全性能评估与测试方法
 BOSHIDA DC电源模块的安全性能评估与测试方法
|
7月前
|
Perl
在awk中,初始化-测试-递增型的 `for` 循环
在awk中,初始化-测试-递增型的 `for` 循环
50 2
|
4月前
|
测试技术 Python
Python接口自动化测试框架(基础篇)-- 流程控制之循环语句for&while
本文介绍了Python中的循环语句,包括while和for循环的使用,range()函数的运用,以及continue、break和pass关键字的说明,同时提出了关于while循环是否能与成员运算符结合使用的思考。
53 1
Python接口自动化测试框架(基础篇)-- 流程控制之循环语句for&while
|
4月前
|
安全 数据库连接 数据库
可靠性测试-故障注入工具
【7月更文挑战第19天】可靠性测试中的故障注入工具对评估系统容错性与稳定性至关重要。常见工具如 **FaultInjector** (模拟多类故障)、**Xception** (针对特定组件注入错误) 和 **Chaos Monkey** (验证云环境下系统弹性) 帮助开发者提前发现潜在问题, 优化系统设计, 如电商公司通过测试确保促销期稳定, 金融机构降低交易风险。选择合适工具并结合业务场景测试对提升可靠性至关重要。
136 0
|
7月前
探讨AC/DC电源模块的可靠性设计和测试方法
探讨AC/DC电源模块的可靠性设计和测试方法
探讨AC/DC电源模块的可靠性设计和测试方法
|
7月前
BOSHIDA AC/DC电源模块的可靠性设计与测试方法
BOSHIDA AC/DC电源模块的可靠性设计与测试方法
BOSHIDA  AC/DC电源模块的可靠性设计与测试方法
|
6月前
|
编译器 测试技术 Linux
技术洞察:循环语句细微差异下的性能探索(测试while(u--);和while(u)u--;的区别)
该文探讨了两种循环语句(`while(u--);` vs. `while(u) u--;`)在性能上的微妙差异。通过实验发现,后者比前者平均执行速度快约20%,原因在于循环条件检查的顺序影响了指令数量。尽管差异可能在多数情况下不显著,但在性能关键的代码中,选择合适的循环结构能优化执行效率。建议开发者在编写循环时考虑编译器优化和效率。未来研究可扩展到不同编译器、优化级别及硬件架构的影响。
|
7月前
|
测试技术 数据处理
LabVIEW与Tektronix示波器实现电源测试自动化
LabVIEW与Tektronix示波器实现电源测试自动化
73 6
|
7月前
|
存储 弹性计算 运维
循环测试用户名与密码是否正确
【4月更文挑战第29天】
34 0