系统宕机:设备和应用不再是大问题,人为错误是关键

简介:

如果问系统管理员什么是最令其担心的问题,十有八九会说是系统宕机,这一点对业务中断忍受度极低的金融行业来说尤为如此。随着数字化转型的进一步推进,越来越多的企业业务依赖IT技术,IT系统宕机极易导致企业的瘫痪,造成的影响和损失不可估计。

对于IT团队来说,即便尽全力也几乎不能保证系统100%正常运行,只能通过规划冗余以尽可能地保持更多的正常运行时间。

实际上与几年前相比,现在的软件更具弹性,无论是商业软件还是开源软件出问题的几率都比较小,出了问题管理员也可以通过使用虚拟机、配置和编排以快速恢复正常运行。

系统宕机最常见原因不再是设备或应用程序故障,而是人为因素,即系统管理员的错误操作。随着企业更多地部署虚拟化及采用公共平台,现代企业IT变得越发复杂,这导致了人为错误的增加。且很多管理员仍在使用命令行界面,和系统情况变更之间没有任何把关。这样即便管理员操作正确,在复杂环境中也可能造成极大影响,诸如其指令可以解决当下的问题,但调用资源可能会与数据访问产生冲突而导致其他工作负载问题。

在此种情形下,采用自动化以减少人为错误显得弥足重要。比如创建可运行脚本库,可重复授权使用这些脚本;此外,使用编排系统不仅可以调配脚本,也可以调配修补程序,对于部署混合云的企业可以采用编排工具以帮助自动化和管理。

除人为错误外,网络攻击也会导致非计划性系统宕机。DDoS攻击能拖垮服务、恶意软件会导致数据损坏和系统停机,而臭名昭著的勒索软件则更为棘手,一旦中招会加密企业数据。对此,企业可采取安全供应商提供的安全产品和保护服务来提高系统安全性,从而避免系统宕机。

本文转自d1net(转载)

目录
相关文章
|
6月前
|
安全 Unix Linux
操作系统紧急故障修复常见有效方案
操作系统是计算机系统的核心软件之一,如果操作系统出现了紧急故障,将会引起系统的宕机,严重影响业务系统的可用性。因此,对操作系统的紧急故障进行修复是必不可少的。本文将介绍操作系统紧急故障的常见有效方案。
110 1
|
4月前
计算机故障的分类、故障分析与排除
计算机故障的分类、故障分析与排除。
25 0
|
5月前
|
监控 安全 数据安全/隐私保护
服务器数据恢复—如何预防服务器故障?发生故障后如何恢复服务器数据?
服务器常见故障: 硬件故障:磁盘、板卡、电源故障等。 软件故障:操作系统崩溃、程序运行错误等。 入侵破坏:加密、删除服务数据等。 不可控力:浸水、火烧、倒塌等。 误操作:格式化、删除、覆盖等。
|
12月前
|
监控 容灾 安全
系统总出故障怎么办?
系统总出故障怎么办?
|
Java Linux
线上故障快速定位及恢复(上)
线上故障快速定位及恢复(上)
188 0
线上故障快速定位及恢复(上)
|
运维 Java
线上故障快速定位及恢复(下)
线上故障快速定位及恢复(下)
156 0
线上故障快速定位及恢复(下)
|
安全
电脑软件常见的故障原因及排除方法
电脑软件常见的故障原因及排除方法
1668 0
|
监控 容器 关系型数据库
可用性监控-先于用户知道应用挂了
背景:任何服务都避免不了出现以下问题,你的用户访问不了你的服务或者站点,用户偶尔碰到5xx,服务响应延迟比较慢,某台应用进程挂掉,导致访问时好时坏。问题在于,_你是否要等你的用户来告诉你,你的程序是问题了_。
1792 0
|
iOS开发 网络架构 内存技术