无需深厚技术背景,也可以做好系统和应用维护管理

简介:
做好系统和应用维护势在必行
  如何做好IT系统的运行维护是IT领域的热点问题. 随着信息化技术的蓬勃发展,信息化建设的深入,运维管理的难度也越来越大。 如何管理好IT系统,保证其可用、安全、可靠、高效地运行,提高用户满意度、降低运维服务成本、保证系统能够在遇到突发事件时快速地解决。是当下严峻而又现实的问题。
  作为运维服务提供者,无论是管理人员还是运维人员,经常会遇到这样的情景:
梦深时分,急促的铃声响起,电话接通,在电话的另一头,有人急切地说道:“一位公司领导反映,公司的网站登录不了,邮件无法正常发送,首页显示空白”,一般这种情况下,你会要求现场人员尝试恢复服务,但现场人员往往不能独立解决,此时你需要协调技术专家去出面搞定这个问题,但如果问题棘手呢,那此时就需要综合各方高人进行会诊。通过逐一询问运维组的检查情况,细致了解了包括防火墙、入侵监测、操作系统、数据库的设置、Web服务器以及自身的运行情况后,系统问题仍然无法定位。
  就在你准备放弃的时候,打算采取应急方案的时候,正常的界面又忽然显示了,只是很快,但刷新后又重复出现非正常。他们的联系在哪里,问题在哪里,你得找出根本原因。
  经过多番种种努力,你忽然想到一点,昨天客户好像提过要对硬件做升级,如果所料不错的话,应该是昨天晚上就进行了,但因为某种原因,升级并没有成功,客户的操作步骤也没提前通知,具体操作如何谁也不清楚。这时候你会给客户打电话汇报情况,并要求客户方安排人员来解决,
  终于在多方人员的努力下,系统恢复正常运行,大家一起舒了一口长气,同时开始抱怨“怎么能这样?他们也太过分了,居然进行升级都不跟我们打个招呼,明天一定得好好的跟他们领导反映”。
  以上的情景我相信绝大多数运维服务提供者都能遇到,并且不止一次两次。为什么会产生这些问题呢?如果在此次事件中,整个系统有了变更管理环节,当客户进行升级,就必须通过变更管理的审核和批准,否则是无法进行相应操作的,也自然不会出现应用无法访问的问题,这对运营维护好IT系统以及提供完善的IT服务有着重要的意义。
系统与应用维护都有哪些困难
  -服务器操作系统
  操作系统是服务器运行的软件基础,其重要性不用说大家都明白。如果使用Windows xp或Windows 2000 Server作为操作系统,维护起来还是比较容易的,只要按时打好补丁,定时查看日志就可以。但如果是LINUX和UNIX操作系统的话,需要对运维人员的技术有相当高的要求,需要具备一定的专业知识。
  -服务器上的应用维护
  服务器上的应用软件是企业的核心数据,是企业最重要的数据之一,如果数据丢失或者服务异常终止对于企业来说所造成的损失是不可估量的,企业的应用已经成了企业生存和发展的重要组成部分。当企业应用的规模越来越大时,应用也随之越来越多,如何快速有效的对这些关键应用进行监控就成为了迫切的问题。
  -7*24小时服务周期
  除了上述二点列出的技术上的困难之外,还有一个重要的问题就是企业的服务器以及上面所运行的应用都是实时性很高的业务,必须得保证7*24小时不间断提供服务,单纯的靠人工维护的话实时性太差,管理员不可能一天二十四小时盯着服务器,所以在现实情况中,经常出现服务器宕机或者服务器上的应用不能访问,运维人员往往无法第一时间知晓,而是由实际使用服务器或使用应用的人去通知,此时业务可能已经停止了很长时间,这对于企业来说无疑是很大的损失,从而造成对IT运维人员的满意度下降。
系统和应用谁来维护,谁来管理
  所谓系统和应用维护就是指能够面对并处理IT系统涉及到计算机所出现的各种故障,说白了就是软硬兼施。故障从系统级到应用级,从网络到硬件设备。
  在系统和应用维护中,人的因素至关重要。因为我们都知道人可以解决问题,但人又同样会带来问题,比如一个资深的运维人员离岗后,问题再次发生时就很难快速响应,即使交接人技术很强却也无法获取到前人的运维经验。这使得系统和应用维护管理的不稳定因素日益增多,如何减少由人员变更导致得系统和应用维护管理的难度加大,是摆在我们眼前而必须解决的问题。
  维护管理软件的产生,使得人在运维管理中所起到的作用被量化和标准化。通过运维管理软件,所有IT设备都可以被监控管理。设备遇到问题,会自动分类报警,无论是系统自动报警还是使用人工故障上报,工程师只要按照系统相关知识库的知识,一步一步操作下去就可以,因此,对于工程师来说,不需要很高的技术水平,就可以进行维护支持。
  为了发挥IT系统的最大作用,系统和应用不仅仅需要人的运维,更需要有合适的维护管理软件来支撑,帮助企业实现IT运维自动化,标准化。
  通常情况下,维护管理软件应主动告诉我们应该关注什么内容,指导我们如何去进行管理,问题出在哪里,该从什么角度入手分析,主动定位问题的位置等等。它至少应具备以下几个方面的特点:
a) 提供综合的一体化管理平台:整合网络、主机、应用、服务等各层面 IT 资源的、统一的IT 服务管理信息视图。
b) 提供直观的管理呈现方式:统一的监控资源视图。
c) 提供多种发现问题和准确定位的管理机制:能够准确、快速地定位故障产生的根本原因。
d) 提供统计报告和分析图表,方便公司领导层做出决策。
e) 保障业务系统的稳定运行:从业务角度切入,以业务为导向,通过对整个业务系统的关注,从而达到保障业务系统稳定运行和透明化管理的目的。
简单易用的维护管理软件的优势
  简单易用最主要的标准,就是无需深厚技术背景,也可以轻松做好系统和应用维护管理。
“哪怕是一个只有基础技术能力的人,也能做专业IT维护”,这是我们维护管理软件应该帮助用户达到的运维水平。
  -监控信息统一展现
  面向业务监控和统一portal展现,整合第三方监控系统,提供覆盖网络、系统及应用服务等全方位监控的统一页面展现。统一告警平台汇总、压缩和关联各种设备或服务的告警信息,实现统一监控和展现。
  可针对不同角色的管理人员,提供各取所需的不同内容。比如为部门经理提供实时的服务仪表盘Dashboard,辅助IT决策,为运维人员提供资源可用性与性能指标,确定资源状态。
  -网络拓扑图
  日常的运维工作中,系统维护管理人员对网络的监控只是单点地针对设备,无法对整体进行有效的监控。网络拓扑图应提供网络资源实时监控功能,能够实时展现网络所有设备各个部分工作状态变化,能真实地体现网络中的物理运行状态。能够支持自动发现网络拓扑,也支持手工绘制各种网络拓扑,使网络管理员能够更加集中、方便和有效的管理企业的网络资源。

  -可视化管理
  可视化管理用于对企业的各种系统、应用、数据库等资源进行实时的性能监控和诊断的软件产品,它是个实时系统状态监控软件,在前端交互界面上主要采用Flash 技术,生动形象的展现系统各个部分的状态变化。

  -快速监控
  一款强大的网络资源监控软件,应能快捷易用,使用户能够快速上手。不但可以快速发现资源,而且可以立即开始监控,使用户可以立即查看所有资源的状态、可用性、性能指标取值、报警信息等等。
  -Dashboard
  服务Dashboard(业务服务管理仪表盘),提供对IT 基础架构的全面管理,并且能把IT 服务和相关用户串联连一起,提供直观的可视化界面。一旦发生问题,系统管理员能很快通知受影响的客户并及时了解服务故障严重程度。前端交互界面采用Flash 展现,为用户提供完整的信息视图和工作平台。
总结
  一个真正综合而全面的IT运行维护管理软件,才是用户的最终选择。它必须从用户角度出发,对业务/应用服务,及其背后的IT基础架构(路由器、交换机、服务器等)进行全面监控;提供保障业务的服务质量,不仅能在服务可用性、响应时间等方面提供良好的服务保证,还能在服务中断时,及时发出通知并解决问题。 




本文转自赖永锋51CTO博客,原文链接:http://blog.51cto.com/mochasoft/165636 ,如需转载请自行联系原作者
相关文章
|
5月前
|
敏捷开发 开发框架 前端开发
构建高效移动应用:以用户为中心的设计策略
【4月更文挑战第3天】 在移动应用领域,"以用户为中心"并非一句空洞的口号,而是产品设计成功与否的关键。本文将探讨如何通过深入分析用户需求、优化用户界面(UI)和用户体验(UX),以及利用现代技术框架来构建既高效又引人入胜的移动应用。我们将剖析多个案例,提炼出可行的设计原则,并讨论如何在快速迭代的开发过程中维持设计的连贯性和功能性。通过这些策略,开发者可以创造出不仅满足用户需求,还能预见并塑造未来使用模式的移动应用。
273 0
|
5月前
|
搜索推荐 云计算
云开发对学生的影响
云开发对学生的影响
|
存储 运维 安全
简化管理与提高效率:深入了解配置中心
在现代软件开发中,配置管理是至关重要的一环。随着应用程序规模的增长和多环境部署的需求,有效地管理配置变得越来越复杂。这时,配置中心成为了一个不可或缺的工具。在本文中,我们将深入探讨配置中心的概念、优势以及如何使用它来简化配置管理,提高开发和运维效率。
|
21天前
|
监控 数据挖掘
有效的资源动态管理是确保项目成功和组织效率的关键
有效的资源动态管理是确保项目成功和组织效率的关键
126 71
|
6天前
|
运维 Prometheus 监控
运维中的自动化实践每月一次的系统维护曾经是许多企业的噩梦。不仅因为停机时间长,更因为手动操作容易出错。然而,随着自动化工具的引入,这一切正在悄然改变。本文将探讨自动化在IT运维中的重要性及其具体应用。
在当今信息技术飞速发展的时代,企业对系统的稳定性和效率要求越来越高。传统的手动运维方式已经无法满足现代企业的需求。自动化技术的引入不仅提高了运维效率,还显著降低了出错风险。本文通过几个实际案例,展示了自动化在IT运维中的具体应用,包括自动化部署、监控告警和故障排除等方面,旨在为读者提供一些实用的参考。
|
3月前
|
C++ 运维
开发与运维C++问题之在重新设计后,LogFileReader类的角色发生了什么变化
开发与运维C++问题之在重新设计后,LogFileReader类的角色发生了什么变化
32 1
|
3月前
|
设计模式 监控 Go
开发与运维C++问题之C++部分原有的数据发送能力如何解决
开发与运维C++问题之C++部分原有的数据发送能力如何解决
24 1
|
3月前
|
监控 Java 测试技术
开发与运维技术问题之“化整为零”策略在项目风险管理中的作用如何解决
开发与运维技术问题之“化整为零”策略在项目风险管理中的作用如何解决
30 0
|
3月前
|
传感器 Python
门禁管理系统工程是一个涉及硬件和软件集成的复杂系统,旨在控制人员的出入,并记录和管理相关数据。
门禁管理系统工程是一个涉及硬件和软件集成的复杂系统,旨在控制人员的出入,并记录和管理相关数据。
|
4月前
|
监控 数据可视化 BI
清单管理软件推荐:提升任务效率与组织能力
**Zoho Projects是一款推荐的清单管理工具,它支持任务关联和实时更新显示,提升效率。通过派生和关联关系组织任务,用甘特图监控进度,还提供直观的统计报表功能。适合个人和中小企业免费试用,以优化工作流程。**
35 0