《IT运维之道》——3.2 IT运维服务的原则

简介:

本节书摘来自异步社区《IT运维之道》一书中的第3章,第3.2节,作者: 李鹏 更多章节内容可以访问云栖社区“异步社区”公众号查看。

3.2 IT运维服务的原则

前面大家了解了IT运维服务的主要工作内容,作为我们IT运维服务者如何做好这份工作呢?运维服务工作看似简单,不少人认为就是修修电脑、调调软件等,自比物业,不善总结,结果一年忙到头,既不被用户认可也不被老板重视,面对困惑我们多少会问下自己,自己是做得多好呢还是做得少好,是忙点好呢还是闲点好,我们这里要回答:“不!是做到点上才好,怎样才能做到点上呢?”

首先是要用心,用心做事才能成功,当然这里面确实有技巧,我们首先要知道IT运维服务的总体原则:事先讲计划、重承诺,事中讲规范、重控制、有反馈,事后重效率、能应急、有保障。这几个方面是相辅相成的,有了计划才能按照计划与承诺去开展相关工作,在这个过程中要体现出规范性,并有效控制各种风险,对于服务过程与结果应向用户进行报告和反馈;同时,整个运维工作应体现出积极的效果,包括运维效率、应急与保障能力等。只有这样,运维工作才能满足用户的需求,并达到预期的效果,实现用户放心、舒心、开心的目标。

3.2.1 讲计划
《草船借箭》是我国三国时期的一个故事。周瑜 为陷害诸葛亮 ,要诸葛亮在十天之内造好十万支箭。诸葛亮算定了大雾之日,便借子敬二十只草船驶往曹营,曹操因疑雾中有埋伏,便令以乱箭射之。待至日高雾散,孔明令收船急回,船轻水急,曹操追之不得,使孔明既安全借得箭,又挫败了周瑜的暗算,表现了诸葛亮有胆有识,才智过人。《草船借箭》中诸葛亮的胆识才智受到后人的赞美,不过我以为诸葛孔明最令人叫绝的是他的这次策划,因为有这次天衣无缝的策划,所以胸有成竹,轻轻松松,成绩显著。而策划用在运维上就是计划。

所以,想在运维过程中轻轻松松,又能做到点上,就要重视事先的计划,计划来源于和客户达成的承诺或领导的命令,在整个运维过程中,计划是整个工作流程的核心,年度计划(依据服务承诺制定)又是计划中的龙头,按照计划先行的原则,依据本年度工作计划制定分项工作计划(如巡检计划、监控计划、培训计划等)和时间维度计划(季度工作计划、月度工作计划等),并遵流程、按计划进行实施和保障。所以,工作计划是真正运维具体工作的龙头,它是围绕实现服务承诺而制定的,各分项工作计划(如巡检计划、监控计划、培训计划等)和时间维度计划(季度工作计划、月度工作计划等),都应以确保实现服务承诺为前提。其中,现场巡检计划是运维工作计划的核心,因为现场巡检工作具有重要的作用和意义,通过现场巡检能够发现系统薄弱环节、关键业务节点、存在的隐患,尤其是对制定应急预案及备品备件计划至关重要。当然,写得再完美的方案如果不做就等于纸上谈兵、水中之月,所以,计划执行应是重点,企业的成功很多时候是赢在执行,运维体系能否严格按照工作计划执行是运维服务效果能否达标的关键因素之一。当然,如果计划发生变化,那么如何执行也应进行相应更新和变动,以适应工作计划需要。在运维执行过程中,应严格按照流程规范开展运维,并注重控制以降低运维风险。针对运维执行情况,应定期向用户进行反馈。不过计划的粗细、时间跨度要依据项目和公司情况而定。

最后,要将工作计划的执行效果及运维结果与服务承诺进行对比,对比的结果应作为改进工作计划的输入,确保对用户的承诺能够达成。在此过程中,运维人员将根据工作需要定期或不定期将运维工作情况向用户进行反馈与汇报,让用户全面了解整个系统运行情况及运维工作情况。因此,总结起来可以说,运维工作执行来源于计划,受控于流程,输出于反馈,更新于实践。
**
3.2.2 重承诺**
获得用户的信任是长期、稳定、深入开展运维工作的基础和前提,而要获得用户的信任,很重要的一点就是讲求信用,即重承诺。重承诺是IT运维服务商向用户提出具体的运维服务承诺,并认真做好运维工作,确保各项运维指标达到标准,从而获得用户的信任,让用户放心。用户对运维工作的信任需要长期、耐心、深入地开展工作。

对于用户的任何承诺,都应严格予以履行,确因特殊原因导致无法履行时,应提前和用户进行说明和解释,并获得对方的谅解。简单来说,对于用户不要轻易许诺,而一旦许诺,就要做到。具体体现在以下方面:

(1)事先和用户约定服务级别协议(Service Level Agreement,SLA),对于所承诺的服务级别目标应严格履行。

(2)对于给用户所做的书面或口头承诺,包括提供的资源、提供的方案、应给与的回复,都应在约定的时间内、按约定的要求予以提供或实现。

(3)向用户进行承诺后要认真执行相应的工作任务,确保服务承诺可以达成,重点是给用户的各种计划,应按计划安排予以执行,确需调整应提前向用户进行说明以调整计划。

(4)对用户做出的书面服务承诺必须达成,当预判对用户的承诺在既定的时间内可能无法达到时,应提前向用户解释,并提出补救措施,以尽量达到服务承诺的标准。

(5)及时向用户汇报各项服务承诺达成的情况,让用户了解我们对运维承诺的重视和执行力。

3.2.3 讲规范
没有规矩,不成方圆。运维工作尤其需要注重规范性,讲规范就是按照既定的工作流程、礼仪、制度、要求等开展工作,这会让用户感受到我们的运维服务是透明的,符合科学流程的。这项工作的价值还体现出服务的一致性,无论用户在何时向任何运维工程师提出运维服务要求,他们均享受品质一致的运维服务,获得良好的服务体验。

讲规范,具有以下好处:

(1)对于所有运维人员,能够按照统一的服务规范开展工作,使运维参与者均能形成优良的服务意识,以确保运维服务质量。

(2)清晰的工作流程能够使用户感受到运维服务的专业性、一贯性。

(3)有效的执行服务流程能够确保其中的每个角色职责清晰,进而提高运维效率。

(4)统一的服务礼仪能够体现运维工作者的良好形象,规范的文档编写能够体现运维人员的专业素养,这均有利于用户满意度的提升。

要做到讲规范,重点要做好以下工作:

(1)按照运维管理体系制定完备的运维工作流程,按照流程的角色定义,明确各角色在流程中的职责。

(2)通过培训让全体运维人员熟悉并掌握运维工作规范的要求,通过沟通让用户充分理解运维工作流程的执行效果对用户的重要性。

(3)运维服务者通过日常工作认真落实各项运维工作流程与规范,借助运维服务管理平台记录工作执行的过程与结果。

(4)运维管理者通过定期汇总分析常见故障和突发事件量及事件完成质量,了解流程规范执行的落实效果,并在此效果基础上持续改进。

3.2.4 重控制
重控制是为了控制运维服务质量达到运维服务承诺的要求而开展的工作。主要涉及两个方面:一是确保运维服务目标按要求达成,二是有效控制运维服务过程中的系统风险。在运维过程中,若不注重控制,将很难保证运维服务结果达到约定的要求,而且,有可能发生一些影响较为恶劣的重大事故,比如业务中断、数据丢失等。因此,在运维过程中注重控制,将有效规避风险,保障运维服务质量。

重控制包括关键流程节点控制、操作痕迹化管理、变更控制、发布控制、定期回顾并出具服务质量报告等。具体措施包括:

(1)按照运维服务的特点梳理运维服务流程的关键节点,将关键节点的日常运维工作文档化。

(2)运维过程要体现痕迹化管理,所有事件、变更、发布等环节的处理细节均应被完整记录下来,作为质量跟踪的依据。

(3)对于系统变更,均应受控于变更管理流程;所有变更均应充分评估风险,并在实施前经过严格测试,制定好回退机制,确保风险可控的情况下进行变更实施;若因故变更失败,亦能通过回退机制恢复服务。

(4)对于系统发布,均应受控于发布管理流程和变更管理流程;所有发布均应提前进行严格测试,制定好回退机制,确保风险可控的情况下进行发布实施。在应用部署发布前制定测试方案及运维保障实施方案。

(5)定期开展事件流程的回顾会议,对于存在的问题或风险进行分析并提出改进措施,并在下一个周期内改善服务质量、规避系统风险,以有效控制整体运维服务质量。

(6)内部严格按照“运维报告机制”进行内部报告和审核,以对相关情况纳入跟踪控制范畴,按照统一口径进行处理。

(7)在运维实施过程中定期(如每月或每个季度)进行流程执行过程与结果的检查与回顾,对于存在的问题或风险进行分析并提出改进措施,可在下一个周期内改善服务质量、规避系统风险,以有效控制整体运维服务质量。

3.2.5 有反馈
与用户建立良好的沟通是做好运维服务的关键。有反馈主要指运维服务者向用户及时反馈信息。有反馈就是在做好运维服务的基础上,让用户及时了解我们的工作情况,适当的运维信息反馈给用户是必不可少的。用户作为运维服务的消费者也是最终受益者,如果对运维工作不了解或了解不透彻,从某种意义上说是用户的损失,也是运维服务者对运维服务质量不够重视的体现。

向用户进行必要的反馈,能达到以下目的。

(1)对于用户的关切点,包括系统运行状况、潜在风险情况、运维工作情况等,定期通过书面方式报告给用户,这充分尊重了用户的知情权,并且可让用户全面了解系统整体情况及运维情况,进而对运维产生信任感。

(2)对于重大事件的处理进展,定时向用户进行报告,有利于缓解用户的紧张和急躁情绪,避免运维工作陷入被动。

(3)对于用户提出的需求,按时予以反馈,能让用户感到自己的建议和意见获得足够的重视,从而建立良好的工作关系。

做好运维过程中的沟通反馈主要包括以下几方面。

(1)定期向用户出具运维工作情况报告(如周报、月报、年报),向用户展现系统运行情况、潜在风险分析、隐患发现情况、故障受理情况、其他各类服务情况及运维服务建议等。

(2)在处理重大事件过程中,按与用户约定的频次主动(如每半小时1次)向用户报告故障的排查情况、处理进展和预计恢复时长等。

(3)对于各项需要向用户进行反馈的信息,应事前制定“运维报告机制”,运维服务者都应该按照“运维报告机制”进行内部报告,并有各级管理人员审核,从而可以将相关情况纳入内部质量跟踪控制范畴。同时经过报告和审核的内容要按照报告机制及时向用户做出口头或书面等报告。

(4)对于用户提出的各类咨询或服务请求,应在处理过程中及时向用户报告处理进展或解决建议,积极主动和用户进行沟通交流。

3.2.6 重效率
一般来说系统一旦发生故障,用户往往希望能够在最短时间内解决,对运维效率提出了很高的要求,尽量减少对业务造成的时间或金钱上的损失。重效率是指在处理各类故障和咨询服务时,我们始终做到快速响应、迅速处理。这需要运维服务者能够做到及时响应需求、快速定位故障、安全排除故障。运维服务者如果能够满足将重效率和有反馈有效地加以运用,可获得用户的充分信赖。

(1)运维服务者均应树立“想用户之所想,急用户之所急“的观念,将用户对解决问题的迫切性放在首要位置。

(2)运维管理者应该按照科学化的理念测算各类故障级别的平均恢复时长,安排运维工程师对每一个级别的故障排除方案进行反复演练,一旦故障发生能够熟练地处理故障,快速解决问题,稳妥恢复业务。

(3)运维质量管理部门通过日常事件处理的服务恢复时长检查运维事件处理是否能够达到快速响应和处理的要求。

(4)建立IT服务管理体系,定期回顾事件处理效率在哪些方面存在改进的空间,定期发起持续改进。

3.2.7 能应急
对于用户而言,IT系统仅仅是帮助他们完成业务的工具,只有当用户使用的过程中出现故障,用户才会感到运维服务者的重要性。IT运维专家作为IT系统的保健医生,一方面要预见到系统的故障,另一方面也应该能够排除故障,这是成为一名IT运维专家的核心要求。对于系统突发的故障,尤其是影响程度高的故障,若能快速应急响应并迅速解决,就会在用户和我们之间建立充分的信任关系,若所有突发故障均能迅速解决,将使用户对我们产生信赖感,即在信任的基础上形成依赖。因此,整个运维服务团队的应急保障能力至关重要。

为了体现应急保障能力,可采取以下措施。

(1)建立应急预案,提前做好各类预判与准备,必要时定期对应急预案进行演练,包括:不同类型事件的应急保障团队、保障服务方式等,确保一旦突发故障真实发生能够有条不紊地按照预案进行应急响应和处理。

(2)配备一定的应急服务装备,如处理故障的必备工具、排除故障的必需备件、恢复系统的必备软件、3G无线网卡、精确检测仪器等,IT运维专家首先是能够依靠技术手段提升应急保障能力的专家。

(3)对于信息化系统中包含硬件设备的用户,我们应该建议用户储备必要的备品、备件和备机,一旦突发硬件故障且短时间内无法修复时,能够利用备品备件先行顶替故障设备,从而尽快恢复业务。

3.2.8 有保障
运维服务的效果体现为“有保障”,运维队伍给用户的感觉简单来说就是:召之即来,来之能战,战之能胜,从而让用户对系统放心、对运维放心。如果运维工作是有保障的,就能够消除用户的后顾之忧。

要做到有保障,可采取以下措施。

(1)通过网络互动服务、电话服务热线,现场服务等多种运维服务途径让用户随时随地有问题都能够找到我们。

(2)如果IT系统较大或较复杂,运维服务商内部建立起一线、二线、三线的运维梯队,二线对一线进行支持,三线对二线进行支持;系统开发商、设备供应商都属于我们的三线支持,必要时能够给予二线足够的支持与保障,确保整个运维工作是有保障的。如果IT系统较小或较简单,运维服务商不一定需要建立完备的一线、二线、三线队伍,但需要在岗位职责中包含相应的职责,从而确保运维工作流程是闭环的。

(3)运维服务商内部有完善的软硬件支撑环境,包括:IT服务管理平台、电话呼叫系统、网上培训平台、全套运维模拟环境、运维协同办公系统等。

(4)在重要时期,比如业务高峰期或重点节假日期间制定重点保障预案,严格按照保障预案执行,并在结束时向用户提交重点保障完成情况报告。

要做好IT运维就要理解这八项原则的要义,如果把IT行业比作江湖,那么知道IT运维需要做什么就是了解江湖的第一课。遵循IT运维服务的原则就好比一门高深的武功,练好武功首先要练好内功,这八项原则就是练好内功的秘籍,练到炉火纯青的时候,不但拳脚不能伤其毫发,就用刀劈剑刺亦难伤其毫发。

相关文章
|
26天前
|
机器学习/深度学习 人工智能 运维
企业内训|LLM大模型在服务器和IT网络运维中的应用-某日企IT运维部门
本课程是为某在华日资企业集团的IT运维部门专门定制开发的企业培训课程,本课程旨在深入探讨大型语言模型(LLM)在服务器及IT网络运维中的应用,结合当前技术趋势与行业需求,帮助学员掌握LLM如何为运维工作赋能。通过系统的理论讲解与实践操作,学员将了解LLM的基本知识、模型架构及其在实际运维场景中的应用,如日志分析、故障诊断、网络安全与性能优化等。
56 2
|
1月前
|
运维 Linux Apache
,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具
【10月更文挑战第7天】随着云计算和容器化技术的发展,自动化运维成为现代IT基础设施的关键部分。Puppet是一款强大的自动化运维工具,通过定义资源状态和关系,确保系统始终处于期望配置状态。本文介绍Puppet的基本概念、安装配置及使用示例,帮助读者快速掌握Puppet,实现高效自动化运维。
52 4
|
1月前
|
运维 Kubernetes 监控
提升运维效率:容器化技术在现代IT基础设施中的应用
本文将探讨容器化技术如何优化企业的IT基础设施,提高部署效率和资源利用率。我们将深入分析容器技术的优势、实现步骤以及在实际运维中的应用场景。通过实例展示,帮助读者更好地理解并应用这一前沿技术,助力企业实现高效运维。
|
9天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维在现代IT基础设施中的应用与价值####
本文探讨了智能化运维(AIOps)在现代IT基础设施管理中的实际应用、面临的挑战及其带来的深远影响。通过引入先进的算法和机器学习模型,智能化运维不仅提高了故障检测与响应的速度,还显著优化了资源配置,降低了运营成本,为企业数字化转型提供了强有力的技术支撑。 ####
|
20天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI驱动下的IT运维革命###
本文探讨了人工智能(AI)技术在IT运维领域的创新应用,强调其在提升效率、预防故障及优化资源配置中的关键作用,揭示了智能运维的新趋势。 ###
|
16天前
|
机器学习/深度学习 人工智能 运维
智能化运维:提升IT服务效率的新引擎###
本文深入浅出地探讨了智能化运维(AIOps)如何革新传统IT运维模式,通过大数据、机器学习与自动化技术,实现故障预警、快速定位与处理,从而显著提升IT服务的稳定性和效率。不同于传统运维依赖人工响应,AIOps强调预测性维护与自动化流程,为企业数字化转型提供强有力的支撑。 ###
|
30天前
|
人工智能 运维 监控
智能化运维:AI在IT运维中的挑战与机遇###
本文探讨了人工智能(AI)技术在IT运维领域的应用,重点分析了AI如何提升运维效率、减少故障恢复时间,并预测未来发展趋势。通过具体案例展示了AI在实际运维中的应用效果,同时指出当前面临的挑战和解决方案,为读者提供一个全面了解智能化运维的视角。 ###
|
29天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:AI在IT运维中的应用探索###
随着信息技术的飞速发展,传统的IT运维模式正面临着前所未有的挑战。本文旨在探讨人工智能(AI)技术如何赋能IT运维,通过智能化手段提升运维效率、降低故障率,并为企业带来更加稳定高效的服务体验。我们将从AI运维的概念入手,深入分析其在故障预测、异常检测、自动化处理等方面的应用实践,以及面临的挑战与未来发展趋势。 ###
|
9天前
|
机器学习/深度学习 运维 监控
智能运维在现代IT架构中的转型之路####
【10月更文挑战第29天】 本文旨在探讨智能运维(AIOps)如何成为现代IT架构不可或缺的一部分,通过分析其核心价值、关键技术及实践案例,揭示AIOps在提升系统稳定性、优化资源配置及加速故障响应中的关键作用。不同于传统运维模式的被动响应,智能运维强调预测性维护与自动化处理,为企业数字化转型提供强有力的技术支撑。 ####
37 0
|
1月前
|
运维 Prometheus 监控
运维中的自动化实践每月一次的系统维护曾经是许多企业的噩梦。不仅因为停机时间长,更因为手动操作容易出错。然而,随着自动化工具的引入,这一切正在悄然改变。本文将探讨自动化在IT运维中的重要性及其具体应用。
在当今信息技术飞速发展的时代,企业对系统的稳定性和效率要求越来越高。传统的手动运维方式已经无法满足现代企业的需求。自动化技术的引入不仅提高了运维效率,还显著降低了出错风险。本文通过几个实际案例,展示了自动化在IT运维中的具体应用,包括自动化部署、监控告警和故障排除等方面,旨在为读者提供一些实用的参考。