《IT运维之道》——3.2 IT运维服务的原则

简介:

本节书摘来自异步社区《IT运维之道》一书中的第3章,第3.2节,作者: 李鹏 更多章节内容可以访问云栖社区“异步社区”公众号查看。

3.2 IT运维服务的原则

前面大家了解了IT运维服务的主要工作内容,作为我们IT运维服务者如何做好这份工作呢?运维服务工作看似简单,不少人认为就是修修电脑、调调软件等,自比物业,不善总结,结果一年忙到头,既不被用户认可也不被老板重视,面对困惑我们多少会问下自己,自己是做得多好呢还是做得少好,是忙点好呢还是闲点好,我们这里要回答:“不!是做到点上才好,怎样才能做到点上呢?”

首先是要用心,用心做事才能成功,当然这里面确实有技巧,我们首先要知道IT运维服务的总体原则:事先讲计划、重承诺,事中讲规范、重控制、有反馈,事后重效率、能应急、有保障。这几个方面是相辅相成的,有了计划才能按照计划与承诺去开展相关工作,在这个过程中要体现出规范性,并有效控制各种风险,对于服务过程与结果应向用户进行报告和反馈;同时,整个运维工作应体现出积极的效果,包括运维效率、应急与保障能力等。只有这样,运维工作才能满足用户的需求,并达到预期的效果,实现用户放心、舒心、开心的目标。

3.2.1 讲计划
《草船借箭》是我国三国时期的一个故事。周瑜 为陷害诸葛亮 ,要诸葛亮在十天之内造好十万支箭。诸葛亮算定了大雾之日,便借子敬二十只草船驶往曹营,曹操因疑雾中有埋伏,便令以乱箭射之。待至日高雾散,孔明令收船急回,船轻水急,曹操追之不得,使孔明既安全借得箭,又挫败了周瑜的暗算,表现了诸葛亮有胆有识,才智过人。《草船借箭》中诸葛亮的胆识才智受到后人的赞美,不过我以为诸葛孔明最令人叫绝的是他的这次策划,因为有这次天衣无缝的策划,所以胸有成竹,轻轻松松,成绩显著。而策划用在运维上就是计划。

所以,想在运维过程中轻轻松松,又能做到点上,就要重视事先的计划,计划来源于和客户达成的承诺或领导的命令,在整个运维过程中,计划是整个工作流程的核心,年度计划(依据服务承诺制定)又是计划中的龙头,按照计划先行的原则,依据本年度工作计划制定分项工作计划(如巡检计划、监控计划、培训计划等)和时间维度计划(季度工作计划、月度工作计划等),并遵流程、按计划进行实施和保障。所以,工作计划是真正运维具体工作的龙头,它是围绕实现服务承诺而制定的,各分项工作计划(如巡检计划、监控计划、培训计划等)和时间维度计划(季度工作计划、月度工作计划等),都应以确保实现服务承诺为前提。其中,现场巡检计划是运维工作计划的核心,因为现场巡检工作具有重要的作用和意义,通过现场巡检能够发现系统薄弱环节、关键业务节点、存在的隐患,尤其是对制定应急预案及备品备件计划至关重要。当然,写得再完美的方案如果不做就等于纸上谈兵、水中之月,所以,计划执行应是重点,企业的成功很多时候是赢在执行,运维体系能否严格按照工作计划执行是运维服务效果能否达标的关键因素之一。当然,如果计划发生变化,那么如何执行也应进行相应更新和变动,以适应工作计划需要。在运维执行过程中,应严格按照流程规范开展运维,并注重控制以降低运维风险。针对运维执行情况,应定期向用户进行反馈。不过计划的粗细、时间跨度要依据项目和公司情况而定。

最后,要将工作计划的执行效果及运维结果与服务承诺进行对比,对比的结果应作为改进工作计划的输入,确保对用户的承诺能够达成。在此过程中,运维人员将根据工作需要定期或不定期将运维工作情况向用户进行反馈与汇报,让用户全面了解整个系统运行情况及运维工作情况。因此,总结起来可以说,运维工作执行来源于计划,受控于流程,输出于反馈,更新于实践。
**
3.2.2 重承诺**
获得用户的信任是长期、稳定、深入开展运维工作的基础和前提,而要获得用户的信任,很重要的一点就是讲求信用,即重承诺。重承诺是IT运维服务商向用户提出具体的运维服务承诺,并认真做好运维工作,确保各项运维指标达到标准,从而获得用户的信任,让用户放心。用户对运维工作的信任需要长期、耐心、深入地开展工作。

对于用户的任何承诺,都应严格予以履行,确因特殊原因导致无法履行时,应提前和用户进行说明和解释,并获得对方的谅解。简单来说,对于用户不要轻易许诺,而一旦许诺,就要做到。具体体现在以下方面:

(1)事先和用户约定服务级别协议(Service Level Agreement,SLA),对于所承诺的服务级别目标应严格履行。

(2)对于给用户所做的书面或口头承诺,包括提供的资源、提供的方案、应给与的回复,都应在约定的时间内、按约定的要求予以提供或实现。

(3)向用户进行承诺后要认真执行相应的工作任务,确保服务承诺可以达成,重点是给用户的各种计划,应按计划安排予以执行,确需调整应提前向用户进行说明以调整计划。

(4)对用户做出的书面服务承诺必须达成,当预判对用户的承诺在既定的时间内可能无法达到时,应提前向用户解释,并提出补救措施,以尽量达到服务承诺的标准。

(5)及时向用户汇报各项服务承诺达成的情况,让用户了解我们对运维承诺的重视和执行力。

3.2.3 讲规范
没有规矩,不成方圆。运维工作尤其需要注重规范性,讲规范就是按照既定的工作流程、礼仪、制度、要求等开展工作,这会让用户感受到我们的运维服务是透明的,符合科学流程的。这项工作的价值还体现出服务的一致性,无论用户在何时向任何运维工程师提出运维服务要求,他们均享受品质一致的运维服务,获得良好的服务体验。

讲规范,具有以下好处:

(1)对于所有运维人员,能够按照统一的服务规范开展工作,使运维参与者均能形成优良的服务意识,以确保运维服务质量。

(2)清晰的工作流程能够使用户感受到运维服务的专业性、一贯性。

(3)有效的执行服务流程能够确保其中的每个角色职责清晰,进而提高运维效率。

(4)统一的服务礼仪能够体现运维工作者的良好形象,规范的文档编写能够体现运维人员的专业素养,这均有利于用户满意度的提升。

要做到讲规范,重点要做好以下工作:

(1)按照运维管理体系制定完备的运维工作流程,按照流程的角色定义,明确各角色在流程中的职责。

(2)通过培训让全体运维人员熟悉并掌握运维工作规范的要求,通过沟通让用户充分理解运维工作流程的执行效果对用户的重要性。

(3)运维服务者通过日常工作认真落实各项运维工作流程与规范,借助运维服务管理平台记录工作执行的过程与结果。

(4)运维管理者通过定期汇总分析常见故障和突发事件量及事件完成质量,了解流程规范执行的落实效果,并在此效果基础上持续改进。

3.2.4 重控制
重控制是为了控制运维服务质量达到运维服务承诺的要求而开展的工作。主要涉及两个方面:一是确保运维服务目标按要求达成,二是有效控制运维服务过程中的系统风险。在运维过程中,若不注重控制,将很难保证运维服务结果达到约定的要求,而且,有可能发生一些影响较为恶劣的重大事故,比如业务中断、数据丢失等。因此,在运维过程中注重控制,将有效规避风险,保障运维服务质量。

重控制包括关键流程节点控制、操作痕迹化管理、变更控制、发布控制、定期回顾并出具服务质量报告等。具体措施包括:

(1)按照运维服务的特点梳理运维服务流程的关键节点,将关键节点的日常运维工作文档化。

(2)运维过程要体现痕迹化管理,所有事件、变更、发布等环节的处理细节均应被完整记录下来,作为质量跟踪的依据。

(3)对于系统变更,均应受控于变更管理流程;所有变更均应充分评估风险,并在实施前经过严格测试,制定好回退机制,确保风险可控的情况下进行变更实施;若因故变更失败,亦能通过回退机制恢复服务。

(4)对于系统发布,均应受控于发布管理流程和变更管理流程;所有发布均应提前进行严格测试,制定好回退机制,确保风险可控的情况下进行发布实施。在应用部署发布前制定测试方案及运维保障实施方案。

(5)定期开展事件流程的回顾会议,对于存在的问题或风险进行分析并提出改进措施,并在下一个周期内改善服务质量、规避系统风险,以有效控制整体运维服务质量。

(6)内部严格按照“运维报告机制”进行内部报告和审核,以对相关情况纳入跟踪控制范畴,按照统一口径进行处理。

(7)在运维实施过程中定期(如每月或每个季度)进行流程执行过程与结果的检查与回顾,对于存在的问题或风险进行分析并提出改进措施,可在下一个周期内改善服务质量、规避系统风险,以有效控制整体运维服务质量。

3.2.5 有反馈
与用户建立良好的沟通是做好运维服务的关键。有反馈主要指运维服务者向用户及时反馈信息。有反馈就是在做好运维服务的基础上,让用户及时了解我们的工作情况,适当的运维信息反馈给用户是必不可少的。用户作为运维服务的消费者也是最终受益者,如果对运维工作不了解或了解不透彻,从某种意义上说是用户的损失,也是运维服务者对运维服务质量不够重视的体现。

向用户进行必要的反馈,能达到以下目的。

(1)对于用户的关切点,包括系统运行状况、潜在风险情况、运维工作情况等,定期通过书面方式报告给用户,这充分尊重了用户的知情权,并且可让用户全面了解系统整体情况及运维情况,进而对运维产生信任感。

(2)对于重大事件的处理进展,定时向用户进行报告,有利于缓解用户的紧张和急躁情绪,避免运维工作陷入被动。

(3)对于用户提出的需求,按时予以反馈,能让用户感到自己的建议和意见获得足够的重视,从而建立良好的工作关系。

做好运维过程中的沟通反馈主要包括以下几方面。

(1)定期向用户出具运维工作情况报告(如周报、月报、年报),向用户展现系统运行情况、潜在风险分析、隐患发现情况、故障受理情况、其他各类服务情况及运维服务建议等。

(2)在处理重大事件过程中,按与用户约定的频次主动(如每半小时1次)向用户报告故障的排查情况、处理进展和预计恢复时长等。

(3)对于各项需要向用户进行反馈的信息,应事前制定“运维报告机制”,运维服务者都应该按照“运维报告机制”进行内部报告,并有各级管理人员审核,从而可以将相关情况纳入内部质量跟踪控制范畴。同时经过报告和审核的内容要按照报告机制及时向用户做出口头或书面等报告。

(4)对于用户提出的各类咨询或服务请求,应在处理过程中及时向用户报告处理进展或解决建议,积极主动和用户进行沟通交流。

3.2.6 重效率
一般来说系统一旦发生故障,用户往往希望能够在最短时间内解决,对运维效率提出了很高的要求,尽量减少对业务造成的时间或金钱上的损失。重效率是指在处理各类故障和咨询服务时,我们始终做到快速响应、迅速处理。这需要运维服务者能够做到及时响应需求、快速定位故障、安全排除故障。运维服务者如果能够满足将重效率和有反馈有效地加以运用,可获得用户的充分信赖。

(1)运维服务者均应树立“想用户之所想,急用户之所急“的观念,将用户对解决问题的迫切性放在首要位置。

(2)运维管理者应该按照科学化的理念测算各类故障级别的平均恢复时长,安排运维工程师对每一个级别的故障排除方案进行反复演练,一旦故障发生能够熟练地处理故障,快速解决问题,稳妥恢复业务。

(3)运维质量管理部门通过日常事件处理的服务恢复时长检查运维事件处理是否能够达到快速响应和处理的要求。

(4)建立IT服务管理体系,定期回顾事件处理效率在哪些方面存在改进的空间,定期发起持续改进。

3.2.7 能应急
对于用户而言,IT系统仅仅是帮助他们完成业务的工具,只有当用户使用的过程中出现故障,用户才会感到运维服务者的重要性。IT运维专家作为IT系统的保健医生,一方面要预见到系统的故障,另一方面也应该能够排除故障,这是成为一名IT运维专家的核心要求。对于系统突发的故障,尤其是影响程度高的故障,若能快速应急响应并迅速解决,就会在用户和我们之间建立充分的信任关系,若所有突发故障均能迅速解决,将使用户对我们产生信赖感,即在信任的基础上形成依赖。因此,整个运维服务团队的应急保障能力至关重要。

为了体现应急保障能力,可采取以下措施。

(1)建立应急预案,提前做好各类预判与准备,必要时定期对应急预案进行演练,包括:不同类型事件的应急保障团队、保障服务方式等,确保一旦突发故障真实发生能够有条不紊地按照预案进行应急响应和处理。

(2)配备一定的应急服务装备,如处理故障的必备工具、排除故障的必需备件、恢复系统的必备软件、3G无线网卡、精确检测仪器等,IT运维专家首先是能够依靠技术手段提升应急保障能力的专家。

(3)对于信息化系统中包含硬件设备的用户,我们应该建议用户储备必要的备品、备件和备机,一旦突发硬件故障且短时间内无法修复时,能够利用备品备件先行顶替故障设备,从而尽快恢复业务。

3.2.8 有保障
运维服务的效果体现为“有保障”,运维队伍给用户的感觉简单来说就是:召之即来,来之能战,战之能胜,从而让用户对系统放心、对运维放心。如果运维工作是有保障的,就能够消除用户的后顾之忧。

要做到有保障,可采取以下措施。

(1)通过网络互动服务、电话服务热线,现场服务等多种运维服务途径让用户随时随地有问题都能够找到我们。

(2)如果IT系统较大或较复杂,运维服务商内部建立起一线、二线、三线的运维梯队,二线对一线进行支持,三线对二线进行支持;系统开发商、设备供应商都属于我们的三线支持,必要时能够给予二线足够的支持与保障,确保整个运维工作是有保障的。如果IT系统较小或较简单,运维服务商不一定需要建立完备的一线、二线、三线队伍,但需要在岗位职责中包含相应的职责,从而确保运维工作流程是闭环的。

(3)运维服务商内部有完善的软硬件支撑环境,包括:IT服务管理平台、电话呼叫系统、网上培训平台、全套运维模拟环境、运维协同办公系统等。

(4)在重要时期,比如业务高峰期或重点节假日期间制定重点保障预案,严格按照保障预案执行,并在结束时向用户提交重点保障完成情况报告。

要做好IT运维就要理解这八项原则的要义,如果把IT行业比作江湖,那么知道IT运维需要做什么就是了解江湖的第一课。遵循IT运维服务的原则就好比一门高深的武功,练好武功首先要练好内功,这八项原则就是练好内功的秘籍,练到炉火纯青的时候,不但拳脚不能伤其毫发,就用刀劈剑刺亦难伤其毫发。

相关文章
|
3天前
|
机器学习/深度学习 运维 监控
智能运维:未来IT管理的革新之路
在数字化浪潮汹涌的今天,智能运维成为企业提升竞争力的关键。本文将深入浅出地探索智能运维的核心概念、技术应用以及它如何重塑IT管理的未来。通过具体案例,我们将一窥智能运维如何实现故障预测、自动化处理和持续优化,最终引领企业走向高效、稳定、创新的未来。
11 2
|
6天前
|
机器学习/深度学习 人工智能 运维
智能化运维:未来IT管理的革命之路
在数字化浪潮的推动下,企业对IT系统的稳定性和效率要求日益增高。传统的运维模式已难以满足现代业务的需求,智能化运维应运而生。本文将探讨智能化运维的概念、优势以及实施策略,旨在为企业提供一条提升IT管理效能的清晰路径。
32 3
|
6天前
|
运维 负载均衡 监控
运维之光:打造高效、稳定的IT环境
在数字化浪潮中,企业对IT系统的依赖日益加深。本文将深入探讨如何通过高效的运维管理,构建一个稳定可靠的IT环境,确保业务连续性和数据安全。我们将从基础架构的优化、自动化工具的应用、团队协作与沟通的重要性,到持续学习与创新的必要性等方面进行详细阐述。无论你是初入运维领域的新手,还是希望提升现有系统性能的资深专家,这篇文章都将为你提供宝贵的见解和实用的策略。
20 1
|
9天前
|
机器学习/深度学习 人工智能 运维
智能化运维:AI技术在IT管理中的创新应用
本文将探讨如何运用人工智能技术优化IT运维流程,提升效率并减少人为错误。我们将从智能监控、自动化响应到预测性维护等方面,分析AI在现代IT运维中的角色和价值。文章旨在为读者提供一种全新的视角,理解AI技术如何成为IT部门的强大盟友,并指出实施这些技术时可能遇到的挑战及应对策略。
|
15天前
|
机器学习/深度学习 缓存 运维
智能化运维:机器学习在IT管理中的革命性应用
【8月更文挑战第28天】 随着技术的飞速发展,传统的IT运维方式已不能满足现代企业的需求。智能化运维,通过整合机器学习技术,正在重塑我们对IT基础设施的管理方法。本文将探讨智能化运维的概念、实施步骤及其带来的变革,同时分享一些成功案例,以期为读者提供一种全新的视角和思考路径。
42 6
|
17天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维的崛起:AI在IT管理中的应用与挑战
【8月更文挑战第26天】 随着科技的不断进步,人工智能(AI)正逐步渗透到我们的工作和生活中。在IT运维领域,AI技术的引入不仅极大地提高了效率和准确性,还为传统的运维模式带来了颠覆性的变革。本文将探讨AI在IT运维中的应用实例、面临的挑战以及未来的发展方向,旨在为读者提供对智能化运维趋势的深入理解。
|
29天前
|
机器学习/深度学习 数据采集 人工智能
智能运维:AI在IT管理中的应用与挑战
当AI遇上IT运维,一场智能化的革命悄然开启。本文将带你一探究竟,看看AI如何改变着IT运维的面貌,提升效率的同时带来哪些前所未有的挑战。从自动化故障检测到预测性维护,再到安全防护的升级,我们将一步步揭开智能运维的神秘面纱。
42 4
|
28天前
|
机器学习/深度学习 数据采集 人工智能
智能化运维:未来IT管理的新趋势
在数字化浪潮的推动下,传统的IT运维模式已难以满足企业快速发展的需求。本文将探讨如何通过引入智能化技术,如人工智能、机器学习和自动化工具,来提升运维效率,保障系统稳定性,并预测未来运维的发展方向。
43 1
|
1月前
|
运维 监控 持续交付
"揭秘Puppet:自动化运维的超级英雄,一键驾驭复杂IT环境,让运维繁琐瞬间灰飞烟灭,引领未来运维新纪元!"
【8月更文挑战第9天】Puppet作为自动化运维的杰出代表,凭借其强大的配置管理和高度可定制性,助力IT运维实现自动化与智能化转型。通过定义资源模型与使用声明式语言描述系统状态,Puppet能自动调整系统至期望状态,实现标准化运维流程。其工作流程包括定义-应用-报告三步,支持从服务器配置到复杂网络、数据库管理等多种场景。示例代码展示了如何自动化部署Apache服务器,体现了Puppet在实际操作中的高效与便捷。随着技术演进与社区壮大,Puppet将持续推动运维领域的创新发展。
52 6
|
30天前
|
机器学习/深度学习 存储 人工智能
智能化运维:构建未来IT服务的蓝图
在数字化浪潮的推动下,运维领域正经历一场革命性的变革。本文将探讨如何通过引入人工智能、机器学习等技术,实现运维工作的智能化,从而提高服务质量和效率。我们将一起探索智能运维的核心要素,包括自动化、实时监控、预测性维护和持续改进策略,并讨论这些技术如何塑造未来的IT服务。