IT运维工作的思考-阿里云开发者社区

开发者社区> 开发与运维> 正文

IT运维工作的思考

简介: 运维工作经常处于救火状态,手忙脚乱,工作很辛苦,结果很骨感,有时还面临“灯下黑”的问题。究竟是什么原因呢,到底应当如何破局?

运维工作经常处于救火状态,手忙脚乱,工作很辛苦,结果很骨感,有时还面临“灯下黑”的问题。究竟是什么原因呢,到底应当如何破局?
我苦苦思索了几天,百思不得其解。突然,我感觉眼前一亮,顿时心中豁然开朗。技术运维应当作为一项业务开展工作,制度先行、流程清晰、平台支撑、人员得力。

制度,首先应当是文档化,最终是机控化。制度文档化不仅做到“有法可依”,还要实现“随手可得”。在制度编制上要做好分层,制度、办法、规程、手册,不同层级负责不同的事情。在制度的检索上,可以通过云文档系统,使制度查找更方便。今后应当进一步制度落地的机控化,让有形的制度融入到无形的控制之中。

流程,要线上化和实例化。线上化的流程支持可裁剪,并且把所有的流程场景实例化,大家只需要在规定的流程里选择使用哪个实例,无需再进行判断。
流程中每个环节的职责要精细化,通过事前的定责来明确每个环节的责任和权利,明确服务水平和响应时间,避免事中的扯皮。事后要加强管控和分析,进一步优化职责和流程。

平台,要实施方法服务化和平台功能集成化。实施方法要服务化,通过固化实施的方法来确保变更的质量。方法可以分为文档化、脚本化、菜单化、工具化(自动化)、平台化、智能化。我们要不断地将实施方法向更高阶迈进。

平台功能要集成化,一方面合理进行职责分工,把基础平台功能的实现和运维功能的实现可以区分开,充分发挥大家的专业性和积极性,同时,通过数据驱动来实现多项功能的集成整合,持之以恒地对系统平台进行优化改造,这样就可以化繁为简、提质增效。

人员,要专业化和综合化。要在上岗之前开展培训,开展持证上岗,上岗期间要进行考核,实现人员的专业化。与此同时,人员的能力也要向综合化、管理化发展,培养T型人才。

在具体工作实施上,我们应当如何积极谋划、力求破局呢?我认为可以从以下五个方面入手:

一、痛点切入,防患未然

所谓痛点,就是领导关心关注的事情、员工花费大量精力而成效微弱的工作。生产应急和晨会跟踪事件是中心领导最关注的事情。以生产应急为例,我们应当详细分析如何能够做到“早发现、早定位、早处置、早恢复、早验证”,在快速恢复生产的前提下,考虑如何保留现场、明确原因、确定后续处理措施、完善制度规范,防患于未然。同时,可以把这些问题做成运维生产案例库,定期进行学习、总结、回顾,前世不忘后世之师。

从晨会跟踪事件来看,应用版本的好坏成为制约生产运维质量的重要因素。我们应当关口前移,把好开发测试投产关。运维非功能规范在开发阶段就予以考虑,应用版本投产前必须进行全面的测试,投产流程必须在测试环境进行演练,投产时要考虑应急预案和支持人员。

扬汤止沸,不若釜底抽薪。只有持续改进,追本溯源,从源头上解决这些问题,我们才能有精力去精耕细作、精益求精,实现理想中的运维价值。

二、筑牢基础,化繁为简

我们应当把基础性工作抓实抓牢,把每个人负责的各项工作前后关系梳理清楚,同时关注跨系统、跨处室、跨部门的工作衔接,实现完整的端到端的工作流程,避免出现断链或者无人区。

与此同时,我们要把工作实施方法从文档化、脚本化、工具化向平台化升级,通过服务化来固定生效方法,就可以化繁为简、提质增效,减少对实施人员素质的依赖。

三、打破壁垒,加速赋能

目前,我们使用了很多运维管理工具或平台,例如流程平台ITSM、云管平台CMP、自动化平台、配置管理平台CMDB等,而目前这些平台系统之间的数据是割裂的,相互之间不能有效地集成,工作效率会打一些折扣。

我们需要在平台之间通过API的方式来实现服务调用,同时,我们应该把一些功能进行服务化改造,这样才能通过数据驱动来使不同的工具平台协同工作,提高工作效率和工作质量。

四、精益管理,合作共赢

我们应当在技术架构、管理策略、应用运维等方面开展精益管理,同时换位思考,与开发部门、业务部门实现合作共赢。

在技术架构上,无论是私有云还是公有云,都可以分为IaaS、PaaS、SaaS。每层应当向上赋能,当上层需要本层的资源时,可以轻松地供给,而不需要上层关心具体实现方式,当本层发生变更或故障时,通过冗余、双活、迁移、隔离等机制,减少对上层的影响,避免操作或故障的蔓延。

在管理策略上,我们应当不断完善各种管理措施,并逐渐实现线上管理和数据化管理。例如,我们的性能容量管理策略不仅要满足应用系统对容量的需求,同时还需要考虑性能的需求。

在应用运维上,我们应当力争权责平衡,同时与开发人员、业务部门合作共赢。权利和责任是一对矛盾,“没有权利的责任是地狱,没有责任的权利是魔鬼”。一方面,我们要合理地利用机制,对应用开发进行制约,实现权责的平衡,另一方面,运维团队应该换位思考,向前迈进一步,跨越应用开发与生产运维之间的职责间隙,合作共赢。

五、人员转型,砥砺前行

我们的工作目标是从运维转向运营,人员角色从运维工程师到运维架构师、运维开发工程师、运营服务团队,整个服务理念、知识结构、技能技巧都有很大的变化,组织架构、考核机制也要进行相应的调整。

任重而道远,又时不我待,唯有发挥“只争朝夕”的拼搏精神,充分调动广大员工的积极性,砥砺前行,才可实现运维价值最大化,完成人员转型。

版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。

分享:
开发与运维
使用钉钉扫一扫加入圈子
+ 订阅

集结各类场景实战经验,助你开发运维畅行无忧

其他文章