浅谈运维工作的要点

简介: 千里之行始于足下

运维工作要点

1,一切行动听指挥

     无论在部门还是小组,关于运维的操作得听从上级领导安排,需求请示以及汇报,不能根据个人主观意识进行判定,特别是有些自以为傲的行为,以自己的那点三脚猫功夫去对比上级领导的经验,简直是以卵击石,人家能成为领导肯定有好几把刷子的。团队中遇到这样的人需要及时制止,如果出问题的话不是只针对个人,轻则关乎运维部门在公司中的声誉以及整个部门的年度绩效拉低,重责引发一连串的系统负面效应影响业务连续性。

2,红线不能犯

红线是一道“生死线”、“高压线”,是万万不可触碰的,这也与前面说的一切行动听指挥差不多道理,主要体现在三个方面:

①所有变更要做到:凡是变更必须要有方案,凡是方案必须经过专家评审才可执行,凡是执行必须严格遵守方案,重大变更需要有人进行审核。

第一点主要是为了规避错误操作,错误操作就是人为故障。人为故障在所有故障中的占比一直是很高的,也是可以完全避免的。

②所有影响业务的故障,不管是硬件故障还是软件,或者人为故障,必须第一时间通过部门经理。

这一点主要是为了规避运维人员所产生的二次风险,为什么这么说呢,常常有些技术人员特别钻研技术,这是个好事也是个坏事,好事是能独立思考解决问题的方法,坏事是如果一些紧急情况下,技术人员解决不了的情况下继续钻牛角尖,会延误系统修复的最佳时间,严重影响生产环境,会带来二次风险。

③需要客户沟通的信息,必须提前被审核确认,例如成本信息、厂家信息,未经许可直接暴露给底层用户会产生非常严重的后果。

这一点主要是为了规避项目成本以及供应商被底层用户知道,对整体项目产生影响,知道价低的话底层用户心理不平衡,通过其他手段缩短预算。知道明确厂家也会通过询价得知整体成本等影响。

3,提前规划

      特别是在距离节假日假期前,除了做好备份之外,最重要的是做好容量规划。最基本的表空间、文件系统空间、历史告警等等基本情况横扫一遍,起码要能安全等到你休假回来。

对于一些特别的系统,节假日可能正是高峰期,那就不仅仅是空间这点事了,还要做好性能预测和解决方案预案。以上情况节假日排班的另当别论了。

4,备份恢复经常做

生产过程中不仅仅是备份,恢复也是重点,谁能知道哪天会见鬼呢,备份成功之后恢复不了的情况可不是没发生过。

5,其他情况

做定期容灾演练、定期应急演练、定期数据库恢复测试、上线前做高可用切换测试等等......



目录
相关文章
|
运维 监控 固态存储
OBCP第八章 OB运维、监控与异常处理-日常运维操作
OBCP第八章 OB运维、监控与异常处理-日常运维操作
192 0
|
3月前
|
运维 Prometheus 监控
运维中的自动化实践每月一次的系统维护曾经是许多企业的噩梦。不仅因为停机时间长,更因为手动操作容易出错。然而,随着自动化工具的引入,这一切正在悄然改变。本文将探讨自动化在IT运维中的重要性及其具体应用。
在当今信息技术飞速发展的时代,企业对系统的稳定性和效率要求越来越高。传统的手动运维方式已经无法满足现代企业的需求。自动化技术的引入不仅提高了运维效率,还显著降低了出错风险。本文通过几个实际案例,展示了自动化在IT运维中的具体应用,包括自动化部署、监控告警和故障排除等方面,旨在为读者提供一些实用的参考。
|
5月前
|
机器学习/深度学习 人工智能 运维
探索无代码运维:简化现代IT管理之道
【8月更文挑战第21天】在数字化浪潮的推动下,企业对于高效、灵活的IT管理需求日益增长。传统的运维方式因其复杂性和对专业技能的依赖而显得力不从心。本文将探讨“无代码运维”这一新兴概念,它如何通过简化流程、降低技术门槛来提升运维效率,并分析其在现代IT管理中的应用前景与挑战。我们将一同见证,随着技术的演进,运维工作如何逐步向自动化、智能化迈进,以及这一切对于IT专业人员的意义。
|
8月前
|
运维 监控 测试技术
运维过程中遇到的问题
在一个大型在线教育平台的迭代升级中,运维团队面临服务中断和数据库效率低下问题。为解决这些问题,他们采用蓝绿部署和金丝雀发布策略降低中断风险,增加自动化测试保证新版本质量,建立一键回滚机制确保服务连续性。针对数据库,他们优化SQL、实施读写分离和使用缓存提升查询效率,并考虑引入分布式数据库。未来,团队将持续深化DevOps实践,完善监控预警系统,跟进技术革新,以用户为中心优化运维决策,确保服务稳定高效。
100 3
|
运维
面试运维的具体流程
面试运维的具体流程
218 2
|
运维 数据可视化 数据挖掘
IT运维服务管理中的知识的重要性
通过知识的创建、共享、积累、分析,以及知识的快速检索与获取,利用知识创造价值,从而提高IT部门的能力和运维人员的个人能力
176 0
IT运维服务管理中的知识的重要性
|
运维 架构师 测试技术
IT运维工作的思考
运维工作经常处于救火状态,手忙脚乱,工作很辛苦,结果很骨感,有时还面临“灯下黑”的问题。究竟是什么原因呢,到底应当如何破局?
|
运维 前端开发 JavaScript