运维工作要点
1,一切行动听指挥
无论在部门还是小组,关于运维的操作得听从上级领导安排,需求请示以及汇报,不能根据个人主观意识进行判定,特别是有些自以为傲的行为,以自己的那点三脚猫功夫去对比上级领导的经验,简直是以卵击石,人家能成为领导肯定有好几把刷子的。团队中遇到这样的人需要及时制止,如果出问题的话不是只针对个人,轻则关乎运维部门在公司中的声誉以及整个部门的年度绩效拉低,重责引发一连串的系统负面效应影响业务连续性。
2,红线不能犯
红线是一道“生死线”、“高压线”,是万万不可触碰的,这也与前面说的一切行动听指挥差不多道理,主要体现在三个方面:
①所有变更要做到:凡是变更必须要有方案,凡是方案必须经过专家评审才可执行,凡是执行必须严格遵守方案,重大变更需要有人进行审核。
第一点主要是为了规避错误操作,错误操作就是人为故障。人为故障在所有故障中的占比一直是很高的,也是可以完全避免的。
②所有影响业务的故障,不管是硬件故障还是软件,或者人为故障,必须第一时间通过部门经理。
这一点主要是为了规避运维人员所产生的二次风险,为什么这么说呢,常常有些技术人员特别钻研技术,这是个好事也是个坏事,好事是能独立思考解决问题的方法,坏事是如果一些紧急情况下,技术人员解决不了的情况下继续钻牛角尖,会延误系统修复的最佳时间,严重影响生产环境,会带来二次风险。
③需要客户沟通的信息,必须提前被审核确认,例如成本信息、厂家信息,未经许可直接暴露给底层用户会产生非常严重的后果。
这一点主要是为了规避项目成本以及供应商被底层用户知道,对整体项目产生影响,知道价低的话底层用户心理不平衡,通过其他手段缩短预算。知道明确厂家也会通过询价得知整体成本等影响。
3,提前规划
特别是在距离节假日假期前,除了做好备份之外,最重要的是做好容量规划。最基本的表空间、文件系统空间、历史告警等等基本情况横扫一遍,起码要能安全等到你休假回来。
对于一些特别的系统,节假日可能正是高峰期,那就不仅仅是空间这点事了,还要做好性能预测和解决方案预案。以上情况节假日排班的另当别论了。
4,备份恢复经常做
生产过程中不仅仅是备份,恢复也是重点,谁能知道哪天会见鬼呢,备份成功之后恢复不了的情况可不是没发生过。
5,其他情况
做定期容灾演练、定期应急演练、定期数据库恢复测试、上线前做高可用切换测试等等......