网上看到有人写了一篇文章,关于一个合格的运维工程师应该具体哪些素质,正好前段时间有位boss也问过我这个问题。
简单地写下自己的看法。。
1.良好的责任心
ops是直接面向生成环境的一线操作人员,任何一个不当的操作都有可能引起故障,要本着对用户负责的态度做好每一次变更。在出现故障时也要勇于承担责任而不是千方百计想着怎样掩盖自己的过失,犯错误不可怕,可怕的是犯了错误后不知反思,不去思考该如何避免。很多变更和故障处理都可能发生在凌晨或者节假日,这也要求ops能够快速地没有怨言地进行响应,微薄上看到一位ops同学正在“啪啪”,接了电话就提上裤子赶回公司处理故障去了。。
2.快速的学习能力和比较广泛的知识面
ops经常会接触各种样的新知识,也会在线上遇到一些诡异的事情,这就要求运维人员对各个领域的知识都有所了解。从服务器到网络设备,从网络到操作系统,到安全,到缓存,到应用程序,优秀的ops还会对各种开发语言有比较深入的了解(devops),对程序的开发,结构提一些重要意见。
3.快速的troubleshooting能力
这个是每个ops都应该具备的基本技能。。在遇到线上故障时,能够有清晰的排查思路和解决问题的思路是很重要的。。
4.自动化的理念
一个优秀的ops必定是一个“懒惰的”的ops,一件事情重复做3次以上就应该考虑自动化了,可以自己写工具,也可以使用开源的自动化管理工具。只有自动化的工作做好了,ops才能从枯燥繁琐的装机工作中解脱出来去做更有意义的事情上来,否则只会被别人看成一个只能装机的ops...
5.良好的心里素质,顶得住压力
由于ops提供的是一个基础架构的服务,是不会直接面向用户的,这就导致很多人其实是感受不到ops的存在,越是做得好的运维团队越是如此(服务很稳定,没有故障出现,ops不再担任救火员的角色)。做得好,没人会感觉得到,做得烂,后面一定一堆人在骂你,。。。筒子们,为了不被骂,还是尽量做好吧。。另外就是有了成绩,没你的事,出了问题,你来“背黑锅”,所以要时刻做好“背黑锅”的准备。。
6.胆大细心
不能因为一件特别有意义的工作有一定风险(比如说自动化)就不去推进,你要做的不是一层不变,而是在变更时做好checklist,做好回滚策略,尽最大可能减少变更带来的影响。
如果把运维的工作想成“无过便是功”就永远不会有太大的进步。
7.技术 geek
ops需要接触比较多的技术,要让自己处在一个不断探索,学习的状态,才会让自己有更大的进步。
8.良好的编码能力
shell就不用说了,3p里面怎么也得学一门吧?最好可以自己能实现一些开发需求(没有人比自己更清楚想要什么)
9.身体素质要好
这个比较扯淡,哈哈,不过ops经常需要熬夜,有时候还需要去机房抗抗服务器,身体不好怎么能行?
总得来说一句话,作为运维工程师,要抗得了服务器,调得了网络,装得了系统,排得了错,调得了性能,玩得了架构,写得了代码,背得了黑锅,耐得住寂寞。。
暂时想到这么多,后面想到了再补充,欢迎大家拍砖。。哈哈。
本文转自菜菜光 51CTO博客,原文链接:http://blog.51cto.com/caiguangguang/1331130,如需转载请自行联系原作者