运维之殇

简介: 运维理论上不应该那么依赖于人的技能。但是现实情况是,你必须要有好的运维,才能保证系统更加稳定。而对于一个初创企业,显然陷入了一个困难的处境。如何让一个普通的开发也能搞好的运维呢? 核心是一个 一站式的运维平台。
引子
早上醒了,百无聊赖,刷了下微博,一微博号发了如下一条信息:

今天就发生2起故障,连续受惊。国内外有没有运维天王写的什么书或者资料学习一下啊。我现在这个情况怎么提高了,搞来搞去也是小学生水平。叹息阿,现在估计要从大厂招一个天王级运维,没有80万是拿不下了


后有一资深专家总结的很精辟:
运维工作无非三大块,配管、监控、数据分析。@itnihao 的zabbix 的书、@守住每一天 puppet相关的,已经@argv 的ETL Stack相关的书。 我觉得@梁斌penny 都可以看看。像google的sre book啊,更早之前yahoo的webops book啊,层次虽然更高,落地还是要实在点。当然鸟哥私房菜肯定是基础

不过显然是从运维工程师的技能出发点来说的。而原博的诉求点显然是:
  1. 自己学习还是有难度的
  2. 请大厂运维现在又太贵了
  3. 我实在是好纠结,好难受。

让人推荐快速学习的方式,却也是极度无奈之举。而且运维也不是一日练成的。就算大师提供了很好的指导,也终究是拿自己的线上产品练手了,这样显然是得不偿失的。现如今,一个创业公司的产品不稳定,造成的问题是巨大的。比如摩拜单车最近就故障频仍,造成的不良影响其实是非常大的,但是因为整个市场发展是往前走的,倒不会因为一两次的故障而改变这种趋势。但是如果没有这些故障,想必会更好吧。


问题在哪里

运维理论上不应该那么依赖于人的技能。但是现实情况是,你必须要有好的运维,才能保证系统更加稳定。而对于一个初创企业,显然陷入了一个困难的处境。如何让一个普通的开发也能搞好的运维呢? 核心是一个 一站式的运维平台


按前面那位大神说的,运维无外乎三大块:
  1. 配管
  2. 监控
  3. 数据分析
我再加一个:
  1. 部署(包括扩容)
  2. 配管
  3. 监控
  4. 数据分析
应用的生命周期管理自然是包括在每一个大块里的。满足这四点的运维平台其实就是一个分布式操作系统。 Zabbix 你可以认为是特定的一个视窗软件,Puppet 可以认知为分布式shell。ELK则是基于这个分布式操作系统的一个分布式日志应用。ELK是高度灵活的,所以每个人玩法一样,但是做实施起来迥异。我所看到的是ELK的实施难度还是颇高的,ELK如果想做轻松了,其实还连带一系列要求的,比如日志的规整化。而且里面除了E以外的模块,都是在特定场景需要替换的。

然而似乎现在运维界缺乏这么一个分布式系统。导致普通开发无法像在windows操作系统一样,点击点击就可以管理起所有服务器以及各种应用了。


问题解决之道
工具化是王道。然而如何工具化是难点。方向不对,谬以千里。比如运维之前也做过大量的工作,做了各种工具,但是存在我之前在 运维=平台+数据

提到的问题:
  • 工具碎片化
  • 工具难以标准化
  • 工具不可复制
  • 生态积累难度大
分布式系统基本就可以解决这些问题了。分布式系统自己可以解决部署,配管,以及部分监控。数据分析则需要基于分布式系统之上的应用解决(基于该分布式系统调教出来的ELK套件)。这样,基本就完美解决了所有的问题。分布式系统提供了一个一致的交互界面-web。同时也暴露了底层的分布式shell引擎以及可供应用交互的系统层级API。

这块这两三年我们已经有了一定的实践。期望未来能够很快推出,造福大家。
目录
相关文章
|
运维 开发者 Windows
运维人必看!100+问答解决您的运维痛点!
运维人看过来!遇到运维难题没有思路,不知如何解决?开发者社区为大家准备了100+运维过程中的实际问题与解决办法,让运维不再成为难题!
1913 13
运维人必看!100+问答解决您的运维痛点!
|
运维 监控 安全
高效运维:运维自动化之殇
自动化运维到底需要做什么呢?我们做了这么长时间的运维自动化,还有什么是没做的呢?怎样更优雅的实施运维自动化?运维自动化是万能的么?有哪些潜在问题?高效运维社区发起人,开放运维联盟主席萧田国将为大家分享运维自动化的那些事。
6297 0
|
弹性计算 运维 监控
阿里云田涛涛:云上运维新思维
本篇内容分享了云上运维新思维,为大家阐述云上运维的新形态,以及阿里云弹性计算提供了哪些云上运维新能力。
阿里云田涛涛:云上运维新思维
|
机器学习/深度学习 人工智能 运维
运维更简单、更智能,让运维人不再 “拼命”
云原生智能运维解决方案,利用大数据为企业日常运维服务,通过可观测数据,融合智能告警与响应中枢,结合机器学习的方法进一步解决自动化运维所未解决的问题,让运维更简单、更智能。
3089 0
运维更简单、更智能,让运维人不再 “拼命”
互联网产品运维
可以通过学生身份在阿里云免费申请领取两周的服务器,我已经通过学生身份领取了两周的服务器,非常感谢阿里云平台和飞天计划。这个项目给我提供了一个可以学习的大平台,我非常激动。我认为这个飞天加速计划对于我这样的大学生帮助真是太大了,我觉得这是个良好的平台能够让我进行实践。
|
运维 Java 测试技术
在创业公司,不懂运维的程序员如何兼顾公司的运维工作
我是一名创业公司的Java开发工程师,公司没有运维团队,由程序员负责代运维。
5597 10