你赞同这五大运维体系划分吗

简介:

我写这个文章的动机,是因为很多人问我,“一个全局的运维体系应该是什么样的?”。这篇文章就给大家一个初步的回答。

1.价值体系(value)

我在任何场合都在强调运维价值/IT价值和用户价值之间的关系,在精益运维的分享中,我推导过,用户价值可以通过IT价值相互转换的。这种转换的能力,大家现在都可以直接感受得到,根本原因是IT形态发生的变化。之前IT中的“I”是information,这个IT作用传递通过很多线下的渠道去接触,这个信息系统是一个内部的管理系统,称之为MIS(管理信息系统)。现在IT中的“I”是Internet,是互联网,互联网本身就是客户渠道,已经把用户和内部的IT紧密的结合在一起了。

运维的价值是什么?质量、成本、效率、安全!这些价值观的理解和落地有多深有多远,就是你对用户价值的理解有多深又多远。

有些人说你一直在倡导面向用户的价值交付,好虚啊!说实话,开始我也觉得很虚,即使你的工作中参与了一些实际的价值创造,依然还是觉得很虚。比如我们做用户页面的体验优化,这个是产品经理技术化理解不了的,他们关注的是业务运营措施对用户指标的影响。其实技术同样是有影响的,老外又来数据证明了,比如网页打开速度。来自以下的统计数据:

  • 网页速度加载超过3秒,会损失超过57%的用户,57%的用户在3秒后还没有加载完,就会离开,除非原因是她的电脑问题或网速问题。
  • PV会减少11%,用户满意度降低16%,对话减少7%。
  • 亚马逊网站每延长1秒的加载时间,一年就会减少16亿美元的销售额。

在腾讯的工作经历,严格把网页打开速度作为和一个核心的业务质量考核指标,对应的直接是用户体验。

我倒是建议大家找一本客户关系管理的书,看看在客户关系管理的每一个阶段,如何把客户创造价值给提炼出来的,虚可以变成实!

用户价值内嵌IT价值!

2.技术体系(technology)

技术体系,这个是对应Dev技术架构的体系,是和研发建立一致性架构标准和服务化平台标准,在避免架构失控的同时,建立一致的架构可运维性。

这个地方的难点是很多企业缺少公共架构组,或者说有些企业有公共架构组,而他不负责实现和落地,空谈架构了。我提出的解决办法是:架构组要背上应用技术架构服务化的指标,无论是自上而下的PaaS平台化也好,还是自底向上的组件服务化也好。注意,我讲到的名词是应用技术架构服务化,这个是要求架构组把产生的技术架构能力一定要应用到业务技术架构中去,空谈架构是最容易的了。

那Dev技术架构体系和我运维有什么关系呢?他决定了你维护成本的大与小,维护质量的高与低,维护效率的快与慢!否则,你只盯着运维平台,认为都是平台的事情。

技术标准有了,业务的碎片便没有了!

3.平台体系(platform)

运维的平台体系,这个我在外面讲得很多了。我从平台的业务目标也论证过,他应该是什么样子的;我从平台的功能架构上也拆解过(到三级)讲过运维平台应该是长成什么样子的。

不过说实话,对于很多人来说,看到三级功能架构容易被淹没,很理解。所以我的建议重点,你就从cmdb+持续交付开始好了,另外在IaaS层在增加几个组件服务化,比如说DNS/F5/操作系统安装等等。总的平台抽象就是自动化体系和数据化体系。自动化体系以持续交付为核心,数据化体系以智能监控和运营分析为核心。

平台不是工具!

4.标准体系(standard)

运维的标准很重要,并且很难建立统一的一套标准来适应所有的企业,越往应用端靠近,越难统一,但可以抽象统一。

在越靠近运维侧的基础设施的标准制定上,运维完全可以自主控制,像硬件机型的标准化。但偏向应用的标准化上,需要有技术手段控制和效果呈现。技术手段的控制不仅仅是运维平台上,如应用的持续交付平台管理,还有技术体系中,如能力SDK化/组件服务化等等。技术手段的效果呈现,这个是偏向一种数据能力。我们都一直在讨论日志如何标准化的问题,其实是可以建立一些技术的标准的,把日志分成几大类,webserver日志/用户端日志/应用端日志/接口级日志等等。在定义日志标准的同时,提供sdk化的能力,最终把数据采集回来呈现的效果要平台中看到,在通过数据去驱动决策/驱动优化,如此便是闭环了。

那天在现场也有同学提问这个问题,关于标准执行难的问题,其实原因有两方面,一个方面是标准的制定有问题,可能有标准定的不对,或者是标准制定没有考虑业务需求;另外一个方面标准缺少有效的技术手段控制。

标准的层次决定了控制力!

5.过程体系(process)

我的过程体系不是流程体系,流程体系是其中的一部分,他还有规范和制度的要求,目标及其roadmap的设定等等。过程体系包括为了达到某种目标,我们设定的执行路径是什么。这个路径有两个部分,一部分是基于产品的执行路径;另外一个是不基于产品的执行路径。

在数据化运维里面,这个体现很明显。在和大家针对我们的EasyOps产品沟通过程中,我一直说我们的运营分析平台提供的产品,如果不加入运维制度和规范的要求,那就是一个无用功能。另外标准化的落地推广,如果是有平台来承载,他也需要一个过程。这就是我理解的基于产品的执行路径。

不基于产品的执行路径,大到你的运维目标设定和分解下来的roadmap,比如说运维平台体系的构建;小到你的运维流程,比如说事件流程、资源池管理流程等等。这个地方会沉淀一些制度和规范要求出来的,安全的规范/事件的规范/配置管理的规范/发布的规范/环境管理的规范等等。大家不要害怕规范,规范沉淀-》平台落地-》规范改进,这个是目的哈。

运维过程不是运维流程!





作者:老王
来源:51CTO
相关实践学习
日志服务之使用Nginx模式采集日志
本文介绍如何通过日志服务控制台创建Nginx模式的Logtail配置快速采集Nginx日志并进行多维度分析。
目录
相关文章
|
运维 资源调度 Kubernetes
阿里巴巴超大规模Kubernetes基础设施运维体系揭秘
在过去近三年时间,Kubernetes架构在阿里巴巴集团经历了飞速发展:既支持了集团统一调度超大规模场景,又支持了大批云上云产品用户,还在支持OXS区容器化。经过这些年的发展,我们也逐渐锤炼出了K8S Serverless全托管稳定性运维体系。这些运维和稳定性能力不是K8S原生就具备的,而是在大量实践和失败过程中的沉淀出来的系统稳定性加固能力。
|
运维
《从自动化到智能化的阿里运维体系》电子版地址
从自动化到智能化的阿里运维体系
92 1
《从自动化到智能化的阿里运维体系》电子版地址
|
运维
《美团云基础运维体系建设实践》电子版地址
美团云基础运维体系建设实践
209 0
《美团云基础运维体系建设实践》电子版地址
|
运维 监控 算法
如何建立高效告警体系提升日常运维效|学习笔记
快速学习如何建立高效告警体系提升日常运维效。
248 0
如何建立高效告警体系提升日常运维效|学习笔记
|
运维 监控 Cloud Native
GOPS 全球运维大会 | 阿里云网络自动化运维体系落地实践分享
GOPS 全球运维大会 | 阿里云网络自动化运维体系落地实践分享
GOPS 全球运维大会 | 阿里云网络自动化运维体系落地实践分享
|
运维
《云架构下的运维体系构建 -于龙水》电子版地址
云架构下的运维体系构建 -于龙水
91 0
《云架构下的运维体系构建 -于龙水》电子版地址
|
存储 运维 Kubernetes
阿里超大规模 Flink 集群运维体系介绍
以智能和云原生为技术内核,建设实时计算运维管控产品,来解决超大规模 Flink 集群运维和应用运维碰到的稳定、成本、效率三大难题。
阿里超大规模 Flink 集群运维体系介绍
|
存储 运维 Kubernetes
大搜车面向复杂业务场景的研发运维体系治理实践
通过统一研发流程、统一稳定性保障体系、统一云原生化,来解决复杂业务场景带来的语言异构、中间件升级、研发流程体系与稳定性保障体系不统一等技术挑战。
大搜车面向复杂业务场景的研发运维体系治理实践
|
运维 资源调度 Kubernetes
阿里巴巴超大规模 Kubernetes 基础设施运维体系揭秘
ASI 作为阿里集团、阿里云基础设施底座,为越来越多的云产品提供更多专业服务,托管底层 K8s 集群,屏蔽复杂的 K8s 门槛、透明几乎所有的基础设施复杂度,并用专业的产品技术能力兜底稳定性,让云产品只需要负责自己的业务,专业的平台分工做专业的事。
阿里巴巴超大规模 Kubernetes 基础设施运维体系揭秘
|
存储 弹性计算 运维
Soul运维总监尤首智:企业如何从0到1建设云上运维体系
提升运维效率,积极推进运维稳定性及平台化建设,持续探索云上能力,借助公共云的帮助实现soul的自有业务迭代。
Soul运维总监尤首智:企业如何从0到1建设云上运维体系