SRE方法论之服务质量目标

简介: 为了量化客户对服务可靠性的期望,找到客户对可靠性满意的点,我们需要制定针对用户的服务质量目标,并且努力去达到这个质量目标。在这个过程中,我们需要定义一些服务质量指标(SLI)、服务质量目标(SLO),以及服务质量协议(SLA)。这三项分别是指该服务最重要的一些基础指标、这些指标的预期值,以及当指标不符合预期时的应对计划。

为了量化客户对服务可靠性的期望,找到客户对可靠性满意的点,我们需要制定针对用户的服务质量目标,并且努力去达到这个质量目标。在这个过程中,我们需要定义一些服务质量指标(SLI)、服务质量目标(SLO),以及服务质量协议(SLA)。这三项分别是指该服务最重要的一些基础指标、这些指标的预期值,以及当指标不符合预期时的应对计划。

一、服务质量术语:SLI、SLO、SLA

指标

服务质量指标(SLI):服务的某项服务质量的一个具体量化指标。常见的SLI包括请求延迟(处理请求所消耗的时)、错误率(请求处理失败的百分比)、系统吞吐量(每秒请求数量)、可用性(服务可用时间的百分比,运维行业经常用9的数量来描述可用程度。例如,99%可用性被称为“2个9”,99.999%被称为“5个9”)。SLI也可以是一些业务指标,例如用户投诉率之类的。重点是可量化、可确定的。

目标

SLO是服务质量目标(Objective):服务的某个SLI的目标值,或者目标范围。SLO的定义是SLI≤目标值,或者范围下限≤SLI≤范围上限。例如,对于搜索服务来说,用户希望返回结果的速度应该是很“快”的,那么我们可以定义一个SLO,要求搜索请求的平均延迟小于100ms。

协议

SLA是服务质量协议(Agreement):指服务与用户之间的一个明确的,或者不明确的协议,描述了在达到或者没有达到SLO之后的后果。这些后果可以是财务方面的退款或者罚款,也可以是其他类型的后果。区别SLO和SLA的一个简单方法是问“如果SLO没有达到时,有什么后果?”,如果没有定义明确的后果,那么我们是在讨论一个SLO,而不是SLA。

二、SLI、SLO、SLA制定原则

1、以用户体验为中心

服务的服务质量指标有很多,不可能将监控系统中的所有指标都定义为SLI。只有理解用户对系统的真实需求才能真正决定哪些指标是否有用。
比如对于搜索服务,用户通常关心可用性、延迟,以及吞吐量。换句话说:是否能正常处理请求?每个请求花费的时间是多少?多少请求可以被处理?对于存储系统来说,用户会关注延迟、可用性和数据持久性,换句话说:读写数据需要多少时间?我们是否可以随时访问数据?数据是否一段时间内还能被读取?

2、量力而行

资源是有限的,在选择SLO时要注意不能过于追求完美。例如1s内加载好用户就很满意了,如果非要设置20ms内加载完毕、或者成功率为100%,这些都是很难达到或者要付出很大的成本才行,投入产出比很低。

相关文章
|
7月前
|
存储 运维 监控
什么是 SRE?一文详解 SRE 运维体系
什么是 SRE?一文详解 SRE 运维体系
762 1
|
2天前
|
运维 监控 Cloud Native
如何设计与构建 FinOps 流程、团队、体系与目标
企业 FinOps 实施不是一蹴而就的项目,如果您正在推进企业云原生 FinOps 落地,除了选择合适的技术手段,企业内部的流程和体系建设也尤为重要。
162137 7
|
2天前
|
消息中间件 监控 前端开发
研发人员如何做好日常工作的稳定性保障
本文介绍了一些研发人员如何做好稳定性建设的工作事项
40 0
|
6月前
|
存储 运维 监控
SRE方法论之监控设计
监控系统的四个黄金指标是:延迟(Latency)、流量(Traffic)、错误(Errors)、饱和度(Saturation)
|
12月前
|
存储 测试技术
【业务架构】业务能力转型组织的前 5 个用例
【业务架构】业务能力转型组织的前 5 个用例
|
12月前
|
运维 测试技术
SRE方法论之拥抱风险
系统不可能100%可靠,人都不可能100%健康,更何况我们人类创造的系统?所以,任何软件系统都不应该一味地追求 100%可靠。事实证明,可靠性超过一定值后,再提高可靠性对于一项服务来说,结果可能会更差而不是更好
|
运维 安全 Devops
SRE是什么,与传统运维有什么不同?
SRE就是在用软件工程的思维和方法论,通过设计、构建自动化工具完成以前由运维工程师手动操作的任务
|
Devops
DevOps研发模式下「产品质量度量」方案实践
DevOps研发模式下「产品质量度量」方案实践
512 0
DevOps研发模式下「产品质量度量」方案实践
|
运维 监控 安全
IT运维管理中可能存在的关键问题
公司在信息化水平日益完善的同时,随之而来的是更多的应用系统、软硬件平台和设备等需要维护和管理。如何对结构复杂的IT系统进行有效的监控和管理,已经成为了企业信息化部门非常关注的一个问题。作为IT管理部门,经常被大量的IT故障和问题所困扰,“拆东墙补西墙”的尴尬场景也是常常上演。不论哪一家企业,只要它的员工和IT系统发展到一定的水平,就会不可避免地面临IT系统管理的一系列难题。
310 0
IT运维管理中可能存在的关键问题
|
运维 搜索推荐
企业IT运维的目的?
建设一个包含区域中心和各分支机构IT运营的平台,通过平台协助IT决策者分析IT问题,并深入了解IT基础架构支持业务流程的能力,以及IT服务管理在提供端到端IT服务过程中的作用,以协助他们更好地处理与服务提供方之间关系,实现商业利益。
257 0
企业IT运维的目的?