《 自动化测试最佳实践:来自全球的经典自动化测试案例解析》一一3.4 每月服务评审记分卡样例

本文涉及的产品
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
全局流量管理 GTM,标准版 1个月
简介: 本节书摘来自华章出版社《 自动化测试最佳实践:来自全球的经典自动化测试案例解析 》一 书中的第3章,第3. 4 节,作者:(英)Dorothy Graham Mark Fewster 著 ,更多章节内容可以访问云栖社区“华章计算机”公众号查看

3.4 每月服务评审记分卡样例
每个月都会对总体的服务质量(Quality of Service, QoS)进行一次评审,同时,根据上个月的结果进行有针对性的改进也是要进行评审的。这种评审有利于持续改进总体服务,并帮助改进TiP套件。这种每月的评审是由经理发起的,并且他每个月都参与其中,推动问答(Q&A)环节的进行。这也是他每个月深入实况网站并对其进行改进的一次机会。经理的支持和带动作用对任何一个类似这样的项目都是至关重要的,而我们从一开始就很幸运。图3-2所示是一个记分卡的例子。
image

图3-2 调整记分卡中的事故和调整情况
3.4.1 阅读记分卡
当你看到TiP记分卡时,提出的第一个最典型的问题就是:怎么阅读记分卡?这是一个很好的问题。
首先需要注意的是,图3-2中所示的记分卡只是每月进行评审的幻灯片中的某一页。首先将每月的数据放到一个很大的Excel数据表格中,然后高级管理层和其他团队将Excel中的每项数据放到一页幻灯片中进行评审。
图3-3显示了将记分卡按不同的区域进行分解后的情况。区域1提供了指向Excel表格中具体行的标记。因为幻灯片中空间有限,所以只显示了最近3个月的数据,但事实上,Excel电子表格包含的不仅仅只是这3个月的数据。在评审过程中,每个人都有这个Excel电子表格的一份副本,并通过在自己的笔记本电脑上进行评审来对幻灯片的内容进行更新。
区域2是细分(drill-down)后的区域的名字。在给出的例子中该区域的名称是“事故及调整情况”。
区域3是从Excel表格报表中拉出的数据。包括度量的名称以及最近3个月的数据。在图3-3所示的样例中,数据根据事故数量和服务组件,按月显示。当整个Exchange 云端服务的某个组件发生了一次故障,并需要人工干预来进行解决,则称为一次事故(incident)。通过最近3个月的数据,即便在已经达到每月目标的前提下,还可以帮助我们确认服务的发展趋势是好是坏。

image

图3-3 事故记分卡区域中的事故和调整
区域4是整个记分卡最重要的部分。在每个月评审之前还有一个预评审,是由负责改进该区域服务的工程师进行的。在遇到事故和调整的情况下,测试、开发和运营团队中的成员都会派代表参与预评审。他们分析数据,找出异常值和负面走向线。风险区域和关注区域分别用绿色和红色的圆点标记。在图3-2中,黑色的实心圆点代表红色,或者是PPT幻灯片中应关注的区域。有时候他们知道某一个度量的趋势走向不好的具体原因,但是更多的时候,他们只能进行猜测。此时就要依靠虚拟小组的成员来找出负面走向度量和异常值的根本原因。上述调查的结果就是图3-3中记分卡区域4的内容。通常,如果造成负面走向的根本原因是已知的,那么区域4中的内容就是一些总结性的建议补救方法。
【真知灼见】
对报表进行裁剪,使它仅提供你所需要的有用信息。
3.4.2 对事故和调整报表的处理
根据事故和调整记分卡,可以分析各个方面引起的事故。引起事故的原因包括SCOM服务器级别的监控器、TiP服务级别的监控器,以及与第三方监控一起运行的一些监控器,旨在保证我们与全球市场都有联系。影响我们减少用户方面bug的能力的两个主要因素是:一是监控过程中遗漏的真正问题的数量和严重性,另一个是等待时间(Time To Engage, TTE)。在整个行业和微软公司内部都有很多计算TTE的公式。对于Exchange来说,TTE是指从产品事故开始到找到合适的工程师(开发人员或测试人员)着手修复该故障所花费的时间(以分钟计算)。一般来说,不管是在业务时间还是之外,导致TTE很慢的最典型的原因是监控器遗漏。这两个度量紧密相关,并且是每个月关注的重点之一。它们中只要有一个出现问题,我们就要考虑需要更新哪个监控方案(SCOM、TiP,或第三方监控),有时候会给这3种监控方案都增加监控器。
TiP功能可用性记分卡用来提供粒子级别上服务可用性指标。可用性是通过以下公式来计算的:
可用性%= 每月总的时间(分钟)-故障停机时间(分钟)

                                       每月总的时间(分钟)

通过为每个特性运行TiP,我们可以发现非客户影响的小的服务中断的发生,如ActiveSync中断。子服务中这种短暂的中断可能并不会对客户产生影响,但是却代表了服务的风险和退化。间歇失效或者(挂起)队列,与服务提供一样,通常都是可以在这个记分卡上显示出来的,但是并不是在关注调整的那张记分卡上(见图3-4)。
image

图3-4 TiP 功能可用性记分卡
【真知灼见】
经常利用自动化测试生成的信息来监控服务的发展、寻求进一步提高、保持自动化优势的前景,这是非常重要的。

相关文章
|
11天前
|
设计模式 前端开发 JavaScript
自动化测试框架设计原则与最佳实践####
本文深入探讨了构建高效、可维护的自动化测试框架的核心原则与策略,旨在为软件测试工程师提供一套系统性的方法指南。通过分析常见误区,结合行业案例,阐述了如何根据项目特性定制自动化策略,优化测试流程,提升测试覆盖率与执行效率。 ####
37 6
|
1月前
|
数据采集 人工智能 安全
数据治理的实践与挑战:大型案例解析
在当今数字化时代,数据已成为企业运营和决策的核心资源。然而,随着数据量的爆炸性增长和数据来源的多样化,数据治理成为了企业面临的重要挑战之一。本文将通过几个大型案例,探讨数据治理的实践、成效以及面临的挑战。
数据治理的实践与挑战:大型案例解析
|
1月前
|
存储 缓存 算法
分布式锁服务深度解析:以Apache Flink的Checkpointing机制为例
【10月更文挑战第7天】在分布式系统中,多个进程或节点可能需要同时访问和操作共享资源。为了确保数据的一致性和系统的稳定性,我们需要一种机制来协调这些进程或节点的访问,避免并发冲突和竞态条件。分布式锁服务正是为此而生的一种解决方案。它通过在网络环境中实现锁机制,确保同一时间只有一个进程或节点能够访问和操作共享资源。
73 3
|
15天前
|
JSON Java 测试技术
SpringCloud2023实战之接口服务测试工具SpringBootTest
SpringBootTest同时集成了JUnit Jupiter、AssertJ、Hamcrest测试辅助库,使得更容易编写但愿测试代码。
49 3
|
18天前
|
存储 人工智能 自然语言处理
高效档案管理案例介绍:文档内容批量结构化解决方案解析
档案文件内容丰富多样,传统人工管理耗时低效。思通数科AI平台通过自动布局分析、段落与标题检测、表格结构识别、嵌套内容还原及元数据生成等功能,实现档案的高精度分块处理和结构化存储,大幅提升管理和检索效率。某历史档案馆通过该平台完成了500万页档案的数字化,信息检索效率提升60%。
|
28天前
|
Prometheus 监控 Cloud Native
实战经验:成功的DevOps实施案例解析
实战经验:成功的DevOps实施案例解析
41 6
|
24天前
|
域名解析 缓存 网络协议
浏览器中输入URL返回页面过程(超级详细)、DNS域名解析服务,TCP三次握手、四次挥手
浏览器中输入URL返回页面过程(超级详细)、DNS域名解析服务,TCP三次握手、四次挥手
|
25天前
|
安全 测试技术 数据安全/隐私保护
原生鸿蒙应用市场开发者服务的技术解析:从集成到应用发布的完整体验
原生鸿蒙应用市场开发者服务的技术解析:从集成到应用发布的完整体验
|
1月前
|
安全 Java
Java多线程通信新解:本文通过生产者-消费者模型案例,深入解析wait()、notify()、notifyAll()方法的实用技巧
【10月更文挑战第20天】Java多线程通信新解:本文通过生产者-消费者模型案例,深入解析wait()、notify()、notifyAll()方法的实用技巧,包括避免在循环外调用wait()、优先使用notifyAll()、确保线程安全及处理InterruptedException等,帮助读者更好地掌握这些方法的应用。
19 1
|
18天前
|
测试技术 持续交付
软件测试中的自动化测试策略与最佳实践
【10月更文挑战第31天】 在当今快速迭代的软件开发环境中,自动化测试成为确保软件质量和加速产品上市的关键。本文探讨了自动化测试的重要性、实施策略以及一些最佳实践。通过分析不同类型的自动化测试工具和框架,本文旨在为软件开发团队提供一套实用的指导方案,以提高测试效率和质量。

推荐镜像

更多
下一篇
无影云桌面