如何评估测试人员绩效

简介:

每一段时间, 就会有人开始讨论QA的performance要如何评量, 有些人会提出以下的index
  - 计算所找到的Bug个数
  - 在一段时间内所开立的测试个案
  - 所执行的测试个案个数
  - 自动化测试个案个数/ 所有测试个案个数
  - 测试涵盖度
  这些index的缺点, 是缺乏考虑整个环境或是项目的状况, 容易会忽略一些会影响的变量. 作者认为如果没有根据context就来衡量个人的绩效, 是一件愚蠢的事情.
  例如有些狡猾的测试人员, 可能会采取一些策略来达到你的index的标准, 但是却危害了整个团队的质量.举各例子来说: 如果manager说要评量engineer每周所找到的bug数, 并且订定每周的标准是10个bugs. 这时候会发生什么事, 每周engineers会想办法找到10个bugs, 但是对于多找的bugs, 有些engineers可能会考虑放到下周再提报出来, 这样才能确保下周他比较容易达到pass的criteria. 这代表bug report是无法反映实时的状况, 很能是慢一周. 所以你有可能会误解这时候状况不严重, 导致你会因为错误的数据而做出不当的决策.
  为什么会这样呢? 主要是因为有些短视的人, 想要用简单的方法, 去解决困难的问题. 可是这个人绩效问题, 真的是没有简单的公式就可以衡量出来的. 而且有些衡量是很主观的, 并且也外受到一些外在因素的影响, 像是所处的工作环境, 或是使用的工具, 或是你本身的个性, 或是老板是否善于鼓励员工...等等, 这些因素都会让相同的人, 产生不同的结果.
  另一个我常见的问题, 那是订定不切实际的目标. 像是"找出主要的bugs", 试问你如何界定他是主要的bug? 并且主要的bug是否代表就是重要的bug呢?
  Over-promise和under-deliver也是个严重的问题, 没有根据自己的能力来订出适当的目标. 另一个相关的就是, manager给所有人都是相同的pass criteria, 既然每个人的能力不同, 你就必须要给每个人设定不同的标准.
  作者建议测试人员试着要和你的经理, 去学习如何订定SMART的衡量标准. 因为每个人能力不同, 项目环境不同, 没有一体适用的标准. 此外也要记得align managers, product teams或是company的goal. (当然啊, 最后这点是比较争议的, 因为你的career path不一定和公司一样)

最新内容请见作者的GitHub页:http://qaseven.github.io/

相关文章
|
6月前
|
人工智能 自然语言处理 测试技术
UGMathBench:评估语言模型数学推理能力的动态基准测试数据集
近年来,人工智能蓬勃发展,自然语言模型(LLM)进展显著。语言模型被广泛应用于自动翻译、智能客服、甚至医疗、金融、天气等领域。而研究者们仍在不断努力,致力于提高语言模型的规模和性能。随着语言模型的蓬勃发展,评估一个语言模型的性能变得越来越重要。其中一个重要的评估指标,就是衡量语言模型的推理能力和解决数学问题的能力。
333 38
|
9月前
|
人工智能 自然语言处理 测试技术
AxBench:斯坦福大学推出评估语言模型控制方法的基准测试框架
AxBench 是由斯坦福大学推出,用于评估语言模型可解释性方法的基准测试框架,支持概念检测和模型转向任务,帮助研究者系统地比较不同控制技术的有效性。
239 5
AxBench:斯坦福大学推出评估语言模型控制方法的基准测试框架
|
11月前
|
数据采集 人工智能 自动驾驶
VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力
VSI-Bench是由李飞飞和谢赛宁团队推出的视觉空间智能基准测试集,旨在评估多模态大型语言模型(MLLMs)在空间认知和理解方面的能力。该基准测试集包含超过5000个问题-答案对,覆盖近290个真实室内场景视频,涉及多种环境,能够系统地测试和提高MLLMs在视觉空间智能方面的表现。
410 16
VSI-Bench:李飞飞谢赛宁团队推出视觉空间智能基准测试集,旨在评估多模态大语言模型在空间认知和理解方面的能力
|
测试技术 API 微服务
性能测试并发量评估新思考
性能测试并发量评估新思考
496 20
性能测试并发量评估新思考
|
12月前
|
机器学习/深度学习 人工智能 算法
BALROG:基准测试工具,用于评估 LLMs 和 VLMs 在复杂动态环境中的推理能力
BALROG 是一款用于评估大型语言模型(LLMs)和视觉语言模型(VLMs)在复杂动态环境中推理能力的基准测试工具。它通过一系列挑战性的游戏环境,如 NetHack,测试模型的规划、空间推理和探索能力。BALROG 提供了一个开放且细粒度的评估框架,推动了自主代理研究的进展。
346 3
BALROG:基准测试工具,用于评估 LLMs 和 VLMs 在复杂动态环境中的推理能力
|
存储 监控 网络协议
服务器压力测试是一种评估系统在极端条件下的表现和稳定性的技术
【10月更文挑战第11天】服务器压力测试是一种评估系统在极端条件下的表现和稳定性的技术
634 32
|
12月前
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法
在数据驱动时代,A/B 测试成为评估机器学习项目不同方案效果的重要方法。本文介绍 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,同时提供 Python 实现示例,强调其在确保项目性能和用户体验方面的关键作用。
406 6
|
PyTorch 算法框架/工具 计算机视觉
目标检测实战(二):YoloV4-Tiny训练、测试、评估完整步骤
本文介绍了使用YOLOv4-Tiny进行目标检测的完整流程,包括模型介绍、代码下载、数据集处理、网络训练、预测和评估。
811 2
目标检测实战(二):YoloV4-Tiny训练、测试、评估完整步骤
|
12月前
|
机器学习/深度学习 算法 UED
在数据驱动时代,A/B 测试成为评估机器学习项目效果的重要手段
在数据驱动时代,A/B 测试成为评估机器学习项目效果的重要手段。本文介绍了 A/B 测试的基本概念、步骤及其在模型评估、算法改进、特征选择和用户体验优化中的应用,强调了样本量、随机性和时间因素的重要性,并展示了 Python 在 A/B 测试中的具体应用实例。
295 1
|
人工智能 测试技术 PyTorch
AI计算机视觉笔记二十四:YOLOP 训练+测试+模型评估
本文介绍了通过正点原子的ATK-3568了解并实现YOLOP(You Only Look Once for Panoptic Driving Perception)的过程,包括训练、测试、转换为ONNX格式及在ONNX Runtime上的部署。YOLOP由华中科技大学团队于2021年发布,可在Jetson TX2上达到23FPS,实现了目标检测、可行驶区域分割和车道线检测的多任务学习。文章详细记录了环境搭建、训练数据准备、模型转换和测试等步骤,并解决了ONNX转换过程中的问题。