在这篇文章中,我们将学习10个最重要的模型性能度量,这些度量可用于评估分类模型的模型性能。
以下是我们将通过示例以相互关联的方式研究的10个指标:
- Confusion Matrix
- Type I Error
- Type II Error
- Accuracy
- Recall or True Positive Rate or Sensitivity
- Precision
- Specificity
- F1 Score
- ROC Curve- AUC Score
- PR Curve
一旦我们了解了适当的用法以及如何根据问题陈述来解释这些度量,那么衡量分类模型的强度就不是问题了。
我们将使用一个数据集的例子,它有yes和no标签,用于训练逻辑回归模型。这个用例可以是任何分类问题-垃圾邮件检测、癌症预测、损耗率预测、活动目标预测等。我们将在本文需要时参考特殊用例。目前,我们将考虑一个简单的逻辑模型,它必须预测是或否。
首先,逻辑模型可以给出两种输出:
1.它以输出值的形式给出类标签(是/否、1/0、恶性/良性、吸引/保留、垃圾邮件/非垃圾邮件等)
2.它给出了介于0到1之间的概率值作为输出值,以表示某个特定观察事件的可能性或可能性。
类标签场景可以进一步细分为平衡或不平衡数据集,这两种情况都不能/不应该基于类似的度量进行判断。有些指标更适合但不是另一个,反之亦然。类似地,概率场景有不同于类标签的模型性能度量。
下面是流程图,这是一个完美的总结,也是这篇文章的一个完美的前言,我们将在最后再次回顾这个流程图,以确保我们了解所有的指标。
Confusion Matrix
我们从一个开发数据集开始,同时构建任何统计或ML模型。把数据集分成两部分:训练和测试。保留测试数据集,并使用训练数据集训练模型。一旦模型准备好预测,我们就尝试在测试数据集上进行预测。一旦我们将结果分割成一个类似于上图所示的矩阵,我们就可以看到我们的模型有多少能够正确预测,有多少预测是错误的。
我们用测试数据集中的数字填充以下4个单元格(例如,有1000个观察值)。
TP(真阳性):该列的实际标签在测试数据集中为“是”,我们的logistic回归模型也预测为“是”。(500次观察)
TN(真阴性):在测试数据集中,该列的实际标签为“否”,而我们的logistic回归模型也预测为“否”。(200次观察)
FP(假阳性):该列的实际标签在测试数据集中为“否”,但我们的logistic回归模型预测为“是”。(100次观察)
FN(假阴性):在测试数据集中,该列的实际标签为“是”,但我们的逻辑回归模型预测为“否”。(200次观察)
这4个单元构成了“混淆矩阵”,就像在矩阵中一样,它可以通过清晰地描绘模型的预测能力来缓解对模型优度的所有混淆。
混淆矩阵是一个表,通常用于描述一个分类模型(或“分类器”)在一组已知真实值的测试数据上的性能