机器学习中评估分类模型性能的10个重要指标(一)

本文涉及的产品
交互式建模 PAI-DSW,5000CU*H 3个月
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
简介: 机器学习中评估分类模型性能的10个重要指标(一)

在这篇文章中,我们将学习10个最重要的模型性能度量,这些度量可用于评估分类模型的模型性能。

以下是我们将通过示例以相互关联的方式研究的10个指标:

  • Confusion Matrix
  • Type I Error
  • Type II Error
  • Accuracy
  • Recall or True Positive Rate or Sensitivity
  • Precision
  • Specificity
  • F1 Score
  • ROC Curve- AUC Score
  • PR Curve

一旦我们了解了适当的用法以及如何根据问题陈述来解释这些度量,那么衡量分类模型的强度就不是问题了。

我们将使用一个数据集的例子,它有yes和no标签,用于训练逻辑回归模型。这个用例可以是任何分类问题-垃圾邮件检测、癌症预测、损耗率预测、活动目标预测等。我们将在本文需要时参考特殊用例。目前,我们将考虑一个简单的逻辑模型,它必须预测是或否。


首先,逻辑模型可以给出两种输出:

1.它以输出值的形式给出类标签(是/否、1/0、恶性/良性、吸引/保留、垃圾邮件/非垃圾邮件等)

2.它给出了介于0到1之间的概率值作为输出值,以表示某个特定观察事件的可能性或可能性。

类标签场景可以进一步细分为平衡或不平衡数据集,这两种情况都不能/不应该基于类似的度量进行判断。有些指标更适合但不是另一个,反之亦然。类似地,概率场景有不同于类标签的模型性能度量。

下面是流程图,这是一个完美的总结,也是这篇文章的一个完美的前言,我们将在最后再次回顾这个流程图,以确保我们了解所有的指标。

image.png

Confusion Matrix

image.png

我们从一个开发数据集开始,同时构建任何统计或ML模型。把数据集分成两部分:训练和测试。保留测试数据集,并使用训练数据集训练模型。一旦模型准备好预测,我们就尝试在测试数据集上进行预测。一旦我们将结果分割成一个类似于上图所示的矩阵,我们就可以看到我们的模型有多少能够正确预测,有多少预测是错误的。

我们用测试数据集中的数字填充以下4个单元格(例如,有1000个观察值)。

image.png

TP(真阳性):该列的实际标签在测试数据集中为“是”,我们的logistic回归模型也预测为“是”。(500次观察)

TN(真阴性):在测试数据集中,该列的实际标签为“否”,而我们的logistic回归模型也预测为“否”。(200次观察)

FP(假阳性):该列的实际标签在测试数据集中为“否”,但我们的logistic回归模型预测为“是”。(100次观察)

FN(假阴性):在测试数据集中,该列的实际标签为“是”,但我们的逻辑回归模型预测为“否”。(200次观察)

这4个单元构成了“混淆矩阵”,就像在矩阵中一样,它可以通过清晰地描绘模型的预测能力来缓解对模型优度的所有混淆。

混淆矩阵是一个表,通常用于描述一个分类模型(或“分类器”)在一组已知真实值的测试数据上的性能

目录
相关文章
|
3天前
|
机器学习/深度学习 人工智能 算法
【机器学习】RLHF:在线方法与离线算法在大模型语言模型校准中的博弈
【机器学习】RLHF:在线方法与离线算法在大模型语言模型校准中的博弈
19 6
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】Transformer模型大小与性能探究
【机器学习】Transformer模型大小与性能探究
35 5
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】集成语音与大型语音模型等安全边界探索
【机器学习】集成语音与大型语音模型等安全边界探索
15 5
|
3天前
|
机器学习/深度学习 人工智能 自然语言处理
【机器学习】Chameleon多模态模型探究
【机器学习】Chameleon多模态模型探究
13 5
|
3天前
|
机器学习/深度学习 人工智能 算法
【机器学习】模型、算法与数据—机器学习三要素
【机器学习】模型、算法与数据—机器学习三要素
6 0
|
3天前
|
机器学习/深度学习
【机器学习】视觉基础模型的三维意识:前沿探索与局限
【机器学习】视觉基础模型的三维意识:前沿探索与局限
9 0
|
3天前
|
机器学习/深度学习 数据采集 人工智能
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
【机器学习】CLIP模型在有限计算资源下的性能探究:从数据、架构到训练策略
9 0
|
3天前
|
机器学习/深度学习 监控
【机器学习】基于扩散模型的文本到音频生成:突破数据局限,优化音频概念与实践顺序
【机器学习】基于扩散模型的文本到音频生成:突破数据局限,优化音频概念与实践顺序
16 0
|
3天前
|
机器学习/深度学习 算法 大数据
【机器学习】集成学习:强化机器学习模型与创新能的利器
【机器学习】集成学习:强化机器学习模型与创新能的利器
6 0
|
3天前
|
机器学习/深度学习 算法 搜索推荐
【机器学习】近邻类模型:KNN算法在数据科学中的实践与探索
【机器学习】近邻类模型:KNN算法在数据科学中的实践与探索
20 0

相关产品

  • 人工智能平台 PAI