【机器学习】分类模型评价指标(混淆矩阵、ROC)(已修改,放心看)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 【机器学习】分类模型评价指标(混淆矩阵、ROC)(已修改,放心看)

分类模型的评价指标:交叉熵、混淆矩阵、ROC曲线


交叉熵


根据上文:Logistic回归—学习笔记,从KL散度了解到,当交叉熵值越小,预测模型越接近真实模型,固然可以用交叉熵作为度量模型优化算法效果的一个指标

image.png

交叉熵是度量优化算法效果的一个相对指标,可以用于对比不同算法的效果,但它不适用于判断单个算法的预测效果 。

我的理解:交叉熵可以用来比较不同模型的优劣,而不适用对单一模型的预测效果的判定


混淆矩阵(本身不是评价指标,只是一个特殊的矩阵)


混淆矩阵:


实际为正例
实际为反例
预测为正例 TP FP
预测为反例 FN TN


  • T:预测标签和实际标签相同(预测正确)
  • F:预测标签和实际标签不相同(预测错误)
  • P:预测标签为正例
  • N:预测标签为反例


准确率(Accuracy)

image.png

:预测正确(T)占所有样本的比例

在整体样本中,预测正确的样本比例


精准率(Precision)

image.png

:预测和实际标签都为正例(TP)占所有正例样本的比例

预测正例样本中,预测正确的比例


召回率(Recall)


image.png

:预测和实际标签都为正例(TP)占所有预测标签为正例的比例

实际正例样本中,被预测正确的比例


F1值(F1-score)


image.png

:F1值是一种常用的分类模型评价指标,它综合了模型的准确率和召回率两个指标。


F1值越大,说明模型在同时考虑准确率和召回率时表现越好。当一个分类器的precision和recall都很高时,F1值也会相应地很高;但是如果一个指标很高而另一个指标很低,则F1值会降低。因此,F1值可以作为评估二分类问题解决方案优劣的综合指标。


这个还是挺重要的

下面是一个二分类问题的混淆矩阵例子:

预测/实际 实际为正例 实际为反例
预测为正例 30 10
预测为反例 20 40

解释:该混淆矩阵表示模型在测试数据集上共有100个样本,其中实际为正例的有50个,实际为反例的有50个。模型将其中30个正例正确地预测为正例,20个正例错误地预测为反例;将其中40个反例正确地预测为反例,10个反例错误地预测为正例。


通过混淆矩阵可以计算出多种分类指标,例如:


准确率(Accuracy):预测正确的样本数占总样本数的比例,即 (30+40)/(30+20+10+40) = 70%

精确率(Precision):预测为正例且实际为正例的样本数占预测为正例的样本数的比例,即 30/(30+20) = 60%

召回率(Recall):预测为正例且实际为正例的样本数占实际为正例的样本数的比例,即 30/(30+10) = 75%

F1值(F1-score):精确率和召回率的调和平均数,即 2 * Precision * Recall / (Precision + Recall) = 66.7%


ROC曲线


 ROC曲线(Receiver Operating Characteristic Curve)是一种常用的二分类模型性能评估工具,其横轴为假正率(False Positive Rate, FPR),纵轴为真正率(True Positive Rate, TPR),ROC曲线的绘制是通过将不同阈值下的真正率和假正率作为坐标点绘制而成。

daadb0f579a64dc2b3fd6a8e5d115b95_95b7161c286c42a48277591746323247.png

19b02656ec83e84589a926daa7ed826d_fe69b2626fc94c698b36bb3c316a7f7b.png


在ROC曲线上,理想情况下一个好的分类器应该尽可能靠近左上角,即TPR高,FPR低。而对于随机分类器,则会沿着y=x的直线进行绘制,代表了没有区分能力的分类器所呈现出来的性能。


另外,ROC曲线下面的面积AUC(Area Under the ROC Curve)也是评估分类器性能的指标之一,其数值范围在0.5到1之间,数值越接近1则代表分类器性能越好。


推荐视频:ROC曲线详解


目录
打赏
0
0
0
0
22
分享
相关文章
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
本文探讨了数据基础设施设计中常见的一个问题:数据仓库或数据湖仓中的表格缺乏构建高性能机器学习模型所需的历史记录,导致模型性能受限。为解决这一问题,文章介绍了缓慢变化维度(SCD)技术,特别是Type II类型的应用。通过SCD,可以有效追踪维度表的历史变更,确保模型训练数据包含完整的时序信息,从而提升预测准确性。文章还从数据工程师、数据科学家和产品经理的不同视角提供了实施建议,强调历史数据追踪对提升模型性能和业务洞察的重要性,并建议采用渐进式策略逐步引入SCD设计模式。
109 8
特征时序化建模:基于特征缓慢变化维度历史追踪的机器学习模型性能优化方法
PAI Model Gallery 支持云上一键部署 DeepSeek-V3、DeepSeek-R1 系列模型
DeepSeek 系列模型以其卓越性能在全球范围内备受瞩目,多次评测中表现优异,性能接近甚至超越国际顶尖闭源模型(如OpenAI的GPT-4、Claude-3.5-Sonnet等)。企业用户和开发者可使用 PAI 平台一键部署 DeepSeek 系列模型,实现 DeepSeek 系列模型与现有业务的高效融合。
云上一键部署 DeepSeek-V3 模型,阿里云 PAI-Model Gallery 最佳实践
本文介绍了如何在阿里云 PAI 平台上一键部署 DeepSeek-V3 模型,通过这一过程,用户能够轻松地利用 DeepSeek-V3 模型进行实时交互和 API 推理,从而加速 AI 应用的开发和部署。
FastAPI + ONNX 部署机器学习模型最佳实践
本文介绍了如何结合FastAPI和ONNX实现机器学习模型的高效部署。面对模型兼容性、性能瓶颈、服务稳定性和安全性等挑战,FastAPI与ONNX提供了高性能、易于开发维护、跨框架支持和活跃社区的优势。通过将模型转换为ONNX格式、构建FastAPI应用、进行性能优化及考虑安全性,可以简化部署流程,提升推理性能,确保服务的可靠性与安全性。最后,以手写数字识别模型为例,展示了完整的部署过程,帮助读者更好地理解和应用这些技术。
101 20
全网首发 | PAI Model Gallery一键部署阶跃星辰Step-Video-T2V、Step-Audio-Chat模型
Step-Video-T2V 是一个最先进的 (SoTA) 文本转视频预训练模型,具有 300 亿个参数,能够生成高达 204 帧的视频;Step-Audio 则是行业内首个产品级的开源语音交互模型,通过结合 130B 参数的大语言模型,语音识别模型与语音合成模型,实现了端到端的文本、语音对话生成,能和用户自然地进行高质量对话。PAI Model Gallery 已支持阶跃星辰最新发布的 Step-Video-T2V 文生视频模型与 Step-Audio-Chat 大语言模型的一键部署,本文将详细介绍具体操作步骤。
多元线性回归:机器学习中的经典模型探讨
多元线性回归是统计学和机器学习中广泛应用的回归分析方法,通过分析多个自变量与因变量之间的关系,帮助理解和预测数据行为。本文深入探讨其理论背景、数学原理、模型构建及实际应用,涵盖房价预测、销售预测和医疗研究等领域。文章还讨论了多重共线性、过拟合等挑战,并展望了未来发展方向,如模型压缩与高效推理、跨模态学习和自监督学习。通过理解这些内容,读者可以更好地运用多元线性回归解决实际问题。
|
1月前
如何看PAI产品下训练(train)模型任务的费用细节
PAI产品下训练(train)模型任务的费用细节
86 6
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
197 6
机器学习算法的优化与改进:提升模型性能的策略与方法
机器学习算法的优化与改进:提升模型性能的策略与方法
295 13
机器学习算法的优化与改进:提升模型性能的策略与方法
解锁机器学习的新维度:元学习的算法与应用探秘
元学习作为一个重要的研究领域,正逐渐在多个应用领域展现其潜力。通过理解和应用元学习的基本算法,研究者可以更好地解决在样本不足或任务快速变化的情况下的学习问题。随着研究的深入,元学习有望在人工智能的未来发展中发挥更大的作用。

热门文章

最新文章

相关产品

  • 人工智能平台 PAI