【机器学习】分类模型评价指标(混淆矩阵、ROC)(已修改,放心看)

本文涉及的产品
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
模型训练 PAI-DLC,100CU*H 3个月
交互式建模 PAI-DSW,每月250计算时 3个月
简介: 【机器学习】分类模型评价指标(混淆矩阵、ROC)(已修改,放心看)

分类模型的评价指标:交叉熵、混淆矩阵、ROC曲线


交叉熵


根据上文:Logistic回归—学习笔记,从KL散度了解到,当交叉熵值越小,预测模型越接近真实模型,固然可以用交叉熵作为度量模型优化算法效果的一个指标

image.png

交叉熵是度量优化算法效果的一个相对指标,可以用于对比不同算法的效果,但它不适用于判断单个算法的预测效果 。

我的理解:交叉熵可以用来比较不同模型的优劣,而不适用对单一模型的预测效果的判定


混淆矩阵(本身不是评价指标,只是一个特殊的矩阵)


混淆矩阵:


实际为正例
实际为反例
预测为正例 TP FP
预测为反例 FN TN


  • T:预测标签和实际标签相同(预测正确)
  • F:预测标签和实际标签不相同(预测错误)
  • P:预测标签为正例
  • N:预测标签为反例


准确率(Accuracy)

image.png

:预测正确(T)占所有样本的比例

在整体样本中,预测正确的样本比例


精准率(Precision)

image.png

:预测和实际标签都为正例(TP)占所有正例样本的比例

预测正例样本中,预测正确的比例


召回率(Recall)


image.png

:预测和实际标签都为正例(TP)占所有预测标签为正例的比例

实际正例样本中,被预测正确的比例


F1值(F1-score)


image.png

:F1值是一种常用的分类模型评价指标,它综合了模型的准确率和召回率两个指标。


F1值越大,说明模型在同时考虑准确率和召回率时表现越好。当一个分类器的precision和recall都很高时,F1值也会相应地很高;但是如果一个指标很高而另一个指标很低,则F1值会降低。因此,F1值可以作为评估二分类问题解决方案优劣的综合指标。


这个还是挺重要的

下面是一个二分类问题的混淆矩阵例子:

预测/实际 实际为正例 实际为反例
预测为正例 30 10
预测为反例 20 40

解释:该混淆矩阵表示模型在测试数据集上共有100个样本,其中实际为正例的有50个,实际为反例的有50个。模型将其中30个正例正确地预测为正例,20个正例错误地预测为反例;将其中40个反例正确地预测为反例,10个反例错误地预测为正例。


通过混淆矩阵可以计算出多种分类指标,例如:


准确率(Accuracy):预测正确的样本数占总样本数的比例,即 (30+40)/(30+20+10+40) = 70%

精确率(Precision):预测为正例且实际为正例的样本数占预测为正例的样本数的比例,即 30/(30+20) = 60%

召回率(Recall):预测为正例且实际为正例的样本数占实际为正例的样本数的比例,即 30/(30+10) = 75%

F1值(F1-score):精确率和召回率的调和平均数,即 2 * Precision * Recall / (Precision + Recall) = 66.7%


ROC曲线


 ROC曲线(Receiver Operating Characteristic Curve)是一种常用的二分类模型性能评估工具,其横轴为假正率(False Positive Rate, FPR),纵轴为真正率(True Positive Rate, TPR),ROC曲线的绘制是通过将不同阈值下的真正率和假正率作为坐标点绘制而成。

daadb0f579a64dc2b3fd6a8e5d115b95_95b7161c286c42a48277591746323247.png

19b02656ec83e84589a926daa7ed826d_fe69b2626fc94c698b36bb3c316a7f7b.png


在ROC曲线上,理想情况下一个好的分类器应该尽可能靠近左上角,即TPR高,FPR低。而对于随机分类器,则会沿着y=x的直线进行绘制,代表了没有区分能力的分类器所呈现出来的性能。


另外,ROC曲线下面的面积AUC(Area Under the ROC Curve)也是评估分类器性能的指标之一,其数值范围在0.5到1之间,数值越接近1则代表分类器性能越好。


推荐视频:ROC曲线详解


目录
打赏
0
0
0
0
22
分享
相关文章
【解决方案】DistilQwen2.5-R1蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对DistilQwen2.5-R1模型系列提供了全面的技术支持。无论是开发者还是企业客户,都可以通过 PAI-ModelGallery 轻松实现 Qwen2.5 系列模型的训练、评测、压缩和快速部署。本文详细介绍在 PAI 平台使用 DistilQwen2.5-R1 蒸馏模型的全链路最佳实践。
基于PAI+专属网关+私网连接:构建全链路Deepseek云上私有化部署与模型调用架构
本文介绍了阿里云通过PAI+专属网关+私网连接方案,帮助企业实现DeepSeek-R1模型的私有化部署。方案解决了算力成本高、资源紧张、部署复杂和数据安全等问题,支持全链路零公网暴露及全球低延迟算力网络,最终实现技术可控、成本优化与安全可靠的AI部署路径,满足企业全球化业务需求。
PAI-Model Gallery云上一键部署阶跃星辰新模型Step1X-Edit
4月27日,阶跃星辰正式发布并开源图像编辑大模型 Step1X-Edit,性能达到开源 SOTA。Step1X-Edit模型总参数量为19B,实现 MLLM 与 DiT 的深度融合,在编辑精度与图像保真度上实现大幅提升,具备语义精准解析、身份一致性保持、高精度区域级控制三项关键能力;支持文字替换、风格迁移等11 类高频图像编辑任务类型。在最新发布的图像编辑基准 GEdit-Bench 中,Step1X-Edit 在语义一致性、图像质量与综合得分三项指标上全面领先现有开源模型,比肩 GPT-4o 与 Gemin。PAI-ModelGallery 支持Step1X-Edit一键部署方案。
【新模型速递】PAI一键云上零门槛部署DeepSeek-V3-0324、Qwen2.5-VL-32B
PAI-Model Gallery 集成国内外 AI 开源社区中优质的预训练模型,涵盖了 LLM、AIGC、CV、NLP 等各个领域,用户可以通过 PAI 以零代码方式实现从训练到部署再到推理的全过程,获得更快、更高效、更便捷的 AI 开发和应用体验。 现阿里云PAI-Model Gallery已同步接入DeepSeek-V3-0324、Qwen2.5-VL-32B-Instruct两大新模型,提供企业级部署方案。
Qwen3 全尺寸模型支持通过阿里云PAI-ModelGallery 一键部署
Qwen3 是 Qwen 系列最新一代的大语言模型,提供了一系列密集(Dense)和混合专家(MOE)模型。目前,PAI 已经支持 Qwen3 全系列模型一键部署,用户可以通过 PAI-Model Gallery 快速开箱!
AI训练师入行指南(三):机器学习算法和模型架构选择
从淘金到雕琢,将原始数据炼成智能珠宝!本文带您走进数字珠宝工坊,用算法工具打磨数据金砂。从基础的经典算法到精密的深度学习模型,结合电商、医疗、金融等场景实战,手把手教您选择合适工具,打造价值连城的智能应用。掌握AutoML改装套件与模型蒸馏术,让复杂问题迎刃而解。握紧算法刻刀,为数字世界雕刻文明!
83 6
DistilQwen2.5蒸馏小模型在PAI-ModelGallery的训练、评测、压缩及部署实践
DistilQwen2.5 是阿里云人工智能平台 PAI 推出的全新蒸馏大语言模型系列。通过黑盒化和白盒化蒸馏结合的自研蒸馏链路,DistilQwen2.5各个尺寸的模型在多个基准测试数据集上比原始 Qwen2.5 模型有明显效果提升。这一系列模型在移动设备、边缘计算等资源受限的环境中具有更高的性能,在较小参数规模下,显著降低了所需的计算资源和推理时长。阿里云的人工智能平台 PAI,作为一站式的机器学习和深度学习平台,对 DistilQwen2.5 模型系列提供了全面的技术支持。本文详细介绍在 PAI 平台使用 DistilQwen2.5 蒸馏小模型的全链路最佳实践。
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
320 6
基于机器学习的人脸识别算法matlab仿真,对比GRNN,PNN,DNN以及BP四种网络
本项目展示了人脸识别算法的运行效果(无水印),基于MATLAB2022A开发。核心程序包含详细中文注释及操作视频。理论部分介绍了广义回归神经网络(GRNN)、概率神经网络(PNN)、深度神经网络(DNN)和反向传播(BP)神经网络在人脸识别中的应用,涵盖各算法的结构特点与性能比较。

热门文章

最新文章

相关产品

  • 人工智能平台 PAI