模型的性能度量| 学习笔记

本文涉及的产品
模型训练 PAI-DLC,5000CU*H 3个月
模型在线服务 PAI-EAS,A10/V100等 500元 1个月
通用文字识别,通用文字识别 200次/月
简介: 快速学习模型的性能度量。

开发者学堂课程【机器学习算法 :模型的性能度量】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/535/detail/7177


模型的性能度量

 

内容介绍

一、性能度量

二、分类算法常用的性能度量

三、聚类算法常用的性能度量

 

一、性能度量

性能度量( Performance Measure):评价模型泛化能力的标准。对于不同的横型,有不同的评价标准,不同的评价标准将导致不同的评价结果。横型的好坏是相对的,取決于对于当前任务需求的完成情況。

回归模型的性能度量通常选用均方误差。

给定样例集(每个数据由一个特征和一个结果组成)D={(x1,y1),(x2,y2),...,(xm,ym)},模型为 f,其性能度量均方误差为:

图片6.png

图片7.png

比如说有两条记录,x y;可以看到有三个点都在模型对应的直线上,其中一个点有偏离。

第二个模型,样本点分布在模型对应的两侧。计算:为什么是1/4,是因为有四个样本点,我们需要计算的是均值。结果为9,也就说第一个模型均方误差是9 .同样的方法计算图二,结果是3.8583

比较两个结果,显然第二个最小,也就是说两个模型在整个样本集上的表现是第二个模型的性能好于第一个模型。所以我们会选择第二个模型。

 

二、分类算法常用的性能度量

1、错误率:分类错误的样本占总样本数的此例,其公式为:

图片8.png

2、精度:分类正确的样本占总样本数的比例,其公式为

图片9.png

3、查准率:预测结果为正的样本中实际值也为正的比例(查出来是正的真为正的的比例)

4、查全率:实际值为正的样本中被预测为正的样本的比例(具体看例子)

5、P-R 曲线:查准率-查询率曲线

6、混淆矩阵:将预测分类结果和实际分类结果做成矩阵的形式显示(与业务场景和需求有关)

7、Pβ-score:β 值的不同体现了对查全率和查准率的不同倾向,其公式为

图片10.png

(需要设置一个阀值,一般为50%。曲线就是根据这个来的)

8、受试者特征曲线(ROC)和曲线下面积。可以量化 (AUC):TPR-FPR 曲线(真正例率-假正例率曲线)

9、代价曲线:不同类型的预测错误对结果影响不同而增加代价(cost),绘制 P(+)cost - cost norm 曲线.


三、聚类算法常用的性能度量

1、外部指标:将聚类(将所有的结果聚到不同类中)结果同某个参考模型进行比较,想评估好不好就弄一个参考模型,去与参考模型比怎样,通过这种方式来衡量外部指标

(1)jaccard 系数:

图片11.png

(2)FM 指数:

图片12.png

(3)Rand 指数:

图片15.png

2、内部指标:不适用参考模型(使用参数模型比的是内部结果)直接考察聚类结果

(1)DB指数:

图片13.png

(2)DUNN指数:

图片14.png

相关文章
|
6月前
|
机器学习/深度学习 安全
一文读懂分类模型评估指标
模型评估是深度学习和机器学习中非常重要的一部分,用于衡量模型的性能和效果。本文将逐步分解混淆矩阵,准确性,精度,召回率和F1分数。
489 1
|
机器学习/深度学习
评分是机器学习领域中的一种评估模型性能的指标
评分是机器学习领域中的一种评估模型性能的指标
94 1
|
2天前
|
自然语言处理 前端开发
如何评估一个基于MLM的模型在特定任务上的性能?
如何评估一个基于MLM的模型在特定任务上的性能?
构建一个分类模型,如何选择合适的损失函数和评估指标
构建一个分类模型,如何选择合适的损失函数和评估指标
|
2月前
|
机器学习/深度学习 数据可视化 数据建模
使用ClassificationThresholdTuner进行二元和多类分类问题阈值调整,提高模型性能增强结果可解释性
在分类问题中,调整决策的概率阈值虽常被忽视,却是提升模型质量的有效步骤。本文深入探讨了阈值调整机制,尤其关注多类分类问题,并介绍了一个名为 ClassificationThresholdTuner 的开源工具,该工具自动化阈值调整和解释过程。通过可视化功能,数据科学家可以更好地理解最优阈值及其影响,尤其是在平衡假阳性和假阴性时。此外,工具支持多类分类,解决了传统方法中的不足。
41 2
使用ClassificationThresholdTuner进行二元和多类分类问题阈值调整,提高模型性能增强结果可解释性
|
3月前
|
监控 测试技术
在模型训练中,如何衡量和平衡通用性和特定任务需求的重要性?
在模型训练中,如何衡量和平衡通用性和特定任务需求的重要性?
|
5月前
偏微分方程有了基础模型:样本需求数量级减少,14项任务表现最佳
【6月更文挑战第16天】研究人员提出Poseidon模型,减少求解偏微分方程(PDEs)的样本需求,提升效率。在15个挑战任务中,该模型在14项表现最优。基于scOT的多尺度架构, Poseidon降低了计算成本,但仍有泛化和资源限制。[论文链接](https://arxiv.org/pdf/2405.19101)**
89 4
|
4月前
|
机器学习/深度学习 Serverless Python
`sklearn.metrics`是scikit-learn库中用于评估机器学习模型性能的模块。它提供了多种评估指标,如准确率、精确率、召回率、F1分数、混淆矩阵等。这些指标可以帮助我们了解模型的性能,以便进行模型选择和调优。
`sklearn.metrics`是scikit-learn库中用于评估机器学习模型性能的模块。它提供了多种评估指标,如准确率、精确率、召回率、F1分数、混淆矩阵等。这些指标可以帮助我们了解模型的性能,以便进行模型选择和调优。
|
6月前
|
机器学习/深度学习 算法 数据挖掘
如何评估模型性能以进行模型选择?
【5月更文挑战第4天】如何评估模型性能以进行模型选择?
127 5
|
6月前
|
机器学习/深度学习 算法
R语言中敏感性和特异性、召回率和精确度作为选型标准的华夫图案例
R语言中敏感性和特异性、召回率和精确度作为选型标准的华夫图案例
下一篇
无影云桌面