瞎聊机器学习——准确率、精确率、召回率、F1 score

简介: 瞎聊机器学习——准确率、精确率、召回率、F1 score

针对分类、回归、排序等问题的模型评估,不同的问题有不同的评估方法,今天重点来说一下关于分类问题的准确率(Accuracy)、精确率(precision)、召回率(Recall)、F1 score。


准确率(Accuracy)

准确率指的是分类正确的样本占总样本个数的比例

即:image.png

其中image.png就是被分类正确的样本个数,image.png是总样本的个数。


精确率(precision)

精确率是指分类正确的正样本个数占分类器判定为正样本的个数的比例。

即:image.png

其中image.png表示分类正确的正样本的数量,image.png表示所有被分为正样本的数量。


召回率(Recall)

召回率是指分类正确的正样本占真实正样本的比例。

即:image.png

其中image.png表示分类正确的正样本的数量,image.png表示真实正样本的数量。


F1 score

F1 score可以认为是精确率和召回率的调和平均值。

image.png


举例说明一下这几个值的计算方法

假设某个班级有男生80人,女生20人,共100人,目的是找出所有的女生。

第一次:挑出50人,其中女生有15人(分类正确),有35个男生(分类错误)。

第二次:挑出50人,其中女生有20人(分类正确),有30个男生(分类错误)。


计算一下相应的值

第一次:

Accuracy = (15+(80-35))/100 = 60%

Precision = 15/50 = 30%

Recall = 15/20 = 75%

F1 = 2*0.3*0.75/0.3+0.75=42.9%

第二次:

Accuracy = (20+(80-30))/100 = 70%

Precision = 20/50 = 40%

Recall = 20/20 = 100%

F1 = 2*0.4*1/0.4+1 = 57.1%


根据两次结果我们可以对比出每种分类结果(不同分类器)之间的差距,在评估时我们可能会希望Precision越高越好,同样也希望Recall越高越好,但是我们考虑只抽取一个人且是女生的情况,此时的precision很高,但Recall却很低,我们并不能认为该分类方法是很好的,想要去衡量这个问题,我们可以绘制P-R曲线(横坐标为召回率,纵坐标为精确率)来对比不同分类器的表现好坏。

相关文章
|
机器学习/深度学习 人工智能 监控
如何利用机器学习提高人脸识别准确率
如何利用机器学习提高人脸识别准确率
543 1
|
机器学习/深度学习
【机器学习】准确率、精确率、召回率、误报率、漏报率概念及公式
机器学习评估指标中的准确率、精确率、召回率、误报率和漏报率等概念,并给出了这些指标的计算公式。
4233 0
|
机器学习/深度学习 Serverless Python
`sklearn.metrics`是scikit-learn库中用于评估机器学习模型性能的模块。它提供了多种评估指标,如准确率、精确率、召回率、F1分数、混淆矩阵等。这些指标可以帮助我们了解模型的性能,以便进行模型选择和调优。
`sklearn.metrics`是scikit-learn库中用于评估机器学习模型性能的模块。它提供了多种评估指标,如准确率、精确率、召回率、F1分数、混淆矩阵等。这些指标可以帮助我们了解模型的性能,以便进行模型选择和调优。
|
机器学习/深度学习 Java
机器学习中的召回率与准确率详解
机器学习中的召回率与准确率详解
|
机器学习/深度学习 测试技术
机器学习系列 | 01:多类别分类任务(multi-class)中为何precision,recall和F1相等?
在 multi-class 分类任务中,如果使用 micro 类指标,那么 micro-precision, micro-recall和micro-F1值都是相等的。本文主要针对这个现象进行解释。
|
机器学习/深度学习 测试技术
机器学习指标: F1分数
机器学习指标: F1分数
|
5月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
机器学习/深度学习 算法 数据挖掘
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构
K-means聚类算法是机器学习中常用的一种聚类方法,通过将数据集划分为K个簇来简化数据结构。本文介绍了K-means算法的基本原理,包括初始化、数据点分配与簇中心更新等步骤,以及如何在Python中实现该算法,最后讨论了其优缺点及应用场景。
1535 6
|
10月前
|
机器学习/深度学习 数据采集 人工智能
20分钟掌握机器学习算法指南
在短短20分钟内,从零开始理解主流机器学习算法的工作原理,掌握算法选择策略,并建立对神经网络的直观认识。本文用通俗易懂的语言和生动的比喻,帮助你告别算法选择的困惑,轻松踏入AI的大门。
720 8
|
11月前
|
机器学习/深度学习 存储 Kubernetes
【重磅发布】AllData数据中台核心功能:机器学习算法平台
杭州奥零数据科技有限公司成立于2023年,专注于数据中台业务,维护开源项目AllData并提供商业版解决方案。AllData提供数据集成、存储、开发、治理及BI展示等一站式服务,支持AI大模型应用,助力企业高效利用数据价值。