学习笔记: 机器学习经典算法-分类算法模型的评价指标

简介: 机器学习经典算法-个人笔记和学习心得分享

1、分类准确度(accuracy)

分类准确率(ACC,accuracy ): 该指标描述了统计测试集的模型预测结果与真实标签的一致度,是一般情况下在 无倾斜样本总体 的分类评价中最常用的指标,准确率越高,意味着分类模型效果越好。
$$ACC = \frac {TN+TP}{TN+FP+FN+TP}$$
np.sum( Y_predict ==Test_Y)/len(Test_y)

缺点: 分类准确度评估指标 很大程度上依赖样本集的标签分布,对例如样本集中存在 99.9% 的负 (0)0.1% 正 (1) 样本分布,即使算法模型将所有样本都预测为负 (0) 样本,也有样本的分类准确率也能达到 99.9% 。这样即使分类准确率很高,但该模型却几乎没有识别 正例样本的 的能力。所以对于 极度偏斜的数据总体(Skewed Data),总体中存在发生概率极低的事件(如A事件小于 5%,B事件大于95%),从总体采样用于训练测试的原始数据,使用 分类准确度(accuracy ) 来评估模型准确度的话,哪怕分类模型将所有小概率事件A判断为B,模型的准确度也能达到 95%,意味着训练的分类模型并未对待解决的问题起任何作用,同基于事件的发生概率进行随机预测的结果一样,

2、基于【混淆矩阵 Confusion Matrix】 提出的优化评估方法

混淆矩阵 用以总结分类问题的预测结果。使用计数的方式统计正确和错误预测的样例结果数量,按分类类别进行细分记录在混淆矩阵里面,用以比较分类结果和实际测得值。

基于 混淆矩阵 提出的优化分类评估指标

  • 精准率
    $$precision = \frac {TP}{TP+FP}$$

精准率 的表达式描述了预测为正例的样本中正确预测的情况。
其主要意义:通常在现实 有偏数据(Skewed Data) 中,自然发生概率极低的事件往往才是关注对象。比如医疗中的疾病患者对象,使用阳性(Positive)标记疾病状态(对应混淆矩阵中的 "1")。所以 精准率 主要用来反映模型对研究关注的事件的预测准确度。

  • 召回率
    $$recall= \frac {TP}{TP+FN}$$
    召回率 的表达式描述了真实发生的正例事件中,被模型正确预测的情况,也即模型预测中覆盖面的度量。

精准率 和 召回率 的应用场景:
在模型评估中,使用 召回率精准率 作为具体的评价指标需要依应用场景而定。

  • 对更侧重于 未来事件的风险判断 应用中(像股票预测,就会更侧重于模型生成的待买入股票的涨跌预测效果,而不是是这些股票过去的涨跌预测效果),从而使用精准率 作为评价指标。
  • 在医疗领域应用中,通常需要避免犯 FN 的错误,即如果算法没有成功识别阳性患者,就会拖延患者病情延误治疗,而对于模型的 FP 错误造成的影响则没那么严重,因为假阳性的患者通过进一步检查是可以被识别出来的,这样一定程度上能够帮助节省人力资源将所有阳性患者都筛选出来,从而需要使用 召回率 作为主要的评价指标。

对于  **极度偏斜偏数据(Skewed Data)** 来说,结合 **precision ** 和 **recall** 能更准确地对模型效果进行评估

2.1.1 混淆矩阵和 精准率/召回率 的python 实现

import numpy as np
from sklearn import datasets

### 创建二分类预测数据集
digits = datasets.load_digits()
x = digits.data
y = digits.target.copy()
y[digits.target == 9] = 1
y[digits.target != 9] = 0
from sklearn.model_selection import train_test_split
Train_X,Test_X,Train_Y,Test_Y = train_test_split(x,y,random_state=666)

### 应用逻辑回归进行数据二分类
from sklearn.linear_model import LogisticRegression
log_reg = LogisticRegression(solver='lbfgs', max_iter=1000)
log_reg.fit(Train_X,Train_Y)
Test_y_predict = log_reg.predict(Test_X)

### 自实现混淆矩阵
def TN(Y_T,Y_P):
    assert len(Y_T) == len(Y_P)
    return np.sum((Y_T == 0) & (Y_P == 0))
def FP(Y_T,Y_P):
    assert len(Y_T) == len(Y_P)
    return np.sum((Y_T == 0) & (Y_P == 1))
def FN(Y_T,Y_P):
    assert len(Y_T) == len(Y_P)
    return np.sum((Y_T == 1) & (Y_P == 0))
def TP(Y_T,Y_P):
    assert len(Y_T) == len(Y_P)
    return np.sum((Y_T == 1) & (Y_P == 1))
def confusion_matrix(Y_T,Y_P):
    return np.array([
        [TN(Y_T,Y_P),FP(Y_T,Y_P)],
        [FN(Y_T,Y_P),TP(Y_T,Y_P)] 
    ])
confusion_matrix(Test_Y,Test_y_predict)

### 计算精准率和召回率
def precision_score(Y_T,Y_P):
    try:
        return TP(Y_T,Y_P) / (TP(Y_T,Y_P) + FP(Y_T,Y_P))
    except:
        return 0.0
precision_score(Test_Y,Test_y_predict)
def recall_score(Y_T,Y_P):
    try:
        return TP(Y_T,Y_P) / (TP(Y_T,Y_P) + FN(Y_T,Y_P))
    except:
        return 0.0
recall_score(Test_Y,Test_y_predict)

2.1.2 scikit-learn中的混淆矩阵,精准率和召回率

from sklearn.metrics import confusion_matrix  ### 混淆矩阵
confusion_matrix(Test_Y,Test_y_predict)
from sklearn.metrics import precision_score   ### 精准率
precision_score(Test_Y,Test_y_predict)
from sklearn.metrics import recall_score      ### 召回率
recall_score(Test_Y,Test_y_predict)

2.2 F1 Score

F1 Score 是 精准率(precision)和召回率(recall) 的 调和平均值
$$ \frac {1}{F1} = \frac {1}{2}(\frac {1}{precision} + \frac {1}{recall}) \rightarrow F1 = \frac {2\cdot precision\cdot recall}{precision + recall}$$

调和平均值的意义:
如果要综合两个评价指标为一个,最简单的处理方式即取连个指标值的 算数平均值,$indic = \frac {1}{2}( precision + recall)$ ; 但是当这两个指标值出现一个值极高,一个值极低的极端分布情况下,就会有综合指标值也会是一个相对较高的结果,对于评价的代表性来说,就会错误度量了模型的效果。使用 调和平均值 的情况下,如果两个指标值极端不平衡,得到的 F1 score 就会非常低,只有两个指标值都非常高时 F1 score 才会非常高,从而使用调和平均值能够较好地综合了 精准率和召回率两种评价指标的结果来度量模型效果。F1 score 适用于需要 精准率和召回率 都是越大越好的评价环境中。

sklearn 下的 F1 score

from sklearn.metrics import f1_score
f1_score(Test_Y,Test_y_predict)

3、 Precision-Recall 的矛盾和平衡

在应用二分类模型进行数据分类时,分类的标准依据的是分类器计算的样本得分;如果要求模型的 精准率 更高,只能通过
收窄正例的识别域,也即提高判断为 1 的概率值阈值(如从 50% 提高到 90% 作为识别正例的标准),就会导致更多的低概率值的正例样本变成 FN ,召回率指标变小。同理,要想 召回率指标变大,就会产生更多的 FP 结果,精准率 变小。所以 Precision 和 Recall 两者是一对矛盾负相关的指标,两者不可能同时变大或变小。

Precision-Recall 的矛盾

3.1 Precision-Recall Curve (PR 曲线)

根据 Precision-Recall Curve 曲线,可以简单判断 当精准率和召回率 取值都相对较高的平衡点下对应的分类决策值阈值。

### 应用逻辑回归进行数据预测
from sklearn.linear_model import LogisticRegression
log_reg = LogisticRegression(solver='lbfgs', max_iter=1000)
log_reg.fit(Train_X,Train_Y)
decision_score = log_reg.decision_function(Test_X)  ### 获取决策分数的预测值

### draw PR curve 
from sklearn.metrics import precision_recall_curve
precision,recall,threshold = precision_recall_curve(Test_Y,decision_score)
import matplotlib.pyplot as plt
plt.plot(threshold,precision[:-1])
plt.plot(threshold,recall[:-1])
plt.show()

3.2 ROC曲线

ROC曲线(receiver operating characteristic curve) 用以描述 TPRFPR 之间的关系;
$$TPR= \frac {TP}{TP+FN} \ \ ,\ \ \ \ \ FPR= \frac {FP}{TN+FP}$$
TPR 描述的是正例被正确预测的覆盖率,本质为 召回率recall ;
FPR 描述的是负例样本中被错误预测的覆盖率,也即模型犯 FP 错误的概率;

Precision-Recall两指标的矛盾不同,当选取不同的分类决策值时, TPRFPR 两个指标具正相关的一致变化趋势;要使得正例的预测覆盖率(recall)增大,只能降低判断为正例的决策分数,那么此时就会引起许多负例被错误识别为正例,从而 TPRFPR 两个指标呈现正相关变化。

3.2.2 scikit-learn 下绘制ROC曲线

### 应用逻辑回归进行数据预测
from sklearn.linear_model import LogisticRegression
log_reg = LogisticRegression(solver='lbfgs', max_iter=1000)
log_reg.fit(Train_X,Train_Y)
decision_score = log_reg.decision_function(Test_X)

### draw PR curve 
from sklearn.metrics import roc_curve
fprs,tprs,threshold = roc_curve(Test_Y,decision_score)
import matplotlib.pyplot as plt
plt.plot(fprs,tprs)
plt.show()

3.2.3 scikit-learn 计算ROC曲线下面积(ROC_AUC_score)

对于使用 ROC曲线 进行分类效果评价时,通常使用 曲线下面积(auc,area under curve) 来度量不同超参数下训练的模型或不同算法的分类模型的分类效果。即如果有分类模型犯FP 错误越少(FPR 值越低)的时候有 TPR (正例覆盖率) 越大,就会将左侧部分的曲线整体拉高,从而使得曲线下面积变大,意味着模型能够在犯更少FP错误的情况下准确预测正例,模型分类效果越好。ROC曲线下面积这一评估指标 对 有偏数据总体 的分类效果评估相比 精准率和召回率 敏感度还要弱,适用面更广。

### 应用逻辑回归进行数据预测
from sklearn.linear_model import LogisticRegression
log_reg = LogisticRegression(solver='lbfgs', max_iter=1000)
log_reg.fit(Train_X,Train_Y)
decision_score = log_reg.decision_function(Test_X)

### draw PR curve 
from sklearn.metrics import roc_auc_score
roc_auc_score(Test_Y,decision_score)

4、多分类问题的混淆矩阵

多分类问题混淆矩阵与二分类混淆矩阵的原理一致,行方向依旧是样本的真实的分类排律,列方向则是预测结果:

4.2 混淆矩阵的可视化

混淆矩阵对角线的值是预测与真值一致的结果;通过统计每个类别样本中,分类错误的分布情况,从混淆矩阵可视化能更加直观简单地了解错误的分布。

4.3 scikit-learn 的多分类混淆矩阵与二分类混淆矩阵一致

### 创建二分类预测数据集
digits = datasets.load_digits()
x = digits.data
y = digits.target.copy()
from sklearn.model_selection import train_test_split
Train_X,Test_X,Train_Y,Test_Y = train_test_split(x,y,random_state=666)

### 应用逻辑回归进行数据预测
from sklearn.linear_model import LogisticRegression
log_reg = LogisticRegression(solver='lbfgs', max_iter=1e5)
log_reg.fit(Train_X,Train_Y)
Test_y_predict = log_reg.predict(Test_X)

### Multi-Class classification Confusion Matrix
from sklearn.metrics import confusion_matrix
confusion_matrix(Test_Y,Test_y_predict)

4.2 scikit-learn 的多分类问题的评价指标与二分类问题一致

from sklearn.metrics import precision_score   ### 多分类问题的精准率
precision_score(Test_Y,Test_y_predict,average= "micro")
目录
相关文章
|
8月前
|
机器学习/深度学习 数据采集 人工智能
【机器学习算法篇】K-近邻算法
K近邻(KNN)是一种基于“物以类聚”思想的监督学习算法,通过计算样本间距离,选取最近K个邻居投票决定类别。支持多种距离度量,如欧式、曼哈顿、余弦相似度等,适用于分类与回归任务。结合Scikit-learn可高效实现,需合理选择K值并进行数据预处理,常用于鸢尾花分类等经典案例。(238字)
|
9月前
|
机器学习/深度学习 人工智能 JSON
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
Microsoft Research最新推出的rStar2-Agent在AIME24数学基准测试中以80.6%的准确率超越超大规模模型DeepSeek-R1,展现“思考更聪明”而非“更长”的AI推理新方向。
346 8
微软rStar2-Agent:新的GRPO-RoC算法让14B模型在复杂推理时超越了前沿大模型
|
9月前
|
机器学习/深度学习 传感器 算法
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
【无人车路径跟踪】基于神经网络的数据驱动迭代学习控制(ILC)算法,用于具有未知模型和重复任务的非线性单输入单输出(SISO)离散时间系统的无人车的路径跟踪(Matlab代码实现)
588 2
|
9月前
|
机器学习/深度学习 并行计算 算法
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
【CPOBP-NSWOA】基于豪冠猪优化BP神经网络模型的多目标鲸鱼寻优算法研究(Matlab代码实现)
223 8
|
9月前
|
机器学习/深度学习 资源调度 算法
遗传算法模型深度解析与实战应用
摘要 遗传算法(GA)作为一种受生物进化启发的优化算法,在复杂问题求解中展现出独特优势。本文系统介绍了GA的核心理论、实现细节和应用经验。算法通过模拟自然选择机制,利用选择、交叉、变异三大操作在解空间中进行全局搜索。与梯度下降等传统方法相比,GA不依赖目标函数的连续性或可微性,特别适合处理离散优化、多目标优化等复杂问题。文中详细阐述了染色体编码、适应度函数设计、遗传操作实现等关键技术,并提供了Python代码实现示例。实践表明,GA的成功应用关键在于平衡探索与开发,通过精心调参维持种群多样性同时确保收敛效率
|
9月前
|
机器学习/深度学习 边缘计算 人工智能
粒子群算法模型深度解析与实战应用
蒋星熠Jaxonic是一位深耕智能优化算法领域多年的技术探索者,专注于粒子群优化(PSO)算法的研究与应用。他深入剖析了PSO的数学模型、核心公式及实现方法,并通过大量实践验证了其在神经网络优化、工程设计等复杂问题上的卓越性能。本文全面展示了PSO的理论基础、改进策略与前沿发展方向,为读者提供了一份详尽的技术指南。
粒子群算法模型深度解析与实战应用
|
9月前
|
机器学习/深度学习 运维 算法
基于粒子群优化算法的配电网光伏储能双层优化配置模型[IEEE33节点](选址定容)(Matlab代码实现)
基于粒子群优化算法的配电网光伏储能双层优化配置模型[IEEE33节点](选址定容)(Matlab代码实现)
920 0
|
10月前
|
传感器 算法 定位技术
KF,EKF,IEKF 算法的基本原理并构建推导出四轮前驱自主移动机器人的运动学模型和观测模型(Matlab代码实现)
KF,EKF,IEKF 算法的基本原理并构建推导出四轮前驱自主移动机器人的运动学模型和观测模型(Matlab代码实现)
317 2
|
9月前
|
机器学习/深度学习 数据采集 传感器
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
【WOA-CNN-LSTM】基于鲸鱼算法优化深度学习预测模型的超参数研究(Matlab代码实现)
564 0
|
9月前
|
机器学习/深度学习 存储 算法
基于模型预测算法的混合储能微电网双层能量管理系统研究(Matlab代码实现)
基于模型预测算法的混合储能微电网双层能量管理系统研究(Matlab代码实现)
250 0

热门文章

最新文章