sklearn中分类模型评估指标（二）：Kappa系数、混淆矩阵、分类指标报告、汉明损失-阿里云开发者社区

sklearn中分类模型评估指标（二）：Kappa系数、混淆矩阵、分类指标报告、汉明损失

2022-11-01 1995

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 混淆矩阵confusion_matrix函数通过计算每一行对应于真实类别的混淆矩阵来评估分类准确率。根据定义，混淆矩阵中的条目[i，j]是实际上在类 i 中，但预测在类 j 中的数量。

混淆矩阵

confusion_matrix函数通过计算每一行对应于真实类别的混淆矩阵来评估分类准确率。

根据定义，混淆矩阵中的条目[i，j]是实际上在类 i 中，但预测在类 j 中的数量。

示例代码：

from sklearn.metrics import confusion_matrix
y_true = [2, 0, 2, 2, 0, 1]
y_pred = [0, 0, 2, 2, 0, 2]
print(confusion_matrix(y_true, y_pred))
复制代码

运行结果：

[[2 0 0]
 [0 0 1]
 [1 0 2]]
复制代码

参数normalize允许报告结果是比率而不是计数。混淆矩阵可以通过3种不同的方式进行归一化：'pred'、'true'和'all'，它们分别将计数除以每列、每行或整个矩阵的总和。

示例代码：

y_true = [0, 0, 0, 1, 1, 1, 1, 1]
y_pred = [0, 1, 0, 1, 0, 1, 0, 1]
print(confusion_matrix(y_true, y_pred, normalize='all'))
复制代码

运行结果：

[[0.25  0.125]
 [0.25  0.375]]
复制代码

对于二分类问题，我们可以得到真阴性(tn)、假阳性(fp)、假阴性(fn)和真阳性(tp)的计数，如下所示：

tn, fp, fn, tp = confusion_matrix(y_true, y_pred).ravel()
print(tn, fp, fn, tp) # 2 1 2 3
复制代码

Kappa系数

cohen_kappa_score函数计算 Cohen 的 kappa 统计量。该措施旨在比较不同人类标注者的标签，而不是分类器的预测值与真实值。

其公式为：

κ=(po−pe)/(1−pe)\kappa = (p_o - p_e) / (1 - p_e)κ=(po−pe)/(1−pe)

其中，pop_opo是分配给任何样本的标签的经验概率（观察到的一致性比率），pep_epe是两个标注者随机分配标签时的预期一致性。pep_epe 是使用类标签上的每个标注者的经验先验估计的。

上面关于pop_opo和pep_epe的解释有点晦涩难懂，请看下面：

pop_opo是每一类正确分类的样本数量之和除以总样本数，也就是总体分类精度。

我们假设每一类的真实样本个数分别为a1,a2,...,ana_1,a_2,...,a_na1,a2,...,an，而预测出来的每一类的样本个数分别为b1,b2,...,bnb_1,b_2,...,b_nb1,b2,...,bn，总样本个数为nnn，则有：pe=a1×b1+a2×b2+...+an×bnn×np_e=\frac{a_1×b_1+a_2×b_2+...+a_n×b_n}{n×n}pe=n×na1×b1+a2×b2+...+an×bn

kappa 分数是一个介于 -1 和 1 之间的数字。通常，kappa是落在0与1之间，高于 0.8 的分数通常被认为是良好的一致性；零或更低意味着不一致（实际上是随机标签）。

网络异常，图片无法展示

可以为二分类或多分类问题计算 Kappa 分数，但不能为多标签问题计算 Kappa 分数（除非通过手动计算每个标签的分数）并且不能为两个以上的标注者计算。

举例说明：学生考试的作文成绩，由两个老师给出好、中、差三档的打分，现在已知两位老师的打分结果，需要计算两位老师打分之间的相关性kappa系数：

网络异常，图片无法展示

从上面的公式中，我们可以知道，其实只需要计算pop_opo，pep_epe即可：

po=(10+35+15)/87=0.689p_o = (10+35+15) / 87 = 0.689po=(10+35+15)/87=0.689

a1=10+2+8=20;a2=5+35+5=45;a3=5+2+15=22;a1 = 10+2+8 = 20; a2 = 5+35+5 = 45; a3 = 5+2+15 = 22;a1=10+2+8=20;a2=5+35+5=45;a3=5+2+15=22;

b1=10+5+5=20;b2=2+35+2=39;b3=8+5+15=28;b1 = 10+5+5 = 20; b2 = 2+35+2 = 39; b3 = 8+5+15 = 28;b1=10+5+5=20;b2=2+35+2=39;b3=8+5+15=28;

pe=a1∗b1+a2∗b2+a3∗b387∗87=0.455p_e = \frac{a1*b1 + a2*b2 + a3*b3}{87*87} = 0.455pe=87∗87a1∗b1+a2∗b2+a3∗b3=0.455

κ=po−pe1−pe\kappa = \frac{p_o-p_e}{1-p_e}κ=1−pepo−pe = 0.4293578

示例代码：

from sklearn.metrics import cohen_kappa_score
y_true = [2, 0, 2, 2, 0, 1]
y_pred = [0, 0, 2, 2, 0, 2]
print(confusion_matrix(y_true, y_pred))
print("-----------")
print(cohen_kappa_score(y_true, y_pred))
复制代码

运行结果：

[[2 0 0]
 [0 0 1]
 [1 0 2]]
-----------
0.4285714285714286
复制代码

计算过程如下：

po=4/6=2/3
a1=2; a2=1; a3=3
b1=3; b2=0; b3=3
pe=(2*3+1*0+3*3)/(6*6)=15/36=5/12
kappa=(2/3-5/12)/(1-5/12)=3/7=0.4285
复制代码

分类指标报告

classification_report函数构建一个显示主要分类指标的文本报告。

主要参数说明：

target_names：显示与标签匹配的名称（相同顺序），可选参数
labels：选择要包含在报告中的标签索引列表，可选参数

这是一个带有自定义target_names和推理labels的例子：

from sklearn.metrics import classification_report
y_true = [0, 1, 2, 2, 0]
y_pred = [0, 0, 2, 1, 0]
target_names = ['class 0', 'class 1', 'class 2']
print(classification_report(y_true, y_pred, target_names=target_names))
复制代码

运行结果：

precision    recall  f1-score   support
     class 0       0.67      1.00      0.80         2
     class 1       0.00      0.00      0.00         1
     class 2       1.00      0.50      0.67         2
    accuracy                           0.60         5
   macro avg       0.56      0.50      0.49         5
weighted avg       0.67      0.60      0.59         5
复制代码

下面是一个自定义labels的例子：

print(classification_report(y_true, y_pred, labels=[1, 2]))
复制代码

运行结果：

precision    recall  f1-score   support
           1       0.00      0.00      0.00         1
           2       1.00      0.50      0.67         2
   micro avg       0.50      0.33      0.40         3
   macro avg       0.50      0.25      0.33         3
weighted avg       0.67      0.33      0.44         3
复制代码

汉明损失

hamming_loss计算两组样本之间的平均汉明损失或汉明距离，取值在0~1之间，距离为0说明预测结果与真实结果完全相同，距离为1就说明模型与我们想要的结果完全就是背道而驰。

如果 y^j\hat{y}_jy^j 是给定样本的第 j 个标签的预测值，yjy_jyj为对应的真值，nlabelsn_\text{labels}nlabels为类别或标签的个数，那么真实值与预测值这两个样本之间的汉明损失LHammingL_{Hamming}LHamming定义为：

LHamming(y,y^)=1nlabels∑j=0nlabels−11(y^j≠yj)L_{Hamming}(y, \hat{y}) = \frac{1}{n_\text{labels}} \sum_{j=0}^{n_\text{labels} - 1} 1(\hat{y}_j \not= y_j)LHamming(y,y^)=nlabels1j=0∑nlabels−11(y^j=yj)

其中，1(x)1(x)1(x)是指标函数。

示例代码：

from sklearn.metrics import hamming_loss
y_pred = [1, 2, 3, 4]
y_true = [2, 2, 3, 4]
print(hamming_loss(y_true, y_pred)) # (1/4)*(1+0+0+0)
# 在具有二标签指示器的多分类场景
print(hamming_loss(np.array([[0, 1], 
                             [1, 1]]), 
                   np.zeros((2, 2)))
     ) # (1/2)*(1/2)*((1+0)+(1+1))
复制代码

运行结果：

0.25
0.75
复制代码

注意：

在多分类中，汉明损失对应于 y_true 和 y_pred 之间的汉明距离，类似于零一损失函数。然而，虽然零一损失惩罚不严格匹配真实集的预测集，但汉明损失惩罚单个标签。因此，以零一损失为上限的汉明损失始终介于0和1之间，包括两者；并且预测真实标签的适当子集或超集将给出介于 0 和 1 之间的汉明损失，不包括0和1。

总结

函数	说明
`cohen_kappa_score`	适用于二分类、多分类场景，一种检验一致性的方法
`confusion_matrix`	适用于二分类、多分类场景，通过计算每一行对应于真实类别的混淆矩阵来评估分类准确率
`classification_report`	适用于二分类、多分类、多标签场景，显示主要分类指标的文本报告
`hamming_loss`	适用于二分类、多分类、多标签场景，计算两组样本之间的汉明距离

sklearn中分类模型评估指标（二）：Kappa系数、混淆矩阵、分类指标报告、汉明损失

混淆矩阵

Kappa系数

分类指标报告

汉明损失

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

sklearn中分类模型评估指标（二）：Kappa系数、混淆矩阵、分类指标报告、汉明损失

混淆矩阵

Kappa系数

分类指标报告

汉明损失

总结

热门文章

最新文章

相关课程

相关电子书

相关实验场景