机器学习深度学习面试题（指标类）

2023-06-20 275

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 机器学习深度学习面试题（指标类）

1.机器学习分类指标汇总

常用指标

首先需要建立一个表，对于一个分类任务，我们预测情况大致如下面混淆矩阵所示：

	预测为正样本	预测为负样本
标签为正样本	TP	FN
标签为负样本	FP	TN

1.accuracy

accuracy指的是正确预测的样本数占总预测样本数的比值，它不考虑预测的样本是正例还是负例,考虑的是全部样本。

2.precision(查准率)

precision指的是正确预测的正样本数占所有预测为正样本的数量的比值，也就是说所有预测为正样本的样本中有多少是真正的正样本。从这我们可以看出，precision只关注预测为正样本的部分，

3.recall(召回率)

它指的是正确预测的正样本数占真实正样本总数的比值，也就是我能从这些样本中能够正确找出多少个正样本。

4.F-score

F-score相当于precision和recall的调和平均，用意是要参考两个指标。从公式我们可以看出，recall和precision任何一个数值减小，F-score都会减小，反之，亦然

5.specificity

specificity指标平时见得不多，它是相对于sensitivity（recall）而言的，指的是正确预测的负样本数占真实负样本总数的比值，也就是我能从这些样本中能够正确找出多少个负样本。

6.sensitivity(TPR)

7.P-R曲线

我们将纵轴设置为precison，横轴设置成recall，改变阈值就能获得一系列的pair并绘制出曲线。对于不同的模型在相同数据集上的预测效果，我们可以画出一系列的PR曲线。一般来说如果一个曲线完全“包围”另一个曲线，我们可以认为该模型的分类效果要好于对比模型。

样本不均衡下指标

背景

在大多数情况下不同类别的分类代价并不相等，即将样本分类为正例或反例的代价是不能相提并论的。例如在垃圾邮件过滤中，我们希望重要的邮件永远不要被误判为垃圾邮件，还有在癌症检测中，宁愿误判也不漏判。在这种情况下，仅仅使用分类错误率来度量是不充分的，这样的度量错误掩盖了样本如何被错分的事实。所以，在分类中，当某个类别的重要性高于其他类别时，可以使用Precison和Recall多个比分类错误率更好的新指标。

8.ROC

在实际的数据集中经常会出现类别不平衡现象，即负样本比正样本多很多（或者相反），而且测试数据中的正负样本的分布也可能随着时间而变化。而在这种情况下，ROC曲线能够保持不变。同时，我们可以断言，ROC曲线越接近左上角，该分类器的性能越好，意味着分类器在假阳率很低的同时获得了很高的真阳率。

以下是一个ROC曲线的实例：

现在我们指定一个阈值为0.9，那么只有第一个样本（0.9）会被归类为正例，而其他所有样本都会被归为负例，因此，对于0.9这个阈值，我们可以计算出FPR为0，TPR为0.1（因为总共10个正样本，预测正确的个数为1），那么我们就知道曲线上必有一个点为(0, 0.1)。依次选择不同的阈值（或称为“截断点”），画出全部的关键点以后，再连接关键点即可最终得到ROC曲线如下图所示。

其实还有一种更直观的绘制ROC曲线的方法，就是把横轴的刻度间隔设为，纵轴的刻度间隔设为，N,P分别为负样本与正样本数量。然后再根据模型的输出结果降序排列，依次遍历样本，从0开始绘制ROC曲线，每遇到一个正样本就沿纵轴方向绘制一个刻度间隔的曲线，每遇到一个负样本就沿横轴方向绘制一个刻度间隔的曲线，遍历完所有样本点以后，曲线也就绘制完成了。

使用sklearn进行roc曲线绘制

>>> from sklearnimport metrics
>>> import numpy as np
>>> y = np.array([1, 1, 2, 2]) #假设4个样本
>>> scores = np.array([0.1, 0.4, 0.35, 0.8])
>>> fpr, tpr, thresholds = metrics.roc_curve(y, scores, pos_label=2)
>>> fpr #假阳性
array([ 0. ,  0.5,  0.5,  1. ])
>>> tpr #真阳性
array([ 0.5,  0.5,  1. ,  1. ])
>>> thresholds #阈值
array([ 0.8 ,  0.4 ,  0.35,  0.1 ])
>>> #auc(后面会说)
>>> auc = auc = metrics.auc(fpr, tpr)
>>> auc
0.75

绘制曲线：

import matplotlib.pyplot as plt
plt.figure()
lw = 2
plt.plot(fpr, tpr, color='darkorange',
         lw=lw, label='ROC curve (area = %0.2f)' % auc)
plt.plot([0, 1], [0, 1], color='navy', lw=lw, linestyle='--')
plt.xlim([0.0, 1.0])
plt.ylim([0.0, 1.05])
plt.xlabel('False Positive Rate')
plt.ylabel('True Positive Rate')
plt.title('Receiver operating characteristic example')
plt.legend(loc="lower right")
plt.show()

所画图象如图所示：

9.AUC

auc指的是计算roc的面积。AUC值是一个概率值，当你随机挑选一个正样本以及负样本，当前的分类算法根据计算得到的Score值将这个正样本排在负样本前面的概率就是AUC值，AUC值越大，当前分类算法越有可能将正样本排在负样本前面，从而能够更好地分类。

def AUC(label, pre):
  """
  适用于ｐｙｔｈｏｎ3.0以上版本
   """
  #计算正样本和负样本的索引，以便索引出之后的概率值
    pos = [i for i in range(len(label)) if label[i] == 1]
    neg = [i for i in range(len(label)) if label[i] == 0]
    auc = 0
    for i in pos:
        for j in neg:
            if pre[i] > pre[j]:
                auc += 1
            elif pre[i] == pre[j]:
                auc += 0.5
    return auc / (len(pos)*len(neg))
if __name__ == '__main__':
    label = [1,0,0,0,1,0,1,0]
    pre = [0.9, 0.8, 0.3, 0.1, 0.4, 0.9, 0.66, 0.7]
    print(AUC(label, pre))

import numpy as np
def auc_calculate(labels,preds,n_bins=100):
    postive_len = sum(labels)
    negative_len = len(labels) - postive_len
    total_case = postive_len * negative_len
    pos_histogram = [0 for _ in range(n_bins)]
    neg_histogram = [0 for _ in range(n_bins)]
    bin_width = 1.0 / n_bins
    for i in range(len(labels)):
        nth_bin = int(preds[i]/bin_width)
        if labels[i]==1:
            pos_histogram[nth_bin] += 1
        else:
            neg_histogram[nth_bin] += 1
    accumulated_neg = 0
    satisfied_pair = 0
    for i in range(n_bins):
        satisfied_pair += (pos_histogram[i]*accumulated_neg + pos_histogram[i]*neg_histogram[i]*0.5)
        accumulated_neg += neg_histogram[i]
    return satisfied_pair / float(total_case)
 y = np.array([1,0,0,0,1,0,1,0,])
 pred = np.array([0.9, 0.8, 0.3, 0.1,0.4,0.9,0.66,0.7])
print("----auc is :",auc_calculate(y,pred))

2.图像分割指标汇总

1.pixel accuracy(标记正确/总像素数目)

2.MPA(Mean Pixel Accuracy)

其计算公式如下：

计算每类各自分类的准确率，再取均值!

3.Mlou(Mean Intersection over Union)

计算两个集合的交集与并集之比，在语义分割中，这两个集合为真实值和预测值。

3.目标检测指标汇总

主要是用到以下的指标：

mAP：meanAveragePrecision，即各类别AP平均值

AP：PR曲线下面积

PR曲线：Precision-Recall曲线

Precision：TP/(TP+FP）

Recall：TP/(TP+FN)

TP：IoU>0.5的检验框数量(同一GroundTruth只计算一次)

FP：IoU<=0.5的检验框，或者是检测到同一个GT的多余检测框的数量

FN：没有检测到的GT的数量

IOU：计算两个集合的交集与并集之比

NMS：非极大值抑制

机器学习深度学习面试题（指标类）

1.机器学习分类指标汇总

常用指标

1.accuracy

2.precision(查准率)

3.recall(召回率)

4.F-score

5.specificity

6.sensitivity(TPR)

7.P-R曲线

样本不均衡下指标

8.ROC

9.AUC

2.图像分割指标汇总

1.pixel accuracy(标记正确/总像素数目)

2.MPA(Mean Pixel Accuracy)

3.Mlou(Mean Intersection over Union)

3.目标检测指标汇总

4.模型效率衡量

FLOPs(floating point operations)

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

机器学习深度学习面试题（指标类）

1.机器学习分类指标汇总

常用指标

1.accuracy

2.precision(查准率)

3.recall(召回率)

4.F-score

5.specificity

6.sensitivity(TPR)

7.P-R曲线

样本不均衡下指标

8.ROC

9.AUC

2.图像分割指标汇总

1.pixel accuracy(标记正确/总像素数目)

2.MPA(Mean Pixel Accuracy)

3.Mlou(Mean Intersection over Union)

3.目标检测指标汇总

4.模型效率衡量

FLOPs(floating point operations)

热门文章

最新文章

相关课程

相关电子书

相关实验场景