数据挖掘-模型的评估(四)

简介: 数据挖掘-模型的评估(四)

模型评估是对模型进行多种维度的评估,来确认模型是否可以放到线上去使用。

例子:


“识别图片是不是关于小狗”的分类模型:

有1000张图片用于测试该模型的效果

并且预先已经进行了人工的标注(这里假设人工标注的数据都是100%正确)

每张图都会标注是或者不是小狗的图片,假设有800张标注“是”,200张标注“否”


b7a60b377041428ab06c178e51deb2c5.png


一、混淆矩阵与准确率指标


准确率相关指标:


可以直接反映一个模型对于样本数据的学习情况,是一种标准化的检验

07cf5a46047d46779a87987353a8efae.png

矩阵中包含4种数值:

1.真阳性(True Positive,TP)∶小狗图被判定为小狗图

样本的真实类别是正例,并且模型预测的结果也是正例(在本案例中此数值为745)


2.真阴性(True Negative,TN)︰不是小狗图被判定为不是小狗图

样本的真实类别是负例,并且模型将其预测成为负例(在本案例中此数值为175)


3.假阳性(False Positive,FP)︰不是小狗图被判定为小狗图

样本的真实类别是负例,但是模型将其预测成为正例(在本案例中此数值为25)


4.假阴性(False Negative,FN) :小狗图被判定为不是小狗图

样本的真实类别是正例,但是模型将其预测成为负例(在本案例中此数值为55)


准确率(Accuracy):所有预测正确的占全部样本的概率。

在本案例中为(745+175)/(745+175+25+55)=0.92。


e6ea6a59f982494087d0aad0dd9d02e8.png

accuracy局限性:准确率是分类问题最简单也是最直接的评价标准,但存在明显的缺陷。如:当负样本数占99%时,分类器把所有样本都预测为负样本也可以获得99%的准确率。所以,当不同类别的样本比例非常不均衡时,占比大的类别往往成为影响准确率的最主要因素。


精确率(Precision):预测正确的结果占所有预测成“是”的概率,即TP/(TP+FP)“是小狗图”类别的精确率是745/(745+25)~ 0.9675。


8d5e76d5c7c944cbbb60eff5a74bbb3c.png

召回率(Recall):该类别下预测正确的结果占该类别所有数据的概率,即TP/(TP+FN)本案例中“是”类别召回率745/(745+55)~0.93。


d16d46f5da69434bbd310e3fdd807f3a.png


F值(F Score) :准确率和召回率的调和平均值。计算方法 2*(Accuracy*Recall)/ (Accuracy+Recall)如果一个模型的准确率为0,召回率为1,那么F值仍然为0。

d688af78d527458ca0a55043ab2eb338.png

2bed08b61c9c459aa0e929068c73b993.png

ROC曲线和AUC值:构建了很多组混淆矩阵

在有些模型的产出中

通常给出“是”和“否”的概率值(这两个概率值相加为1)根据概率值来判定最终的结果


指定“是”的概率为0.1及以上时,就判定结果为“是”

“是”的概率小于0.1时,判定结果为“否”


在每一组混淆矩阵中,获取两个值:

真正例率:TP/ (TP+FN)

假正例率:FP/(FP+TN)


横坐标为真正例率,纵坐标为假正例率。


a34f9bc36c654c81a11413776101374d.png


二、业务抽样评估


在实际中存在一些问题,通常是由数据本身并不完美导致的。

对于标注数据,人工标注通常也存在一定的错误率,不是100%正确。

业务抽样评估可以减弱这种情况。


三、泛化能力评估


泛化能力反映的是模型对未知数据的判断能力。

在数据挖掘中,数据的维度通常有很多,数据也都是非标准值。

泛化能力好的模型在数据存在着波动的情况下,能够做出正确的判断。


过拟合(overfitting)与欠拟合(underfitting)

过拟合:模型在训练集上表现良好,而在测试集或者验证集上表现不佳。

欠拟合:在训练集和测试集上的表现都不好。


97e084fea796f293167a1d47d0e50dd7.png


泛化性能的评估依赖于在不同的数据集上的准确结果之间的比较

处理过拟合和欠拟合的问题

需要对数据进行重新整理,总结出现过拟合和欠拟合的原因,然后调整数据重新进行训练


四、其他评估指标


  • 模型速度:主要评估模型在处理数据上的开销和时间
  • 鲁棒性:主要考虑在出现错误数据或者异常数据甚至是数据缺失时,模型是否可以给出正确的结果,甚至是否可以给出结果,会不会导致模型运算的崩溃
  • 可解释性:在很多场景下(比如金融风控),需要给出一个让人信服的理由


五、评估数据的处理


随机抽样:把数据分成训练集与测试集,使用测试集对模型进行测试,得到各种准确率指标。

随机多次抽样:在随机抽样的基础上,进行n次随机抽样,得到n组测试集使用这n组的平均值作为最终结果。


交叉验证:需要训练多个模型。把原始数据分为k份,每次选取其中的一份作为测试集其他的作为训练集训练一个模型,计算这k个模型结果作为整体获得的准确率。

自助法:随机有放回地抽取样本,构建一个训练集,对比原始样本集和该训练集。

把训练集中未出现的内容整理成为测试集。重复这个过程k次、构建出k组数据、训练k个模型

计算这k个模型结果作为整体获得的准确率。


总结


模型的各种评估指标,从一个混淆矩阵出发,衍生出一系列的准确度评测。

对模型泛化能力进行评估。

介绍了如何在数据上进行一些优化从而减少评估时产生误差。



目录
相关文章
|
1月前
|
机器学习/深度学习 数据挖掘 Python
【数据挖掘】分类器模型性能评估讲解及iris数据集评估实战(超详细 附源码)
【数据挖掘】分类器模型性能评估讲解及iris数据集评估实战(超详细 附源码)
90 0
|
1月前
|
编解码 算法 数据挖掘
【数据挖掘】聚类趋势估计、簇数确定、质量测定等评估方法详解(图文解释 超详细)
【数据挖掘】聚类趋势估计、簇数确定、质量测定等评估方法详解(图文解释 超详细)
70 0
|
1月前
|
移动开发 算法 数据可视化
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
数据分享|Spss Modeler关联规则Apriori模型、Carma算法分析超市顾客购买商品数据挖掘实例
|
1月前
|
算法 数据挖掘 数据库
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
R语言主成分PCA、决策树、boost预警模型在跨区域犯罪研究数据挖掘分析|数据分享
|
1月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】模型选择中正则化、交叉验证详解及实战应用(超详细 附源码)
【数据挖掘】模型选择中正则化、交叉验证详解及实战应用(超详细 附源码)
56 0
|
1月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】关联模式评估方法及Apriori算法超市购物应用实战(超详细 附源码)
【数据挖掘】关联模式评估方法及Apriori算法超市购物应用实战(超详细 附源码)
111 0
|
8月前
|
机器学习/深度学习 数据采集 算法
【数据挖掘和机器学习技术】数据挖掘和机器学习相关的算法和模型,如聚类、分类、回归、神经网络
【数据挖掘和机器学习技术】数据挖掘和机器学习相关的算法和模型,如聚类、分类、回归、神经网络
119 0
|
机器学习/深度学习 数据采集 运维
数据挖掘实践(金融风控):金融风控之贷款违约预测挑战赛(上篇)[xgboots/lightgbm/Catboost等模型]–模型融合:stacking、blending
数据挖掘实践(金融风控):金融风控之贷款违约预测挑战赛(上篇)[xgboots/lightgbm/Catboost等模型]–模型融合:stacking、blending
|
机器学习/深度学习 算法 数据可视化
数据挖掘与决策树:特征选择和模型解释
数据挖掘是现代软件开发中的一个重要领域,它涉及从大量数据中提取有用信息和模式的过程。在数据挖掘中,决策树是一种广泛使用的机器学习算法,它可以用于分类和回归任务。在本文中,我们将探讨决策树中的特征选择和模型解释的重要性以及如何应用它们。
171 0
|
机器学习/深度学习 数据采集 存储
数据挖掘实践(金融风控):金融风控之贷款违约预测挑战赛(下篇)[xgboots/lightgbm/Catboost等模型]--模型融合:stacking、blending
数据挖掘实践(金融风控):金融风控之贷款违约预测挑战赛(下篇)[xgboots/lightgbm/Catboost等模型]--模型融合:stacking、blending

热门文章

最新文章