使用 scikit-learn 玩转机器学习——模型评价（下）-阿里云开发者社区

使用 scikit-learn 玩转机器学习——模型评价（下）

2022-02-18 121

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 对于分类模型来说，我们一般会用模型的准确率来进行模型的评价，模型的准确率是用预测正确的样本数除以模型的总数。如果一个模型的准确率达到了95%，那么在我们的印象中，是不是这个模型表现的还挺不错的，那如果达到了99%呢，岂不是更好？

精准率是TP值与TP值和FP值的和的比值，在上例中表示预测对的中奖人数占按预测应该中奖的人数的比值，表示如下：

召回率是TP值与TP值和FN值的和的比值，在上例中表示预测对的中奖人数占实际中奖人数的比率，表示如下：

然后我们可以得到我们所据上述例子中的混淆矩阵：

根据精准率和召回率的定义可得，出现除0情况而无意义，，召回率为0，根据召回率的定义也可知，召回率表示的是对于特定的目标群，预测正确的比率。完美的解决了准确率在偏斜数据中不作为的问题。

在不同的应用场景下，我们通常会关注不同的指标，因为有些时候精准率更为重要，有些时候召回率更为重要。为了同时权衡这两个指标的重要性，就出现了 F1 Score，表达式如下：

由上式我们可以看出，F1 Score 其实就是精准率与召回率的调和平均值，因为召回率和精准率都大于0，由极限的性质可知，只有精准率和召回率都打的时候，F1 Score 才会比较大。

说到 ROC 曲线（Receiver Operating Characteristic, 受试者工作特性曲线），就得从 TPR 和 FPR，其分别表示被正确预测的目标类别占目标类别的比率，和被错误的预测为目标类表占非目标类别的比率。其分别对应的表格和表达式如下：

OC 曲线源于二战中用于敌机检测的雷达信号分析技术，后来才被引入机器学习领域。在进行机器学习模型的比较时，如果一个模型的 ROC 曲线被另一个模型的曲线完全包住，则可断言后者的性能优于前者；若两个模型的 ROC 曲线发生交叉，则在一般情况下很难判定2个模型孰优孰劣，这时，一种较为合理的评比标准便是比较这两个 ROC 曲线之下的面积，即 AUC（Area under curve）。

接下来我们用代码来具体的实现下相关的评判标准和判别式。

引入必要的包 -> 调用数据集 -> 使数据集中不同类别数量偏斜 -> 分离训练、测试数据集 -> 实例化一个逻辑回归模型 -> 预测并求出模型准确率