实战案例|K折交叉验证与GridSearch网格搜索

2022-06-17 547

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 大家好，我是志斌~今天跟大家分享一下如何用GridSearch网格搜索和K折交叉认证对决策树模型进行参数调优。

大家好，我是志斌~

今天跟大家分享一下如何用GridSearch网格搜索和K折交叉认证对决策树模型进行参数调优。

上一篇文章给大家介绍了决策树模型的搭建和实战，当时只用到了一个参数max_depth，但是模型实际上还有其他影响参数，如criterion(特征选择标准)、class_weight(类别权重)等参数。如果我们想要更精确的结果，那么势必要对模型参数进行调整，找到最优参数，来构建模型。

01K折交叉验证

K折交叉验证实际上是将一个数据集分成K份，每次选K-1份为训练集，用剩下的一份为测试集，然后取K个模型的平均测试结果作为最终的模型效果。如下图所示：

K值的选取跟数据集的大小有关，数据集较小则增大K值，数据集较大则减小K值。实现代码如下：

from sklearn.model_selection import cross_val_score
acc = cross_val_score(model,X,Y,cv=5)

02GridSearch网格搜索

GridSearch网格搜索是一种穷举搜索的参数调优方法，它会遍历所有的候选参数，并评估每个模型的有效性和准确性，选取最好的参数作为最终结果。

参数调优分为单参数调优和多参数调优，志斌分别给大家举例介绍一下。

01 单参数调优

我们以单参数max_depth参数为例，来演示单参数调优，代码如下：

from sklearn.model_selection import GridSearchCV
param = {'max_depth':[1,3,5,7,9]}
grid_search = GridSearchCV(model,param,scoring='roc_auc',cv=5)grid_search.fit(X_train,Y_train)

输出参数的最优结果：

grid_search.best_params_

得到max_depth参数的最优结果为：

我们用上面获得的参数最优值重新搭建模型，来查看AUC值是否得到了提高，代码如下：

model = DecisionTreeClassifier(max_depth=7)
model.fit(X_train,Y_train)
y_pred_proba = model.predict_proba(X_test)
from sklearn.metrics import roc_auc_score
score = roc_auc_score(Y_test.values,y_pred_proba[:,1])

得到的AUC值为：

比之前的0.958有所上升，看来模型的准确度有所上升。

多参数调优

决策树模型有下图这些参数：

这些参数都会影响我们搭建的决策树模型的准确性，这里我们以max_depth(最大深度)、criterion(特征选择标准)、min_samples_split(子节点向下分裂所需最小样本数)，这三个参数为例，来进行多参数调优，代码如下：

from sklearn.model_selection import GridSearchCV
params = {'max_depth':[5,7,9,11,13],'criterion':['gini','entropy'],'min_samples_split':[5,7,9,11,13,15]}
model = DecisionTreeClassifier()
grid_search = GridSearchCV(model,params,scoring='roc_auc',cv=5)
grid_search.fit(X_train,Y_train)

输出参数的最优值：

grid_search.best_params_

我们用上面获得的参数最优值重新搭建模型，来查看AUC值是否得到了提高，代码如下：

model = DecisionTreeClassifier(criterion='entropy',max_depth=13,min_samples_split=15)
model.fit(X_train,Y_train)
y_pred_proba = model.predict_proba(X_test)
from sklearn.metrics import roc_auc_score
score = roc_auc_score(Y_test.values,y_pred_proba[:,1])

得到的AUC值为：

比之前的0.985有所提高，看来模型得到进一步优化。

03小结

1. 本文详细介绍了K交叉验证与GridSearch网格搜索，有兴趣的读者可以自己尝试一下。

2. 本文仅供学习，不做它用。

3. 点击在看，即可找志斌领取源码。

实战案例|K折交叉验证与GridSearch网格搜索

01K折交叉验证

02GridSearch网格搜索

03小结

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

实战案例|K折交叉验证与GridSearch网格搜索

01K折交叉验证

02GridSearch网格搜索

03小结

热门文章

最新文章

相关课程

相关电子书