回归模型的评估及超参数调优-阿里云开发者社区

回归模型的评估及超参数调优

2024-10-18 74 发布于天津

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

注册配置 MSE Nacos/ZooKeeper，118元/月

服务治理 MSE Sentinel/OpenSergo，Agent数量不受限

任务调度 XXL-JOB 版免费试用，400 元额度，开发版规格

简介： 回归模型的评估及超参数调优

一、回归模型

在机器学习中，其中算法最为重要一面就是回归算法，回归算法占我们理解机器学习一大块，这一块的学习可以帮助我们掌握超参数的调节。基本上只要一切基于特征预测连续型变量的需求，我们都使用回归技术。

最著名的就是我们的线性回归和逻辑回归，从他们衍生出了岭回归，Lasso，弹性网，除此之外，还有众多分类算法改进后的回归，比如回归树，随机森林的回归，支持向量回归，贝叶斯回归等等。在这里我们使用线性回归来了解回归模型评估和超参数调节。

首先，我们需要了解回归参数评价指标

二、回归类的模型评估指标

在回归模型中，我们的目标就是预测的准确性，那么我们所有目的就是准确率怎么样，所以准确率是我们的出发点，那么我要根据准确率来看回归效果，因此评价指标有两种：

第一，我们是否预测到了正确的数值。

第二，我们的拟合程度好不好

2.1、对于预测的准确率

对于预测的准确性，我们可以是使用：

RSS残差平方和（不常用）
均方误差MSE（mean squared error）来衡量我们的预测值和真实值的差异
MAE（Mean absolute error，绝对均值误差）

现实我们使用中，MSE和MAE选一个来使用就好了（注意均方误差可能为负的，希望搞清楚这里为什么有的时候为负的）

2.2、对于信息拟合程度

对于一个拟合模型，如果我们使用MSE来对它进行判断，它的MSE会很小，因为大部分样本其实都被完美拟合了，少数样本的真实值和预测值的巨大差异在被均分到每个

样本上之后，MSE就会很小。但这样的拟合结果必然不是一个好结果，因为一旦我的新样本是处于拟合曲线的后半段的，我的预测结果必然会有巨大的偏差，而这不是我们希望看到的。所以，我们希望找到新的指标，除了判断预测的数值是否正确之外，还能够判断我们的模型是否拟合了足够多的，数值之外的信息。

为了衡量模型对数据上的信息量的捕捉，我们定义了R 2 R^2R2来帮助我们

效果就是R 2 R^2R2越近1越好

对于是R 2 R^2R2直接从metrics中导入r2_score，输入预测值和真实值后打分。第二种是直接从

线性回归LinearRegression的接口score来进行调用。第三种是在交叉验证中，输入"r2"来调用

三、超参数调节

网格搜索GridSearchCV(): (比较暴力，浪费时间)

网格搜索的思想非常简单，比如你有2个超参数需要去选择，那你就把所有的超参数选择列出来分别做排列组合。举个例子：λ = 0.01 , 0.1 , 1.0 \lambda = 0.01,0.1,1.0λ=0.01,0.1,1.0和α = 0.01 , 0.1 , 1.0 \alpha = 0.01,0.1,1.0α=0.01,0.1,1.0,你可以做一个排列组合，即：{[0.01,0.01],[0.01,0.1],[0.01,1],[0.1,0.01],[0.1,0.1],[0.1,1.0],[1,0.01],[1,0.1],[1,1]} ，然后针对每组超参数分别建立一个模型，然后选择测试误差最小的那组超参数。换句话说，我们需要从超参数空间中寻找最优的超参数，很像一个网格中找到一个最优的节点，因此叫网格搜索。

随机搜索 RandomizedSearchCV() ：

网格搜索相当于暴力地从参数空间中每个都尝试一遍，然后选择最优的那组参数，这样的方法显然是不够高效的，因为随着参数类别个数的增加，需要尝试的次数呈指数级增长。有没有一种更加高效的调优方式呢？那就是使用随机搜索的方式，这种方式不仅仅高校，而且实验证明，随机搜索法结果比稀疏化网格法稍好(有时候也会极差，需要权衡)。参数的随机搜索中的每个参数都是从可能的参数值的分布中采样的。与网格搜索相比，这有两个主要优点：

可以独立于参数数量和可能的值来选择计算成本。
添加不影响性能的参数不会降低效率。

from sklearn.svm import SVR     # 引入SVR类
from sklearn.pipeline import make_pipeline   # 引入管道简化学习流程
from sklearn.preprocessing import StandardScaler # 由于SVR基于距离计算，引入对数据进行标准化的类
from sklearn.model_selection import GridSearchCV  # 引入网格搜索调优
from sklearn.model_selection import cross_val_score # 引入K折交叉验证
from sklearn import datasets
boston = datasets.load_boston()     # 返回一个类似于字典的类
X = boston.data
y = boston.target
features = boston.feature_names
pipe_SVR = make_pipeline(StandardScaler(),SVR())
score1 = cross_val_score(estimator=pipe_SVR,
                         X = X,
                         y = y ,                     
                         scoring = 'r2',        
                         cv = 10)       # 10折交叉验证
print("CV accuracy: %.3f +/- %.3f" % ((np.mean(score1)),np.std(score1)))

CV accuracy: 0.187 +/- 0.649

# 下面我们使用网格搜索来对SVR调参：
from sklearn.pipeline import Pipeline
pipe_svr = Pipeline([("StandardScaler",StandardScaler()),
                     ("svr",SVR())])
param_range = [0.0001,0.001,0.01,0.1,1.0,10.0,100.0,1000.0]
param_grid = [{"svr__C":param_range,"svr__kernel":["linear"]},  
              # 注意__是指两个下划线，一个下划线会报错的
              {"svr__C":param_range,"svr__gamma":param_range,"svr__kernel":["rbf"]}]
gs = GridSearchCV(estimator=pipe_svr,          
                  param_grid = param_grid,
                  scoring = 'r2',
                  cv = 10)       # 10折交叉验证
gs = gs.fit(X,y)
print("网格搜索最优得分：",gs.best_score_)
print("网格搜索最优参数组合：\n",gs.best_params_)

网格搜索最优得分： 0.6081303070817127
网格搜索最优参数组合：
 {'svr__C': 1000.0, 'svr__gamma': 0.001, 'svr__kernel': 'rbf'}

# 下面我们使用随机搜索来对SVR调参：
from sklearn.model_selection import RandomizedSearchCV
from scipy.stats import uniform  # 引入均匀分布设置参数
pipe_svr = Pipeline([("StandardScaler",StandardScaler()),
                     ("svr",SVR())])
distributions = dict(svr__C=uniform(loc=1.0, scale=4),    # 构建连续参数的分布
                     svr__kernel=["linear","rbf"], # 离散参数的集合
                    svr__gamma=uniform(loc=0, scale=4))
rs = RandomizedSearchCV(estimator=pipe_svr,
                        param_distributions = distributions,
                        scoring = 'r2',
                        cv = 10)       # 10折交叉验证
rs = rs.fit(X,y)
print("随机搜索最优得分：",rs.best_score_)
print("随机搜索最优参数组合：\n",rs.best_params_)

随机搜索最优得分： 0.2990172103331221
随机搜索最优参数组合：
 {'svr__C': 4.999702477539999, 'svr__gamma': 1.9402586654643685, 'svr__kernel': 'linear'}

在这一节前面回归说的有一点大概，个人建议选择一本好的机器学习的书籍来通读一下，将能远远获得很多。最后，感谢阅读。

回归模型的评估及超参数调优

一、回归模型

二、回归类的模型评估指标

2.1、对于预测的准确率

2.2、对于信息拟合程度

三、超参数调节

热门文章

最新文章

相关课程

相关电子书

相关实验场景

探索云世界

热门

云计算

大数据

云原生

人工智能

数据库

开发与运维

活动广场

任务中心

训练营

直播

乘风者计划

下载

镜像站

技术资料

回归模型的评估及超参数调优

一、回归模型

二、回归类的模型评估指标

2.1、对于预测的准确率

2.2、对于信息拟合程度

三、超参数调节

热门文章

最新文章

相关课程

相关电子书

相关实验场景