评价模型
在整个数据集上评价模型
plt.scatter(y_test, line_pre,label='y') plt.plot([y_test.min(), y_test.max()], [y_test.min(), y_test.max()], 'k--', lw=4,label='predicted')
然后在整个数据集中评价模型
line_pre_all = linear_model.predict(X) #预测值 print('SCORE:{:.4f}'.format(linear_model.score(X,y))) print('RMSE:{:.4f}'.format(np.sqrt(mean_squared_error(y, line_pre_all)))) hos_pre_all = pd.DataFrame() hos_pre_all['Predict'] = line_pre_all hos_pre_all['Truth'] = y hos_pre_all.plot(figsize=(18,8))
plt.scatter(y, line_pre_all,label='y') plt.plot([y.min(), y.max()], [y.min(), y.max()], 'k--', lw=4,label='predicted')
由以上分析可知,模型在整个数据集中的评分比在测试集中要低
进一步探索和模型改进
- 尝试使用相关性最高的3个特征量重建模型,并与原模型进行比较
- 尝试使用其它多种算法分别建立模型,并比较模型
特征选择重建模型
首先我尝试相关性最高的三个特征重建模型,去与原模型比较一下
data.corr()['MEDV'].abs().sort_values(ascending=False).head(4)
由此我们得出了三个相关性最高的特征,我们将其作为自变量去建立模型
X2 = np.array(data[['LSTAT','RM','PIRATIO']]) X2_train, X2_test, y_train, y_test = train_test_split(X2, y, random_state=1,test_size=0.2) linear_model2 = LinearRegression() linear_model2.fit(X2_train,y_train) print(linear_model2.intercept_) print(linear_model2.coef_) line2_pre = linear_model2.predict(X2_test) #预测值 print('SCORE:{:.4f}'.format(linear_model2.score(X2_test, y_test)))#模型评分 print('RMSE:{:.4f}'.format(np.sqrt(mean_squared_error(y_test, line2_pre))))#RMSE(标准误差)
我们可以得到,对于预测测试集的数据的得分score明显是没有开始的线性回归模型1高的,然后我们再看看,在整个数据集中它的表现
line2_pre_all = linear_model2.predict(X2) #预测值 print('SCORE:{:.4f}'.format(linear_model2.score(X2, y)))#模型评分 print('RMSE:{:.4f}'.format(np.sqrt(mean_squared_error(y, line2_pre_all))))#RMSE(标准误差)
这样比较下来,第一个模型达到的分数,即使在整个数据集中73%,但是这个模型的得分大约是67.6%,由此可以得出,第一个模型还是比这个模型优的,接下来就需要尝试更多的模型了
数据标准化
数据集的 标准化 对scikit-learn中实现的大多数机器学习算法来说是 常见的要求 。如果个别特征或多或少看起来不是很像标准正态分布(具有零均值和单位方差),那么它们的表现力可能会较差。
所以我这里首先对数据进行了一个标准化处理
from sklearn.preprocessing import StandardScaler ss_x = StandardScaler() X_train = ss_x.fit_transform(X_train) X_test = ss_x.transform(X_test) ss_y = StandardScaler() y_train = ss_y.fit_transform(y_train.values.reshape(-1, 1)) y_test = ss_y.transform(y_test.values.reshape(-1, 1))
模型优化和改进
接下来我就开始尝试多种模型,希望尝试的模型有对我的算法有帮助
X ,y = data[data.columns.delete(-1)], data['MEDV'] X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=9)
GradientBoosting(梯度提升)
from sklearn import ensemble #params = {'n_estimators': 500, 'max_depth': 4, 'min_samples_split': 1,'learning_rate': 0.01, 'loss': 'ls'} #clf = ensemble.GradientBoostingRegressor(**params) clf = ensemble.GradientBoostingRegressor() clf.fit(X_train, y_train) clf_pre=clf.predict(X_test) #预测值 print('SCORE:{:.4f}'.format(clf.score(X_test, y_test)))#模型评分 print('RMSE:{:.4f}'.format(np.sqrt(mean_squared_error(y_test, clf_pre))))#RMSE(标准误差)
Lasso 回归 (Least Absolute Shrinkage and Selection Operator)
Lasso也是惩罚其回归系数的绝对值。
与岭回归不同的是,Lasso回归在惩罚方程中用的是绝对值,而不是平方。这就使得惩罚后的值可能会变成0
from sklearn.linear_model import Lasso lasso = Lasso() lasso.fit(X_train,y_train) y_predict_lasso = lasso.predict(X_test) r2_score_lasso = r2(y_test,y_predict_lasso) print('SCORE:{:.4f}'.format( lasso.score(X_test, y_test)))#模型评分 print('RMSE:{:.4f}'.format(np.sqrt(mean_squared_error(y_test,y_predict_lasso))))#RMSE(标准误差) print('Lasso模型的R-squared值为:',r2_score_lasso)
ElasticNet 回归
ElasticNet回归是Lasso回归和岭回归的组合
enet = ElasticNet() enet.fit(X_train,y_train) y_predict_enet = enet.predict(X_test) r2_score_enet = r2(y_test,y_predict_enet) print('SCORE:{:.4f}'.format( enet.score(X_test, y_test)))#模型评分 print('RMSE:{:.4f}'.format(np.sqrt(mean_squared_error(y_test,y_predict_enet))))#RMSE(标准误差) print("ElasticNet模型的R-squared值为:",r2_score_enet)
Support Vector Regression (SVR)
from sklearn.linear_model import ElasticNet from sklearn.svm import SVR from sklearn.metrics import confusion_matrix, classification_report from sklearn.metrics import r2_score as r2, mean_squared_error as mse, mean_absolute_error as mae def svr_model(kernel): svr = SVR(kernel=kernel) svr.fit(X_train, y_train) y_predict = svr.predict(X_test) # score(): Returns the coefficient of determination R^2 of the prediction. print(kernel,' SVR的默认衡量评估值值为:', svr.score(X_test,y_test)) print(kernel,' SVR的R-squared值为:', r2(y_test, y_predict)) print(kernel,' SVR的均方误差(mean squared error)为:',mse(y_test, y_predict)) print(kernel,' SVR的平均绝对误差(mean absolute error)为:',mae(y_test,y_predict)) # print(kernel,' SVR的均方误差(mean squared error)为:',mse(scalery.inverse_transform(y_test), scalery.inverse_transform(y_predict))) # print(kernel,' SVR的平均绝对误差(mean absolute error)为:',mae(scalery.inverse_transform(y_test),scalery.inverse_transform(y_predict))) return svr
linear 线性核函数
linear_svr = svr_model(kernel='linear')
poly 多项式核
poly_svr = svr_model(kernel='poly')
rbf(Radial Basis Function) 径向基函数
rbf_svr = svr_model(kernel='rbf')
SVM(支持向量机)回归-- 线性核
from sklearn.svm import SVR linear_svr = SVR(kernel="linear") linear_svr.fit(X_train, y_train) linear_svr_pre = linear_svr.predict(X_test)#预测值 print('SCORE:{:.4f}'.format(linear_svr.score(X_test, y_test)))#模型评分 print('RMSE:{:.4f}'.format(np.sqrt(mean_squared_error(y_test, linear_svr_pre))))#RMSE(标准误差)
SVM(支持向量机)回归-- 多项式核
在使用SVM回归-- 多项式核的时候,首先要对数据进行一个标准化处理
from sklearn.preprocessing import StandardScaler ss_x = StandardScaler() X_train = ss_x.fit_transform(X_train) X_test = ss_x.transform(X_test) ss_y = StandardScaler() y_train = ss_y.fit_transform(y_train.values.reshape(-1, 1)) y_test = ss_y.transform(y_test.values.reshape(-1, 1))
再进行建立模型来预测
poly_svr = SVR(kernel="poly") poly_svr.fit(X_train, y_train) poly_svr_pre = poly_svr.predict(X_test)#预测值 print('SCORE:{:.4f}'.format(poly_svr.score(X_test, y_test)))#模型评分 print('RMSE:{:.4f}'.format(np.sqrt(mean_squared_error(y_test, poly_svr_pre))))#RMSE(标准误差)
决策树回归
from sklearn.tree import DecisionTreeRegressor tree_reg=DecisionTreeRegressor(max_depth=2) tree_reg.fit(X_train, y_train) tree_reg_pre = tree_reg.predict(X_test)#预测值 print('SCORE:{:.4f}'.format( tree_reg.score(X_test, y_test)))#模型评分 print('RMSE:{:.4f}'.format(np.sqrt(mean_squared_error(y_test,tree_reg_pre))))#RMSE(标准误差)
最后我们会发现,利用GBDT的得分居然高达90,这是我们得到最优的一个模型了,其次就是SVR回归的多项式核,也大概达到了85,其他的并没有线性回归那么优,所以对于波士顿房价预测来说,利用GBDT是最好的,这是迄今为止我遇到最好的模型
总结
可以发现,如果要用Gradient Boosting 算法的话,在sklearn包里调用是非常方便的,几行代码即可完成,大部分的工作是在数据特征提取
数据分析过程中,特征设计是最重要的,现在kaggle竞赛很流行使用GBDT(梯度提升决策树Gradient Boosted Decision Tree) 算法,数据分析结果的优劣其实主要在特征上,行业中做项目也是如此
不断的在研究数据中培养对数据的敏感度十分重要
每日一句
Never had to laugh at other people.(没经历过才笑别人的疤)
如果需要数据和代码,可以自提
路径1:我的gitee
路径2:百度网盘
链接:https://pan.baidu.com/s/1uA5YU06FEW7pW8g9KaHaaw
提取码:5605