为探究电影评分与其他因素的关系,这里使用多元线性回归与随机森林进行建模预测
多元线性回归模型
多元线性回归模型通常用来研究一个应变量依赖多个自变量的变化关系,如果二者的以来关系可以用线性形式来刻画,则可以建立多元线性模型来进行分析
多元线性回归模型通常用来描述变量y和x之间的随机线性关系,即:
1. # 多元线性回归模型 2. from sklearn.linear_model import LinearRegression 3. 4. simple2 = LinearRegression() 5. 6. simple2.fit(x_train,y_train) 7. print('多元线性回归模型系数:\n',simple2.coef_) 8. print('多元线性回归模型常数项:',simple2.intercept_) 9. y_predict=simple2.predict(x_test) 10. from sklearn.metrics import r2_score 11. 12. r2_score(y_test,y_predict)
可以看到拟合出的回归系数与截距项
1. from sklearn.metrics import r2_score 2. 3. r2_score(y_test,y_predict)
但最终的决定系数是很小的,这就意味着,使用多元线性回归模型预测的结果不是很理想,造成这种结果的原因有可能自变量与因变量的对应关系并不是多元线性的关系而这里我们使用了模型进行预测造成模型的决定系数很低。接下来采用随机森林继续预测。
https://blog.csdn.net/qq_58392257/article/details/128733549?spm=1001.2014.3001.5502
此文详细描述了使用随机森林对电影数据的预测分析。