电影是一种集商业性,艺术性和大众传媒性于一体的特殊人类文化产品,既是社会意识形态中的艺术现象,又是由投资,生产,销售等行为组成的经济现象。对电影榜单状况进行分析,可以更好地为电影市场的经营与管理提供依据
模型总结
随机森林是一种很好的算法是对Bagging算法进行了改进,在解决本次问题中,随机森林会是一个不错的选择。最重要的是,它为你选择的特征提供了一个很好的重要性表示。同时可以处理许多不同属性的特征类型。随机森林是从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合,然后根据自助样本集生成k个分类树组成随机森林,新数据的分类结果按分类树投票多少形成的分数而定。
1. import numpy as np 2. import matplotlib.pyplot as plt 3. from sklearn.ensemble import RandomForestRegressor 4. from sklearn.model_selection import train_test_split 5. from sklearn.multioutput import MultiOutputRegressor 6. from sklearn.model_selection import train_test_split 7. x_train, x_test, y_train, y_test = train_test_split(x,y,test_size=0.2,random_state=93) 8. # #定义模型 决策树的个数设置150 树的最大深度10 9. regr_rf = RandomForestRegressor(n_estimators=150,max_depth=10,random_state=0) 10. 11. # 集合模型 12. regr_rf.fit(x_train, y_train) 13. # 利用预测 14. y_rf = regr_rf.predict(x_test) 15. #评价 16. print(regr_rf.score(x_test, y_test))
而电影的评分也是受到多个因素的影响产不同的结果,这就需要进行多方面的决策, 当输入样本进入的时候,随机森林中的每一棵决策树分别进行一下判断,看看这个样本应该属于哪一类,然后看看哪一类被选择最多,就准确的预测这个样本,这也极大提高了预测电影评分的准确度
1. result1={ 2. "实际值":list(y_test), 3. "预测值":list(y_rf) 4. } 5. 6. result1=pd.DataFrame(result1) 7. result1
预测结果
个人总结
在学习了python数据分析与挖掘课程后,进行本次的课程设计在这个过程中, 通过Python语言及第三方库编程实现了任务书中的各项任务,虽然过程充满着艰辛与困难,但极大的培养了我们的数据分析思维,同时自己收获了很多的知识与实践的经历, 在学习时始终要与实际应用相结合,不要把主要精力花费在各个命令孤立地学习上;要把学以致用的原则贯穿整个学习过程,以让自己对代码能有深刻和形象的理解