电影是一种集商业性,艺术性和大众传媒性于一体的特殊人类文化产品,既是社会意识形态中的艺术现象,又是由投资,生产,销售等行为组成的经济现象。对电影榜单状况进行分析,可以更好地为电影市场的经营与管理提供依据。在电影产业蓬勃发展的当下,电影的类型,时长,流行度,发行量,影评人数票房收益和评分数据之间呈现了复杂交错的关系,在商业化背景下,电影业围绕评分和票房展开了轰轰烈烈的利益竞争,而网络评分又表明了观众在综合了思想性,艺术性等方面因素后对电影的综合评价。评分和票房双丰收标志着一部电影的良好市场口碑。为具体研究电影评分与各因素之间的因果关系,运用数据分析与挖掘技术在海量数据中发现这些隐藏的信息,为推动我国从电影大国向电影强国转变提供一些思路。
- 选题背景
背景
电影是每个人生活中必不可少的娱乐方式,随着文化事业的发展,我们往往会接触到很多不同国家与不同种类的电影,而在评判一部电影好坏的过程中,需要通过获取得到电影相关的数据。从各个维度去评判电影的质量。从电影在全球的发行量,不同类型的电影在全球的流行度等方向进行深入研究。但由于文化背景不同,不同国家网民对电影的评判存在一定的差异,这就需要我们通过对数据进行处理选取合适的字段对数据进行可视化操作,再从数据与图表的结果中进行综合的分析得出我们想要的结果。
主要研究问题及意义
探究电影的评分主要受哪些因素影响,预测电影的评分结果。
Python进行处理
研究思路
目前得到的数据从多个维度描述了电影的信息。在海量的原始数据中存在着大量不完整,不一致,有异常的数据,严重影响到数据探索的工作。所以我们首先进行数据预处理,提高数据的质量,然后选取特定的字段关联进行可视化分析。分析各因素之间的相关性,特别是其他因素与评分的相关性;对电影发行量、评分趋势、评分对比进行分析并可视化;电影top10数据分析及可视化展示;电影类型、导演、演员、年代分析及可视化展示。选择合适的数据挖掘模型建模,并对模型进行评估;分析影响电影评分的因素、预测结果最后得出结论。
分析过程
从以下部分进行
这里给出了部分,下期更新后续部分!