电影数据共两张表tmdb_5000_credits表与tmdb_5000_credits表每张表共4803条记录。
二、数据探索
属性描述
tmdb_5000_credits表中共有四个字段:movie_id,title,cast,crew字段说明如下表:
tmdb_5000_credits表中共20个字段,主要包括:budget,genres,popularity,revenue等。字段具体说明如下表
数据质量分析
描述性统计数据
查看数据最大值,最小值,平均值,空值
1. print('-------------------------------------统计量描述-------------------------------------') 2. explore = credits_data.describe(percentiles=[], include='all').T # percentiles参数是指定计算多少的分位数表 3. explore['null'] = len(credits_data) - explore['count'] # describe()函数自动计算非空值数,需要手动计算空值数 4. print(explore.head()) 5. explore = explore[['null', 'max', 'min','mean']] 6. explore.columns = [u'空值数', u'最大值', u'最小值',u'平均值'] # 表头重命名 7. # explore.to_csv('data/项目一/credits_data统计量描述.csv') # 保存结果 8. print('--------------------------------------空值统计--------------------------------------') 9. print(credits_data.isnull().sum())
根据上述统计结果可以看到,每个字段共有4803个观测值,并不存在空值,查看title该字段仅存在三条重复的值,对于电影名称重复的数据进行查看发现三条记录只是电影名重复,其他字段信息均不相同,且不排除翻拍电影的可能,所以这三条记录是合法的。查看cast字段出现内容为空的记录43条,通过分析每条电影记录没有cast字段的详细信息只有电影名与电影id对于后续的分析记录没多大的作用。Crew字段同样存在28条内容为空的记录