电影数据探索

简介: 电影数据探索

电影数据共两张表tmdb_5000_credits表与tmdb_5000_credits表每张表共4803条记录。

二、数据探索

属性描述

tmdb_5000_credits表中共有四个字段:movie_id,title,cast,crew字段说明如下表:

tmdb_5000_credits表中共20个字段,主要包括:budget,genres,popularityrevenue等。字段具体说明如下表

 

数据质量分析

描述性统计数据

查看数据最大值,最小值,平均值,空值

1. print('-------------------------------------统计量描述-------------------------------------')
2. explore = credits_data.describe(percentiles=[], include='all').T # percentiles参数是指定计算多少的分位数表
3. explore['null'] = len(credits_data) - explore['count'] # describe()函数自动计算非空值数,需要手动计算空值数
4. print(explore.head())
5. explore = explore[['null', 'max', 'min','mean']]
6. explore.columns = [u'空值数', u'最大值', u'最小值',u'平均值']  # 表头重命名
7. # explore.to_csv('data/项目一/credits_data统计量描述.csv')  # 保存结果
8. print('--------------------------------------空值统计--------------------------------------')
9. print(credits_data.isnull().sum())

根据上述统计结果可以看到,每个字段共有4803个观测值,并不存在空值,查看title该字段仅存在三条重复的值,对于电影名称重复的数据进行查看发现三条记录只是电影名重复,其他字段信息均不相同,且不排除翻拍电影的可能,所以这三条记录是合法的。查看cast字段出现内容为空的记录43条,通过分析每条电影记录没有cast字段的详细信息只有电影名与电影id对于后续的分析记录没多大的作用。Crew字段同样存在28条内容为空的记录


相关文章
|
7月前
|
机器学习/深度学习 算法 索引
电影推荐算法2
电影推荐算法2
62 2
|
7月前
|
前端开发
电影排行案例
电影排行案例
62 0
|
3月前
|
数据采集 Python
1000条豆瓣评论告诉你电影《四海》怎样
1000条豆瓣评论告诉你电影《四海》怎样
51 1
|
2月前
|
数据采集 开发者
爬虫案例—抓取豆瓣电影的电影名称、评分、简介、评价人数
爬虫案例—抓取豆瓣电影的电影名称、评分、简介、评价人数
123 0
|
7月前
|
数据采集 机器学习/深度学习 算法
电影推荐算法
电影推荐算法
59 0
|
7月前
|
SQL UED
有趣的电影
有趣的电影
57 0
|
7月前
爬取电影数据
爬取电影数据
64 0
|
7月前
爬取猫眼电影
爬取猫眼电影
66 0
|
7月前
|
数据采集 Web App开发 JSON
数说成龙电影|数据告诉你,成龙大哥真的老了吗
数说成龙电影|数据告诉你,成龙大哥真的老了吗
120 0
|
数据采集 数据可视化 数据挖掘
电影榜单分析系统
电影榜单分析系统
电影榜单分析系统
下一篇
DataWorks