电影数据探索

简介: 电影数据探索

电影数据共两张表tmdb_5000_credits表与tmdb_5000_credits表每张表共4803条记录。

二、数据探索

属性描述

tmdb_5000_credits表中共有四个字段:movie_id,title,cast,crew字段说明如下表:

tmdb_5000_credits表中共20个字段,主要包括:budget,genres,popularityrevenue等。字段具体说明如下表

 

数据质量分析

描述性统计数据

查看数据最大值,最小值,平均值,空值

1. print('-------------------------------------统计量描述-------------------------------------')
2. explore = credits_data.describe(percentiles=[], include='all').T # percentiles参数是指定计算多少的分位数表
3. explore['null'] = len(credits_data) - explore['count'] # describe()函数自动计算非空值数,需要手动计算空值数
4. print(explore.head())
5. explore = explore[['null', 'max', 'min','mean']]
6. explore.columns = [u'空值数', u'最大值', u'最小值',u'平均值']  # 表头重命名
7. # explore.to_csv('data/项目一/credits_data统计量描述.csv')  # 保存结果
8. print('--------------------------------------空值统计--------------------------------------')
9. print(credits_data.isnull().sum())

根据上述统计结果可以看到,每个字段共有4803个观测值,并不存在空值,查看title该字段仅存在三条重复的值,对于电影名称重复的数据进行查看发现三条记录只是电影名重复,其他字段信息均不相同,且不排除翻拍电影的可能,所以这三条记录是合法的。查看cast字段出现内容为空的记录43条,通过分析每条电影记录没有cast字段的详细信息只有电影名与电影id对于后续的分析记录没多大的作用。Crew字段同样存在28条内容为空的记录


相关文章
|
2月前
|
机器学习/深度学习 算法 索引
电影推荐算法2
电影推荐算法2
31 2
|
2月前
|
前端开发
电影排行案例
电影排行案例
43 0
|
2月前
|
人工智能
Sora对电影制作的影响
【2月更文挑战第9天】Sora对电影制作的影响
38 2
Sora对电影制作的影响
|
2月前
|
数据采集 机器学习/深度学习 算法
电影推荐算法
电影推荐算法
34 0
|
2月前
|
SQL UED
有趣的电影
有趣的电影
36 0
|
2月前
爬取电影数据
爬取电影数据
37 0
|
2月前
爬取猫眼电影
爬取猫眼电影
43 0
|
2月前
|
数据采集 Web App开发 JSON
数说成龙电影|数据告诉你,成龙大哥真的老了吗
数说成龙电影|数据告诉你,成龙大哥真的老了吗
|
数据采集 Python
Python爬虫系列18-采集电视剧详情 比如:导演、年份、类型、短评等数据
身材不好就去锻炼,没钱就努力去赚,别把窘迫困境迁怒于别人,你唯一可以抱怨的就是不够努力的自己。 向往别人看过的风景,但是到了周末,却抱着手机在家宅过一个又一个周末。所以当自己想到的一些东西就赶紧行动起来,羡慕别人不如行动自己。 如果只是一味的去羡慕别人,从来都不去让自己行动起来,那么你永远都会在见证别人的成功,在见证别人的成长。
Python爬虫系列18-采集电视剧详情 比如:导演、年份、类型、短评等数据
|
文件存储 Python
简单爬取豆瓣电影相关信息
简单爬取豆瓣电影相关信息
121 0
简单爬取豆瓣电影相关信息