往下滑动,会发现过一段时间,会出现一个fetch,右键打开后发现,里面就是20条记录,有所有我们需要的内容,json格式。
所以现在需要做的就是去找这些json文件的路径的规律。多看几条之后,就发现了规律:
第一个json:
**https://bangumi.bilibili.com/review/web_api/short/list?**media_id=102392&folded=0&page_size=20&sort=0
第二个json:
第三个json:
显然所有的json路径的前半部分都是一样,都是在第一条json之后加上不同的cursor = xxxxx,所以只要能找到cursor值的规律,就可以用循环的办法,爬完所有的json,这个值看上去没什么规律,最后发现,每一个json路径中cursor值就藏在前一个json的最后一条评论中
在python中可以直接把json转成字典,cursor值就是最后一条评论中键cursor的值,简直不要太容易。
所以爬的思路就很清晰了,从一个json开始,爬完20条评论后,获取最后一个评论中的cursor值,更改路径之后获取第二个json,重复上面的过程,直到爬完所有的json。
至于如何知道爬完了所有json,也很容易,每个json中一个total键,表示了当前一共有多少条评论,所以只需要写一个while循环,当爬到的评论数达到total值时停止。
爬的过程中还发现,有些json中的评论数不够20条,如果每次用20去定位,中间会报错停止,需要注意一下。所以又加了一行代码,每次获得json后,通过**len()**函数得到当前json中一共包含多少条评论,cursor在最后一个评论中。
以上是整个爬的思路,我们最终爬到以下信息
需要说明的地方,一个是liked按照字面意思应该是用户的点赞数,但爬完才发现全是0,没有用。另一个是关于时间,里面有ctime和mtime两个跟时间有关的值,看了几个,基本都是一样的,有个别不太一样,差的不多,就只取了ctime,我猜可能一个是点击进去的时间,一个是评论提交时间,但没法验证,就随便取一个算了,ctime的编码很奇怪,比如某一个是ctime = 1540001677,渣渣之前没有见过这种编码方式,请教了大佬之后知道,这个是Linux系统上的时间表示方式,是1970年1月1日0时0分0秒到当时时点的秒数,python中可以直接用time.gmtime()函数转化成年月日小时分钟秒的格式。还有last_ep_index里面存的是用户当前的看剧状态,比如看至第13话,第6话之类的,但后来发现很不准,绝大多数用户没有last_ep_index值,所以也没有分析这个变量。
代码如下
1import requests 2from fake_useragent import UserAgent 3import json 4import pandas as pd 5import time 6import datetime 7headers = { "User-Agent": UserAgent(verify_ssl=False).random} 8comment_api = 'https://bangumi.bilibili.com/review/web_api/short/list?media_id=102392&folded=0&page_size=20&sort=0' 9 10# 发送get请求 11response_comment = requests.get(comment_api,headers = headers) 12json_comment = response_comment.text 13json_comment = json.loads(json_comment) 14 15total = json_comment['result']['total'] 16 17cols = ['author','score','disliked','likes','liked','ctime','score','content','last_ep_index','cursor'] 18dataall = pd.DataFrame(index = range(total),columns = cols) 19 20 21j = 0 22while j <total: 23 n = len(json_comment['result']['list']) 24 for i in range(n): 25 dataall.loc[j,'author'] = json_comment['result']['list'][i]['author']['uname'] 26 dataall.loc[j,'score'] = json_comment['result']['list'][i]['user_rating']['score'] 27 dataall.loc[j,'disliked'] = json_comment['result']['list'][i]['disliked'] 28 dataall.loc[j,'likes'] = json_comment['result']['list'][i]['likes'] 29 dataall.loc[j,'liked'] = json_comment['result']['list'][i]['liked'] 30 dataall.loc[j,'ctime'] = json_comment['result']['list'][i]['ctime'] 31 dataall.loc[j,'content'] = json_comment['result']['list'][i]['content'] 32 dataall.loc[j,'cursor'] = json_comment['result']['list'][n-1]['cursor'] 33 j+= 1 34 try: 35 dataall.loc[j,'last_ep_index'] = json_comment['result']['list'][i]['user_season']['last_ep_index'] 36 except: 37 pass 38 39 comment_api1 = comment_api + '&cursor=' + dataall.loc[j-1,'cursor'] 40 response_comment = requests.get(comment_api1,headers = headers) 41 json_comment = response_comment.text 42 json_comment = json.loads(json_comment) 43 44 if j % 50 ==0: 45 print('已完成 {}% !'.format(round(j/total*100,2))) 46 time.sleep(0.5) 47 48 49 50dataall = dataall.fillna(0) 51 52def getDate(x): 53 x = time.gmtime(x) 54 return(pd.Timestamp(datetime.datetime(x[0],x[1],x[2],x[3],x[4],x[5]))) 55 56dataall['date'] = dataall.ctime.apply(lambda x:getDate(x)) 57 58dataall.to_csv('bilibilib_gongzuoxibao.xlsx',index = False)
03 影评分析
最终一共爬到了17398条影评数据。里面的date是用ctime转过来的,接下来对数据进行一些分析,数据分析通过python3.6完成,代码见文末。
评分分布
评分取值范围为2、4、6、8、10分,对应1-5颗星
可以看出,几乎所有的用户都给了这部动漫五星好评,影响力可见一斑。
评分时间分布
将这部动漫从上线至今所有的评分按日进行平均,观察评分随时间的变化情况
可以看出,评分一直居高不下,尤其起始和结束时都接近满分,足见这是一部良好开端、圆满结束的良心作品。
每日评论数
看完评分之后,再看看评论相关的数据,我最感兴趣的是,这些评论的时间分布是怎么样的,统计了每一日的评论数之后,得到了评论数的分布图
基本上是每出了新的一话,大家看完后就会在短评中分享自己的感受,当然同样是起始和结束阶段的评论数最多,对比同期的百度指数
评论日内分布
除了每日的评论数,也想分析一下评论的日内趋势,用户都喜欢在每日的什么时间进行评论?将评论分24个小时求和汇总后,得到了下图
不过这个结果就不是很理想了,横轴是时间,纵轴是评论数,中午到下午的趋势上升可以理解,晚上七八点没有人评论反倒是凌晨三四点评论数最多,这个就很反常了,可能是评论在系统中上线的时间有一定偏差?
好评字数
此外还想分析一下,是否点赞数多的,一定是写的字数越多的?因为文章中大部分的评论是没有点赞的,所以这里中统计了有点赞(likes>0)的评论点赞数和评论字数的数据。由于有一条评论字点赞数太多,严重偏离整体趋势,所以做了对数图进行观察。
整体来看,似乎没什么关系,大量字数1-100不等的,点赞数都为1,点赞数大于5的部分有一定的正相关性,说明评论不仅要看数量,还要看质量,写出了大家的心声,大家才会使劲点赞。
评论分析TF-IDF
分析完基础数据后,想更深入挖掘一下评论信息,大家都说了些什么?为什么这部剧这么受欢迎?也许都能在评论中找到答案。
jieba分词、去除停止词、计算词频和TF-IDF的过程不表,与之前两篇文章类似。我们提取了重要性前500的词,这里展示部分
血小板高居首位,毕竟大家对萌萌哒事物都是没什么抵抗力的。
词语中也存在一些意义不大的词,前期处理不太到位。不过从这些词云中还是可以看出很多东西,为什么这部剧如此受欢迎?这里通过分词可以得到以下三个解释:
1. 题材好:科普类动漫,老少皆宜
评论中提到了科普、生物、题材等词,还有各种细胞。区别于一般科普向动漫受众低幼的问题,这部番的受众年龄比较广泛。因为所涉及到的知识并不算过于常识。动漫中,每一话,身体的主人都会生一场病,每次出现新的细胞和病毒出现时,都会对他们的身份有比较详细和准确的介绍
这种形式寓教于乐,同时战斗的过程也充分地体现了每种细胞的特性。例如,前期因为战斗力弱而被别的细胞瞧不起的嗜酸性粒细胞,在遇到寄生虫的时候大放异彩。可以说,每一种细胞爆种都爆得都有理有据。
2. 人设好
这部番把几乎人体所有的细胞拟人化:红细胞、白细胞、血小板、巨噬细胞等。每一种细胞都有比较独特的设定,从御姐到萝莉,从高冷到话痨。十几个出场的主要人物都各自有立得住的萌点。满足各种口味的需求。
3. 制作精良
这一点是毋庸置疑的,好的人设好的题材,如果没有好的制作,都是白谈,评论中也有很多人提到了“声优”、“配音”等。
现在能在网上找到很多很多的学习资源,有免费的也有收费的,当我拿到1套比较全的学习资源之前,我并没着急去看第1节,我而是去审视这套资源是否值得学习,有时候也会去问一些学长的意见,如果可以之后,我会对这套学习资源做1个学习计划,我的学习计划主要包括规划图和学习进度表。
分享给大家这份我薅到的免费视频资料,质量还不错,大家可以跟着学习